분류 전체보기(34)
-
Backpropagation(역전파) : 손실함수 미분 과정
텐서플로 케라스를 이용한 딥러닝(박유성)을 기반으로 역전파를 소개하고. 손실함수의 미분과정을 정리했습니다.
2022.02.20 -
BERT 논문 리뷰 : Pre-training of Deep Bidirectional Transformers for Language Unders
오늘은 다양한 분야에서 활용되고 있는 BERT를 제시한 논문 Pre-training of Deep Bidirectional Transformers for Language Understanding을 리뷰하겠습니다. 2019년 Google은 Transformer의 인코더를 사용하는 새로운 language representation model인 BERT(Bidirectional Representations from Transformers)를 소개합니다. 이전의 언어 모델과 다르게 BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥 모두를 고려함으로써 라벨링 되지 않은 텍스트에서 pre-train deep bidirectional representaions를 하도록 만들어졌습니다. 질의응답, 자연어추론 등의 다양한 ..
2022.02.11 -
딥러닝 데이터와 세 가지 기본 신경망
텐서플로 케라스를 이용한 딥러닝(박유성)을 기반으로 딥러닝의 데이터와 세 가지 기본 신경망 MLP, CNN, RNN을 정리했습니다. Reference 텐서플로 케라스를 이용한 딥러닝(박유성) cs 230 Recurrent Neural Networks cheatsheet(https://stanford.edu/~shervine/teaching/cs-230/cheatsheet-recurrent-neural-networks) 사진 Utilization of Neural Network for Disease Forecasting - Scientific Figure on ResearchGate. Available from: https://www.researchgate.net/figure/Architecture-of-..
2022.02.04 -
Transformer 논문 리뷰 : Attention Is All You Need
최근 핫한 주제인 Transformer을 제시한 논문 Attention Is All You Need에 대해서 리뷰해보겠습니다! 2017년 Goolge은 논문 Attention Is All You Need을 발표했습니다. 기존의 지배적인 sequence transduction 모델은 인코더와 디코더를 attention을 통해 연결한 RNN 또는 CNN 구조였습니다. 본 논문에서는 RNN과 CNN을 사용하지 않고 오직 attention에 기반한 simple network 아키텍쳐를 제시합니다. 두가지 머신번역 태스크에서 우월한 성능을 보여주고, 병렬화(parallelizable)을 통해 학습에 필요한 시간이 줄어들었음을 보여줍니다. Introduction RNN, LSTM, Gated RNN은 sequenc..
2022.02.02 -
딥러닝 기본 개념 정리
텐서플로 케라스를 이용한 딥러닝(박유성)을 기반으로 딥러닝의 기본 개념을 정리했습니다. 통계적 관점에서 딥러닝에 대해서 생각해 볼 수 있었습니다. Reference 텐서플로 케라스를 이용한 딥러닝(박유성)
2022.01.29 -
Fasttext 논문 리뷰 : Enriching Word Vectors with Subword Information
오늘은 Word2Vec 모델을 기반으로 하는 논문 Fasttext에 대해서 리뷰해보겠습니다. 2017년 Facebook은 논문 Enriching Word Vectors with Subword Informationd을 발표했습니다. 기존의 단어 임베딩 모델이 각 단어에 별개의 벡터를 부여하면서 단어의 형태론 무시한다는 한계가 있었습니다. 특히 rare words가 많은 large vocabularies에 문제가 되었습니다. 따라서 본 논문에서 skipgram 모델에 기반한 새로운 접근방법 Fasttext를 제시합니다. Fasttext에서 각 단어는 n-gram의 구성으로 표현됩니다. 이 모델은 이름에서 알 수 있듯이 학습 속도가 빠르고, 학습데이터에 등장하지 않은 단어에 대해서도 단어벡터이 표현가능합니다...
2022.01.22