NLP(11)
-
GloVe 논문 리뷰 : Global Vectors forWord Representation
오늘은 Word2Vec과 가장 많이 비교되는 모델인 GloVe를 발표한 논문 Global Vectors forWord Representation을 리뷰하겠습니다. 이전에 포스팅했던 Word2Vec의 경우 window 단위의 학습으로 단어를 표현하거나 유추하는데에는 좋은 성능을 보이지만 전체적인 통계 정보를 잘 나타내지 못한다는 한계가 존재합니다. 이에, GloVe가 word2vec의 어떤 점을 어떻게 개선시키려 했는지 알아보고자 본 논문을 선택하였습니다. 2014년 Stanford는 기존의 자연어처리 모델의 문제점을 해결하기 위해 GloVe를 제시했습니다. Introduction Semantic vector 모델을 통해서 단어의 의미를 표현하는 벡터를 만들 수 있습니다. 대부분의 벡터 방법론은 단어간의 ..
2022.01.16 -
Skip-gram 코드 구현 : Word2Vec의 Skip-gram 모델 구현
저번 포스트에서는 논문 Efficient Estimation Of Word Representations In Vector Space를 소개하고 Word2Vec의 아키테쳐에 대해 설명했습니다. 이번에는 Word2Vec 중 Skip-gram 모델을 구현해보겠습니다. Skip-gram은 Word2vec에서 제시한 모델 중 하나입니다. CBOW와 반대로 중심단어로 부터 주변단어를 예측합니다. 그림에서 볼 수 있듯이 Skip-gram의 모델의 imput layer는 하나이고 output layers는 주변단어의 수만큼 존재합니다. 따라서 각 output layer에서는 softmax with loss layer 등을 이용해 손실을 구하고 이 손실을 모두 더한 값이 최종 손실이 됩니다. 주변단어 수 만큼 손실을 계..
2022.01.10 -
CBOW 코드 구현 : Word2Vec의 CBOW 모델 구현
저번 포스트에서는 논문 Efficient Estimation Of Word Representations In Vector Space를 소개하고 Word2Vec의 아키테쳐에 대해 설명했습니다. 이번에는 Word2Vec 중 CBOW 모델을 구현해보겠습니다. Word2Vec은 단어출현 패턴을 학습해 단어의 분산표현을 도출합니다. 다중 클래스 분류이기 때문에 소프트맥스와 교차 엔트로피 오차만 사용하면 됩니다. 소프트맥스 함수를 이용해 점수를 확률로 변환하고, 그 확률과 정답레이블로부터 교차엔트로피 오차로 구한 손실을 사용해 학습합니다. CBOW는 Word2Vec에서 제시한 두개의 모델 중 하나입니다. CBOW는 주변단어로부터 중심단어를 예측합니다. 주변단어의 개수만큼 input layers가 있고 hidden ..
2022.01.07 -
Word2Vec 논문 리뷰 : Efficient Estimation Of Word Representations In Vector Space
NLP에서 많이 활용되는 Efficient Estimation Of Word Representations In Vector Space (Word2Vec) 논문리뷰를 하겠습니다. 구글(Google)은 2013년 Word2Vec이라고 불리는Efficient Estimation Of Word Representations In Vector Space논문을 발표했습니다. Word2Vec은 단어를 벡터로 바꿔주는 embedding 방법론입니다. 이 논문에서는 큰 데이터셋으로부터 높은 수준의 연속적인 word verctors를 학습하는 기술을 소개합니다. 1. Introduction 기존의 NLP 에서는 단어를 atomic units로 취급했는데 이러한 방법은 단어간의 유사성에 대한 고려가 없고, 대량의 데이터를 학..
2022.01.03 -
토픽모델링: LDA(Latent Dirichlet Allocation)
토픽모델링은 방대한 양의 텍스트 자료의 주요 주제를 머신러닝을 통해 추출하는 기법이다. 토픽모델링 기법 중에 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA)을 사용할 것이다. 산림빅데이터거래소의 산림교육정보 프로그램교육목적 데이터를 활용할 것이다. #한글 깨짐을 방지 #런타임을 빨리 하기 위해 코랩에서 이 코드를 돌리신 뒤, '런타임-런타임 다시 시작' 누르기 #다시 이 코드를 돌리기. (총 2번 돌리는 것) import matplotlib as mpl import matplotlib.pyplot as plt %config InlineBackend.figure_format = 'retina' !apt -qq -y install fonts-nanum import ma..
2021.08.18