NLP(11)
-
BART 논문 리뷰 : Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and Comprehension
BART는 Facebook에서 2019년에 발표한 논문입니다. 문장 이해와 문장 생성에 높은 성능을 가지고 있는 모델입니다. SKT에서 40GB 이상의 한국어 텍스트에 대해서 학습한 한국어 모델 KoBART를 배포해 한국어 텍스트에 대해서도 좋은 성능을 가지고 있습니다. 뉴스요약, 가사 생성 등 다양한 적용이 가능한데요! 이번 포스트에서 BART 모델의 구조와 사전학습에 대해서 소개하겠습니다. Abstract BART는 임의로 noise를 주어 텍스트를 손상 시킨 후 원래 텍스트를 재구성하기 위한 모델을 학습하는(denoising autoencoder) 사전학습 sequence-to-sequence model 입니다. Transformer 기반의 뉴럴 기계번역 구조를 사용합니다. 이는 bidirectio..
2022.08.26 -
RoBERTa 논문 리뷰 : A Robustly Optimized BERT Pretraining Approach
Facebook에서 2019년에 발표한 논문인 RoBERTa에 대해서 소개하겠습니다. RoBERT는 BERT를 개선시킨 모델입니다. RoBERT는 높은 성능을 가져 다양하게 사용되고 있습니다. BERT의 어떤 요소들을 개선해 성능향상을 이루어냈는지 지금부터 소개하겠습니다. Abstract 사전학습된 언어모델은 성능의 개선을 이루어냈지만 학습의 계산이 무겁고 하이퍼파라미터의 값에 따라 결과에 큰 영향이 있습니다. 이전 논문(Devlin et al., 2019)에서는 BERT에 대해서 재현 연구(Replication study)를 통해 하이퍼파라미터와 데이터 사이즈가 미치는 영향에 대해서 알아봤습니다. BERT가 완벽하지 않고 BERT를 넘어서는 모델을 만들 수 있음을 확인했습니다. 본 논문에는 RoBERT..
2022.07.30 -
한국어 문장 관계 분류 모델 : RoBERTa+KoELECTRA+Backtrans
DACON 한국어 문장 관계 분류 경진대회 Premise 문장을 참고해 Hypothesis 문장이 참인지(Entailment), 거짓인지(Contradiction), 혹은 참/거짓 여부를 알 수 없는 문장인지(Neutral)를 판별하는 모델을 만드는 것이 목적입니다. RoBERTa와 KoELECTRA 모델을 사용했고 최종 5위를 할 수 있었습니다. 한국어 문장에 대한 다양한 전처리를 시도했고, 앙상블을 통해서 성능을 높일 수 있었습니다. 자세한 모델링 과정은 다음 데이콘에서 작성한 코드공유에서 확인할 수 있습니다! https://dacon.io/competitions/official/235875/codeshare/4596?page=3&dtype=recent [Private 6th/0.89555]RoBER..
2022.03.18 -
BERT 논문 리뷰 : Pre-training of Deep Bidirectional Transformers for Language Unders
오늘은 다양한 분야에서 활용되고 있는 BERT를 제시한 논문 Pre-training of Deep Bidirectional Transformers for Language Understanding을 리뷰하겠습니다. 2019년 Google은 Transformer의 인코더를 사용하는 새로운 language representation model인 BERT(Bidirectional Representations from Transformers)를 소개합니다. 이전의 언어 모델과 다르게 BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥 모두를 고려함으로써 라벨링 되지 않은 텍스트에서 pre-train deep bidirectional representaions를 하도록 만들어졌습니다. 질의응답, 자연어추론 등의 다양한 ..
2022.02.11 -
Transformer 논문 리뷰 : Attention Is All You Need
최근 핫한 주제인 Transformer을 제시한 논문 Attention Is All You Need에 대해서 리뷰해보겠습니다! 2017년 Goolge은 논문 Attention Is All You Need을 발표했습니다. 기존의 지배적인 sequence transduction 모델은 인코더와 디코더를 attention을 통해 연결한 RNN 또는 CNN 구조였습니다. 본 논문에서는 RNN과 CNN을 사용하지 않고 오직 attention에 기반한 simple network 아키텍쳐를 제시합니다. 두가지 머신번역 태스크에서 우월한 성능을 보여주고, 병렬화(parallelizable)을 통해 학습에 필요한 시간이 줄어들었음을 보여줍니다. Introduction RNN, LSTM, Gated RNN은 sequenc..
2022.02.02 -
Fasttext 논문 리뷰 : Enriching Word Vectors with Subword Information
오늘은 Word2Vec 모델을 기반으로 하는 논문 Fasttext에 대해서 리뷰해보겠습니다. 2017년 Facebook은 논문 Enriching Word Vectors with Subword Informationd을 발표했습니다. 기존의 단어 임베딩 모델이 각 단어에 별개의 벡터를 부여하면서 단어의 형태론 무시한다는 한계가 있었습니다. 특히 rare words가 많은 large vocabularies에 문제가 되었습니다. 따라서 본 논문에서 skipgram 모델에 기반한 새로운 접근방법 Fasttext를 제시합니다. Fasttext에서 각 단어는 n-gram의 구성으로 표현됩니다. 이 모델은 이름에서 알 수 있듯이 학습 속도가 빠르고, 학습데이터에 등장하지 않은 단어에 대해서도 단어벡터이 표현가능합니다...
2022.01.22