분류 전체보기(34)
-
잡케어 추천 알고리즘 프로젝트 기록, 데이콘 공모전 후기
잡케어 추천 알고리즘 경진대회에 참가했다. 고용정보원에서 주체하는 경진대회로 잡케어 서비스에 적용 가능한 추천 알고리즘 개발하는 것이 목적이다. 잡케어는 일자리를 탐색하는 구직자에게 구직자의 이력서를 인공지능 기술로 직무역량을 자동 분석하여 훈련, 자격, 일자리 상담에 활용할 수 있도록 지원하는 시스템이다. 한달동안 개인별 맞춤형 컨텐츠 추천 모델을 만들었다! 간략하게 공모전 과정에서 어떤 생각을 하고 어떤 시도를 해봤는지 남기려고 한다. 2022년 1월 1주차 팀을 구성하고 데이터와 변수에 대해서 파악했다. -34개의 특성변수가 있고 -목적 변수는 컨텐츠 사용여부로 분류문제이다. 특성변수는 (1) 회원 속성 대한 변수, (2) 컨텐츠 속성에 대한 변수, (3) 회원과 컨테츠 속성의 매칭여부로 나눌 수 ..
2022.01.18 -
GloVe 논문 리뷰 : Global Vectors forWord Representation
오늘은 Word2Vec과 가장 많이 비교되는 모델인 GloVe를 발표한 논문 Global Vectors forWord Representation을 리뷰하겠습니다. 이전에 포스팅했던 Word2Vec의 경우 window 단위의 학습으로 단어를 표현하거나 유추하는데에는 좋은 성능을 보이지만 전체적인 통계 정보를 잘 나타내지 못한다는 한계가 존재합니다. 이에, GloVe가 word2vec의 어떤 점을 어떻게 개선시키려 했는지 알아보고자 본 논문을 선택하였습니다. 2014년 Stanford는 기존의 자연어처리 모델의 문제점을 해결하기 위해 GloVe를 제시했습니다. Introduction Semantic vector 모델을 통해서 단어의 의미를 표현하는 벡터를 만들 수 있습니다. 대부분의 벡터 방법론은 단어간의 ..
2022.01.16 -
콘텐츠 기반 필터링(Content-based filtering)
무엇이 좋은 추천인가? 어떻게 하면 추천을 잘할 수 있을까? 추천시스템을 학습하면서 이러한 질문에 대해 계속해서 고민하고자 합니다! 도매인에 따라 같은 방법론을 적용하기 힘들어 추천방법이 다르고 추천방법에 따라 완전히 다른 결과가 나올 수 있습니다. 앞으로 다양한 추천방법에 대해서 포스팅하겠습니다. 오늘은 추천시스템의 개론과 대표적인 추천시스템 방법론을 소개하겠습니다. 추천시스템에는 비개인화 추천과 개인화 추천이 있습니다. 비개인화 추천은 전체 데이터에 대해서 추천하는 방식입니다. 개인화추천은 개인평점, 개인이 시청한 항목 등 개개인의 데이터에 대해서 추천하는 방식입니다. (1) 비개인화 추천 - 랭킹 / 평점 / 등급 - 유사 콘텐츠 - 연관 분석 (2)개인화 추천 - 개인 평점 - 개인이 시청한 항목..
2022.01.14 -
Word2Vec을 활용한 추천시스템
이전 포스트에서 Word2Vec 논문을 리뷰했습니다. 오늘은 Word2Vec을 활용한 추천시스템에 대해서 소개하도록하겠습니다. Word2Vec은 비슷한 의미의 단어를 분류하고 단어끼리 계산하여 적절한 의미를 도출합니다. 자연어를 다루는 문제에서 단어의 분산표현이라는 방법으로 벡터화할 수 있습니다. 이 분산표현은 다양한 자연어처리 작업에 이용할 수 있습니다.(전이학습) 그래서 텍스트 분류, 문서 클러스터링, 기계번역 등 NLP분야에서 다양하게 적용되고 있습니다. 또한 자연어 뿐만 아니라 음성, 이미지, 동영상에도 응용되고 있습니다. Word2Vec을 활용한 추천시스템 1. 단어를 벡터화 the fat cat ___ on the mat Word2Vec(CBOW)는 "the fat cat sat on the ..
2022.01.12 -
Skip-gram 코드 구현 : Word2Vec의 Skip-gram 모델 구현
저번 포스트에서는 논문 Efficient Estimation Of Word Representations In Vector Space를 소개하고 Word2Vec의 아키테쳐에 대해 설명했습니다. 이번에는 Word2Vec 중 Skip-gram 모델을 구현해보겠습니다. Skip-gram은 Word2vec에서 제시한 모델 중 하나입니다. CBOW와 반대로 중심단어로 부터 주변단어를 예측합니다. 그림에서 볼 수 있듯이 Skip-gram의 모델의 imput layer는 하나이고 output layers는 주변단어의 수만큼 존재합니다. 따라서 각 output layer에서는 softmax with loss layer 등을 이용해 손실을 구하고 이 손실을 모두 더한 값이 최종 손실이 됩니다. 주변단어 수 만큼 손실을 계..
2022.01.10 -
Github 기본 사용방법
유튜브 메모밍 채널을 보고 차근차근 따라갔다! 아직 익숙하지 않아서 간단하게 정리하고자 한다. " Push(git에 올리기), Pull(git에서 가져오기) : Push 전에 Pull이 있다. " (처음 생성할 때는 상관없지만 작업할 때 가져오고 수정한 다음에 올려야한다. 그냥 올리면 이전에 git에서 작업한게 날라가니까 기억하기!) 1. repository 만들기 new repository 클릭 repository 이름 입력하고 create repository : 이렇게 해서 생기는 주소 복사하기 = repository adress 2. root 폴더 만들기 (web상의 git과 연결될 Local Folder) 새폴더 생성 Git Bash here $ git init $ git remote add or..
2022.01.09