분류 전체보기(34)
-
CBOW 코드 구현 : Word2Vec의 CBOW 모델 구현
저번 포스트에서는 논문 Efficient Estimation Of Word Representations In Vector Space를 소개하고 Word2Vec의 아키테쳐에 대해 설명했습니다. 이번에는 Word2Vec 중 CBOW 모델을 구현해보겠습니다. Word2Vec은 단어출현 패턴을 학습해 단어의 분산표현을 도출합니다. 다중 클래스 분류이기 때문에 소프트맥스와 교차 엔트로피 오차만 사용하면 됩니다. 소프트맥스 함수를 이용해 점수를 확률로 변환하고, 그 확률과 정답레이블로부터 교차엔트로피 오차로 구한 손실을 사용해 학습합니다. CBOW는 Word2Vec에서 제시한 두개의 모델 중 하나입니다. CBOW는 주변단어로부터 중심단어를 예측합니다. 주변단어의 개수만큼 input layers가 있고 hidden ..
2022.01.07 -
Python_변수가 2개인 막대그래프
두개의 특성변수를 하나의 막대그래프로 나타내는 방법입니다. 실습을 위해 데이터 셋을 임의로 만들었습니다. import pandas as pd import matplotlib as plt df1 = pd.read_csv('C:/Users/ellyj/Desktop/data/example2018.csv',encoding='UTF-8') df1.head() df2 = pd.read_csv('C:/Users/ellyj/Desktop/data/example2019.csv',encoding='UTF-8') df2.head() 데이터를 불러옵니다. id가 같고 변수가 각각 v1, v2인 데이터 입니다. merge() 함수를 통해 df1과 df2를 id을 기준으로 열을 추가해 합칩니다. df3 = pd.merge(df1..
2022.01.05 -
Word2Vec 논문 리뷰 : Efficient Estimation Of Word Representations In Vector Space
NLP에서 많이 활용되는 Efficient Estimation Of Word Representations In Vector Space (Word2Vec) 논문리뷰를 하겠습니다. 구글(Google)은 2013년 Word2Vec이라고 불리는Efficient Estimation Of Word Representations In Vector Space논문을 발표했습니다. Word2Vec은 단어를 벡터로 바꿔주는 embedding 방법론입니다. 이 논문에서는 큰 데이터셋으로부터 높은 수준의 연속적인 word verctors를 학습하는 기술을 소개합니다. 1. Introduction 기존의 NLP 에서는 단어를 atomic units로 취급했는데 이러한 방법은 단어간의 유사성에 대한 고려가 없고, 대량의 데이터를 학..
2022.01.03 -
R_서울시 지도 시각화 : 서울시 자치구 특성과 공공자전거 대여량
코로나19에 따라 사람들 간의 접촉이 높은 지하철, 버스 등의 대중교통을 기피하는 현상이 나타나고 개인이동수단인 공공자전거가 주목받고 있습니다. 지역특성이 공공자전거 수요에 미치는 영향을 알아보기 위해 서울시 자치구의 특성과 자전거 수요의 관계를 다음과 같이 시각화했습니다. 그 중 서울시 지도 시각화 방법을 소개하겠습니다. library(ggmap) library(ggplot2) library(raster) library(rgeos) library(maptools) library(rgdal) install.packages("raster") install.packages("rgeos") install.packages("maptools") install.packages("rgdal") library(read..
2021.12.15 -
K-Nearest Neighbors, Kernel Density Estimation
KNN 과 KDE 박유성 교수님의 통계적머신러닝 강의와 김성범 교수님의 핵심머신러닝 강의를 기반으로 학습한 기록이다.
2021.12.11 -
Dimension reduction : PCA
차원 축소 PCA 박유성 교수님의 통계적머신러닝 강의와 김성범 교수님의 핵심머신러닝 강의를 기반으로 학습한 기록이다.
2021.12.08