본문으로 바로가기

aiffel 대전 1기 nlp 반 fast paper

fast paper 는 논문의 abstract, introduction 만 읽는 읽는 모임

1일차 3편 중 1편 efficient estimation of word representations in vector space

원문 논문 링크 : arxiv.org/pdf/1301.3781.pdf

 

1.abstract

 

위 논문에서는 2개의 모델구조(CBOW, Skip-gram) 을 제시함.

두 모델의 목적은 매우 큰 단어 데이터셋의 유사성을 측정(수치화)하기 위함

이를 통해 accuracy(정확도) 증가 및 computational cost(계산량) 감소의 결과

  - i.e. 16억 워드벡터 데이터셋을 학습시키는데 1일이면 충분함.

통사론, 의미론 모두 단어의 유사성을 측정하는데 최고의 성능을 발휘함.

  - 통사론(syntatic) : syntax(문법)적 유사성

  - 의미론(semantic) : 단어의 의미적 유사성, 품사

  - 둘 다 각 단어가 자리에 이 단어가 들어가는게 맞냐?를 보는 것

 

2.introduction

 

기존의 nlp 시스템, 테크닉

  - 단어를 원자 단위(indices, 지수(index))로 취급

  - 지수로 취급하면, 단어간의 유사도 개념이 사라진다.

  - 장점 : 단순함, 강건함, 적은 데이터로도 복잡한 시스템 학습 가능함.

  - i.e. 통계적 모델링 n-gram 으로 학습 시, 수 조 개의 단어 학습 가능함.

  - 그러나 단순한 테크닉으로는 다양한 과제에 적용하기 한계가 있음.

  - 데이터 셋의 양(크기)에 지배적 영향 받음

기존 사용하던 시스템, 테크닉을 단순 확장해서는 대단한 진보를 이루기 힘들다.

새로운 시스템과 테크닉이 필요하다.

 

기존 사용하던 머신러닝 테크닉을 발전을 통해 더 큰 데이터 셋으로 더 복잡한 모델을 학습시킬 수 있다.

단순한 모델들보다 성능이 뛰어나다.

단어들의 분산 표현이 가장 성공적인 개념이다. 신경망 기반 언어모델이 n-gram 모델 기반을 능가한다.

 

2-3.논문의 목적

 

수 십 억 단어들의 데이터 셋으로부터 고성능 단어벡터들을 학습, 수백만 vocab, 수 십 억 word 로 학습시킴

  - 이전 모델들로는 수 억 단어로부터 50~100 차원의 vector 로 밖에 학습 못 시킴

제시하는 테크닉을 사용하면, 벡터 표현 결과의 질을 측정한다.

비슷한 단어들은 가까운 공간/좌표 안에 존재한다.

유사성의 다양한 정도가 존재한다.

multiple degrees of similarity 가 존재한다.

  - king 안에는 man, power, nation 등의 다양한 속성, 유사성이 있음

word endings

  - i.e. 명사의 teacher, firefighter 의 -er 같은 단어의 어미

inflection language(굴절어)

단순한 문법 규정을 넘는 단어 표현의 유사성을 찾음. 

단어벡터들의 단어 offset 테크닉을 적용 = 단순한 대수연산(+/-연산)

  - i.e. king - man + woman = queen

이러한 벡터간의 연산의 정확도를 최대화시키는 새로운 모델 구조를 발전시킴

단어간의 선형 규칙성(king, queen 연산)

통사론, 의미론 규칙성을 모두 측정하는 종합 테스트 셋을 디자인함.

결과적으로,

  - 높은 정확도의 통사론, 의미론 규칙성을 학습 가능하다.

  - 학습 데이터 셋의 크기/워드벡터의 차원 수에 따라 학습시간, 정확도는 영향받음