aiffel 대전 1기 nlp 반 fast paper
fast paper 는 논문의 abstract, introduction 만 읽는 읽는 모임
1일차 3편 중 1편 efficient estimation of word representations in vector space
원문 논문 링크 : arxiv.org/pdf/1301.3781.pdf
1.abstract
위 논문에서는 2개의 모델구조(CBOW, Skip-gram) 을 제시함.
두 모델의 목적은 매우 큰 단어 데이터셋의 유사성을 측정(수치화)하기 위함
이를 통해 accuracy(정확도) 증가 및 computational cost(계산량) 감소의 결과
- i.e. 16억 워드벡터 데이터셋을 학습시키는데 1일이면 충분함.
통사론, 의미론 모두 단어의 유사성을 측정하는데 최고의 성능을 발휘함.
- 통사론(syntatic) : syntax(문법)적 유사성
- 의미론(semantic) : 단어의 의미적 유사성, 품사
- 둘 다 각 단어가 자리에 이 단어가 들어가는게 맞냐?를 보는 것
2.introduction
기존의 nlp 시스템, 테크닉
- 단어를 원자 단위(indices, 지수(index))로 취급
- 지수로 취급하면, 단어간의 유사도 개념이 사라진다.
- 장점 : 단순함, 강건함, 적은 데이터로도 복잡한 시스템 학습 가능함.
- i.e. 통계적 모델링 n-gram 으로 학습 시, 수 조 개의 단어 학습 가능함.
- 그러나 단순한 테크닉으로는 다양한 과제에 적용하기 한계가 있음.
- 데이터 셋의 양(크기)에 지배적 영향 받음
기존 사용하던 시스템, 테크닉을 단순 확장해서는 대단한 진보를 이루기 힘들다.
새로운 시스템과 테크닉이 필요하다.
기존 사용하던 머신러닝 테크닉을 발전을 통해 더 큰 데이터 셋으로 더 복잡한 모델을 학습시킬 수 있다.
단순한 모델들보다 성능이 뛰어나다.
단어들의 분산 표현이 가장 성공적인 개념이다. 신경망 기반 언어모델이 n-gram 모델 기반을 능가한다.
2-3.논문의 목적
수 십 억 단어들의 데이터 셋으로부터 고성능 단어벡터들을 학습, 수백만 vocab, 수 십 억 word 로 학습시킴
- 이전 모델들로는 수 억 단어로부터 50~100 차원의 vector 로 밖에 학습 못 시킴
제시하는 테크닉을 사용하면, 벡터 표현 결과의 질을 측정한다.
비슷한 단어들은 가까운 공간/좌표 안에 존재한다.
유사성의 다양한 정도가 존재한다.
multiple degrees of similarity 가 존재한다.
- king 안에는 man, power, nation 등의 다양한 속성, 유사성이 있음
word endings
- i.e. 명사의 teacher, firefighter 의 -er 같은 단어의 어미
inflection language(굴절어)
단순한 문법 규정을 넘는 단어 표현의 유사성을 찾음.
단어벡터들의 단어 offset 테크닉을 적용 = 단순한 대수연산(+/-연산)
- i.e. king - man + woman = queen
이러한 벡터간의 연산의 정확도를 최대화시키는 새로운 모델 구조를 발전시킴
단어간의 선형 규칙성(king, queen 연산)
통사론, 의미론 규칙성을 모두 측정하는 종합 테스트 셋을 디자인함.
결과적으로,
- 높은 정확도의 통사론, 의미론 규칙성을 학습 가능하다.
- 학습 데이터 셋의 크기/워드벡터의 차원 수에 따라 학습시간, 정확도는 영향받음