본문으로 바로가기

aiffel_fastpaper_sentencepiece

category 카테고리 없음 2021. 4. 4. 02:44

aiffel 대전 1기 nlp 반 fast paper

fast paper 는 논문의 abstract, introduction 만 읽는 읽는 모임

2021년 4월 3일 토요일 1일차 오후 1시

3편 중 3편 SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

원문 논문 링크 : arxiv.org/pdf/1808.06226.pdf

keyword : language independent, segmentor, tokenizer, 형태소 분석기

참고 : https://wikidocs.net/22592

 

2편의 bpe 가 근본 개념이라면, 3편의 sentencepiece 는 구현방법에 해당함.

 

 

1.abstract

 

목적 : 언어와 상관없는 tokenizer/detokenizer 를 만들어보자. BPE / Unigram

적용 : 신경망 기계변역(NMT) 에 적용할 신경망 기반의 언어처리에

기존과의 차이

 - 기존 : 언어별로 1)segmentor, 2)tokenizer, 3)형태소 분석기 를 거친 후, 신경망 모델에 들어감

 - 이 방법 : 언어 상관없이 raw sentence 를 넣어서 sentencepiece 한번 거치면 학습 가능 + end-to-end

subword segmentation

 

2.introduction

 

한중일 언어는 non-segmented(띄어쓰기 whitespace 가 없다. 한국어는 띄어쓰기가 있지만 조사 등 붙어있음)

유럽/미 언어는 모든 단어를 띄어쓰기하는 segmented 언어

SMT(통계적 기계번역)의 pre-post processor 는 언어별로 전처리 방법이 다르다.

 - SMT 전처리기들 : de-facto standard, 사실상 표준으로 사용하고 있는

언어에 구애받지 않는, 언어에 독립적인 = language-independent, language-agnostic architectures