aiffel 대전 1기 nlp 반 fast paper
fast paper 는 논문의 abstract, introduction 만 읽는 읽는 모임
2021년 4월 3일 토요일 1일차 오후 1시
3편 중 3편 SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing
원문 논문 링크 : arxiv.org/pdf/1808.06226.pdf
keyword : language independent, segmentor, tokenizer, 형태소 분석기
참고 : https://wikidocs.net/22592
2편의 bpe 가 근본 개념이라면, 3편의 sentencepiece 는 구현방법에 해당함.
1.abstract
목적 : 언어와 상관없는 tokenizer/detokenizer 를 만들어보자. BPE / Unigram
적용 : 신경망 기계변역(NMT) 에 적용할 신경망 기반의 언어처리에
기존과의 차이
- 기존 : 언어별로 1)segmentor, 2)tokenizer, 3)형태소 분석기 를 거친 후, 신경망 모델에 들어감
- 이 방법 : 언어 상관없이 raw sentence 를 넣어서 sentencepiece 한번 거치면 학습 가능 + end-to-end
subword segmentation
2.introduction
한중일 언어는 non-segmented(띄어쓰기 whitespace 가 없다. 한국어는 띄어쓰기가 있지만 조사 등 붙어있음)
유럽/미 언어는 모든 단어를 띄어쓰기하는 segmented 언어
SMT(통계적 기계번역)의 pre-post processor 는 언어별로 전처리 방법이 다르다.
- SMT 전처리기들 : de-facto standard, 사실상 표준으로 사용하고 있는
언어에 구애받지 않는, 언어에 독립적인 = language-independent, language-agnostic architectures