aiffel_fastpaper_sentencepiece

aiffel 대전 1기 nlp 반 fast paper

fast paper 는 논문의 abstract, introduction 만 읽는 읽는 모임

2021년 4월 3일 토요일 1일차 오후 1시

3편 중 3편 SentencePiece: A simple and language independent subword tokenizer and detokenizer for Neural Text Processing

keyword : language independent, segmentor, tokenizer, 형태소 분석기

2편의 bpe 가 근본 개념이라면, 3편의 sentencepiece 는 구현방법에 해당함.

1.abstract

목적 : 언어와 상관없는 tokenizer/detokenizer 를 만들어보자. BPE / Unigram

적용 : 신경망 기계변역(NMT) 에 적용할 신경망 기반의 언어처리에

기존과의 차이

- 기존 : 언어별로 1)segmentor, 2)tokenizer, 3)형태소 분석기 를 거친 후, 신경망 모델에 들어감

- 이 방법 : 언어 상관없이 raw sentence 를 넣어서 sentencepiece 한번 거치면 학습 가능 + end-to-end

subword segmentation

2.introduction

한중일 언어는 non-segmented(띄어쓰기 whitespace 가 없다. 한국어는 띄어쓰기가 있지만 조사 등 붙어있음)

유럽/미 언어는 모든 단어를 띄어쓰기하는 segmented 언어

SMT(통계적 기계번역)의 pre-post processor 는 언어별로 전처리 방법이 다르다.

- SMT 전처리기들 : de-facto standard, 사실상 표준으로 사용하고 있는

언어에 구애받지 않는, 언어에 독립적인 = language-independent, language-agnostic architectures

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

LEARNER