article
paper
text
text document
text corpus : 모델을 학습/평가하는데 사용한 전체 글 집합
- the entire set of articles or papers we used to train and evaluate the model
- the set of texts used for the task
paragraph
sentence
word
vocabulary : 단어사전(dict) 에 들어있는 단어
- the set of unique words used in the text corpus
- character-based vocabularies(letter dicts) vs word-based vocabularies(word dicts)
token
동의어(synonyms) : multiple words with same meaning
다의어(polysemy) : word with multiple meaning
(auto-autonyms) : entirely opposite in nature
(homonyms)
(homographs)
형태소(morpheme)
# 형태소 분류
morpheme
-free
-bound
- inflectional
- derivational
morpheme
- lexical
- funtional
free vs bound : free 형태소는 독립적으로 단어로 쓰일 수 있는 형태소. i.g. open
bound 형태소 : 독립적으로 쓸 수 없는 형태소, i.g. -ness
lexical 은 의미를 전달하는 형태소 i.g. open
functional 은 기능적 형태소, i.g. -ness
functional 은 항상 bound 이 아니다
- is : free, functional morpheme
lexical 은 항상 free morpheme 이 아니다
- conceive 의 -ceive 는 잡다, 가지다 의 뜻을 가진 lexcial morpheme, 하지만 bound morpheme
derivational vs inflectional : 둘 다 bound morpheme
- derivational : -ness, -ment, -tion 주로 단어의 의미나 범주를 바꾸는 morph
- inflectional : -s, -ed, -en, -ing, 형용사에 붙는 비교급 -er, 최상급 -est, 소유격 's, 복수 -s
derivational morpheme
- class1 : 발음/강세를 바꿈. relate(-트) >> relation(-션)
- class2 : 발음/강세를 안 바꿈
- class2가 class1 보다 먼저 올 수 없다. 예) fearlessity 는 불가능.. ?
bound morph : prefix, suffix
- prefix+root
- root+suffix
un- prefix
- 좋은의미~하지 않은 : unhappy, unmarked / unsad, undirty 같이 나쁜의미와는 나오지 않음.
- 반대로하다 : undo
en suffix
- whiten / bluen X
- obstruent 로 끝나는 형태소에만 붙는다. obstruent 에는 stops, fricatives, affricates 를 포함한다.
al suffix
- trial, denial, revival, recital, rehearsal
- 동사의 마지막 음절이 강세를 받을것
- 동사의 마지막 음소가 vowel 일것
- 만약 vowel 이 아니라면, 마지막 음소가 [+anterior] 자질을 지닌 하나의 consonant 나 두 개의 consonant 일것
================================================================================================
- 통사론(syntatic) : syntax(문법)적 유사성
- 의미론(semantic) : 단어의 의미적 유사성, 품사
- 둘 다 각 단어가 자리에 이 단어가 들어가는게 맞냐?를 보는 것
(morphlogy)
(phonology/phonetics)
monosyllabic
장애음(obstruent)
조음 방법에서, 장애음 (Obstruent)이라 함은, 파열음, 마찰음, 파찰음 등과 같이 장애를 조음의 특징적 요소로 하는 음소를 뜻한다.
- 파열음/폐쇄음 (Plosive/stop) - 조음 위치를 막았다가 순간적으로 터뜨리면서 소리냄. 한국어 음절초의 /ㄱ/([k, ɡ]), /ㄷ/([t, d]), /ㅂ/([p, b]) 등.
- 폐쇄한 채 개방하지 않는 것은 불파음(unreleased stop) 또는 미파음이라고 한다. 한국어 음절말의 /ㄱ/([k̚]), /ㄷ/([t̚]), /ㅂ/([p̚])에 볼 수 있다.
- 마찰음 (Fricative/spirant) - 조음 위치를 마찰시키면서 소리냄. 한국어 음절초의 /ㅅ/([s, ɕ]) /ㅎ/([h, ç]) 등.
- 파찰음 (Affricate) - 조음 위치를 막았다가 마찰시키면서 소리냄. 한국어 음절초의 /ㅈ/([t͡ɕ⁽ʰ⁾]) 등
consonant : 자음
vowel : 모음
anterior : 전의?
================================================================================================
토크나이징 개념 참고 : jins-sw.tistory.com/6
tokenizing = text를 최소 단위로 쪼갠다
단위의 종류
1)어절 : 띄어쓰기(whitespace) 단위로 쪼개보자.
- "아름다운 별 지구에 오신 것을 환영합니다." >> [아름다운, 별, 지구에, 오신, 것을, 환영합니다]
- "지구에", "지구를", "지구가"를 모두 다른 토큰으로 취급??
2)형태소 : 명사, 조사, 어미 등으로 더 쪼개보자
- "지구에" >> [지구, 에]
3)subword : (보통 영어) BPE, Sentencepiece,
2. 글자? 자소?
우리 글자의 기본 단위는 글자가 아니라 자음, 모음
"집에 갔다" 의 "갔다" = "가+ㅆ+다"
"가니?", "가구나", "간다" = "가+나머지"
그래서 곰곰이 생각해보다 토큰을 만들 때 글자가 아닌 자소(자음, 모음을 합쳐서 이렇게 부릅니다)
"지구에" = [ㅈ, ㅣ, ㄱ, ㅜ, ㅇ, ㅔ]
Text
Token : 어절(word), subword, 형태소, 자소 등
Tokenizing 방법 : BPE, WPE, sentencepiece 등
Token-vec : fasttext, gensim 등
===============================================================================================
《한글맞춤법》의 띄어쓰기 문제는 띄어쓰기의 단위가 되는 ‘단어(單語)’의 정의와 관련하여 형태론과 통사론 양면에 걸쳐 있다. 본고에서는 먼저 《한글맞춤법》 띄어쓰기의 역사를 단어(실제로는 어절)의 정의와 관련하여 검토하고 이를 형태론 분야와 통사론 분야의 문제로 나누어 살펴본 뒤 이에 대한 적절한 해결 방안을 찾아보고자 하였다. 또한 이 논문에서는 국어 띄어쓰기의 성립을 전통적 표기 원리의 정착(구두법, 공격 및 대두법 등) 과정과 근대적 띄어쓰기 형성의 과정에서 이른바 최소 자립 형식으로서의 ‘어절’(혹은 ‘감말’) 단위를 확인하기 위한 통합적 과정에서 이루어진 것으로 이해하고 이러한 어절의 개념에 대한 적극적 이해를 통해 띄어쓰기와 관한 여러 가지 문제를 해결할 수 있음을 주장하고자 하였다.
단어의 정의
형태론
통사론
띄어쓰기
어절
전통적 표기 원리
- 구두법, 공격, 대두법
근대적 띄어쓰기 형성
- 최소 자립, 어절, 감말
www.korean.go.kr/front/onlineQna/onlineQnaView.do?mn_id=216&qna_seq=52807
'단어'와 '자립 형태소'
‘단어’는 ‘㉠분리하여 자립적으로 쓸 수 있는 것’과 ‘㉡조사’를 포함하는 개념
한 낱말(단어)인 ‘동사, 형용사’는 의존 형태소(어간, 어미)에 해당되므로
㉠을 ‘자립 형태소’와 같은 개념으로 보기 어려울 듯
‘형태소’는 ‘의미를 가진 최소의 단위’
‘단어’는 ‘최소의 자립 형식’
===============================================================================================
instance name(이름, 고유명사) : char copy/transliteration (i.g. Trump - 트럼프)
compounds(합성어) : compositional transformation ()
cognates(동원어) : phonological, morphological transformer (i.g. taxi - 택시)
loanwords(외래어) : 위와 동일 (i.g. taxi - 택시)
morphological 형태학적 synthesis 합성
transliteralization : 음역
compounding example
agglutination응집/교착
compounding합성
한국어 - 굴절어, 교착어
굴절어
namu.wiki/w/%EA%B5%B4%EC%A0%88%EC%96%B4
교착어 굴절어 고립어 - zomzom.tistory.com/1074
tokenizer 이라는 범주 안에, word level, subword level(중에 bpe) 등의 형식/알고리즘이 있다고 보면 됨.
영어는 새로운게 안나와서 굴절어에서 고립어가 되어있다.
================================================================================================
word-segmentation
king 이란 단어를 임베딩 하다보니 man, power, 등과 유사해진건지? 결과적으로?
man, power 이런거를 합쳐서 만든건지? 처음부터?
================================================================================================
inherently - 구조적으로 근원적으로 태생적으로 architecture A 를 base 로 하고 있기 때문에 B의 문제가 태생적으로 존재한다
conjecture - 어림짐작하다. 아마 ~ 때문에 ~럴 거같다..
- we conjecture that the use of a fixed-length vector is a bottleneck in improving the performance of this basic encoder–decoder architecture
to cope with long sentences - 긴 문장에 대처하기
deteriorate - 악화시킨다
squash - 압축하다? compression
- to squash all the information of a source sentence a global approach which always attends to all source words
in order to address this issue - 이 문제를 해결하기 위해서
subset - 부분집합, 일부
intricate - 뒤얽힘
- implementing NMT decoders is easy unlike the highly intricate decoders in standard MT
modalities : 양식
- to learn alignments between different modalities
emitting - 내보내다.
- emitting one target word at a time 한번에 한 단어씩 내보내다. decode 하다
conduct - 수행하다.
- We conduct extensive analysis to evaluate our models in terms of learning, 분석을 수행하다.
dispense - 분배/배분/없애다
constituency - 후원자
transduction - 변환
dominant - 지배적인, 우성의
constraint - 강제
factor - 인수분해하다
================================================================================================
BLEU score
- https://donghwa-kim.github.io/BLEU.html
- 기계 번역 시, 1,2,3,4-gram 단어들의 확률 곱 기반 평가지표