입력 문장 (Sequence of Symbol)에 따라 형태소 분석기를 거치게 된다
이 형태소 분석이라는 것은 입력 어절에 따라 어절 타입 검사 모듈, 코드 변환 모듈, 형태소 분석 모듈을 거쳐 결과값을 출력하게 되는데, 형태소 분석 모듈에서 다양한 모호성을 제거 하기 위해 다양한 처리를 수행하게 되는데 사전 검색 모듈 (TRIE), 불규칙 처리 모듈 (원형 추정), 음성 언어 처리를 위한 음운현상 처리 모듈, 문법 검사 모듈 (Tabular Parsing)을 통해 결과를 출력하게 되고 이 출력된 결과는 의미 분석기를 거쳐 해당 의미의 모호성을 제거하고 담화 분석기를 통해 Context에 맞추어 모호성을 제거하고, 문장 생성기를 통해 출력 문장으로 새로운 문장이 탄생하게 된다.
기존의 자연어 처리는 Rule 기반으로서 규칙이 생성될 때마다 규칙의 충돌로 인한 문제가 발생하고 기존 규칙이 깨지게 되는 문제로 인하여 구조적 모호성 (syntax ambiguity) 과 의미적 모호성 (semantic ambiguity) 에서 자유로울 수 없었다.
이를 극복해 나가기 위한 방법론으로 통계적 분석의 NLP (N-gram)이 등장하게 되었고 이는 Machine-readable형태의 corpora를 활용한 학습을 통해 다양한 Language Model의 태동의 기반이 된다.
하지만 MLE (Maximum Likelihood Estimation)의 문제점이 나타나게 된다.
N-gram의 기본적인 가정은 Markov Assumption에 기반하여 최근 history기반의 추정을 수행한다.
MLE 라는 것은 training set에 기반하여 확률값을 maximization하는 것이기 때문에 training set에 overfitting되어 robust하지 않다는 문제점을 가지게 된다.
그렇기 때문에 unseen N-grams의 경우 likelihood를 estimation하기가 쉽지 않았다.
Zipf’s Law라고 하는 20:80의 법칙 즉 20은 빈번히 출현하지만 80의 값은 0으로 처리되는 sparse data의 문제에서 자유로울 수 없었다.
Sparse Data 문제를 해결하기 위해 ELE(Expectation Likelihood Estimation)인 Smoothig기법이 출현한다.
Laplace Smoothing (add-one smoothing)과 Bayesian Prior Smoothing기법이 출현하나 근본적으로 문제를 개선할 수는 없었다.
위의 N-gram의 문제점을 해결하기 위해 딥러닝(DNN) 기반 Language Modeling기법이 출현하게 된다.
이는 기존의 문제를 tagging base의 학습 기반의 Language Model로 전환하게 되면서 기존의 가솔린 기관의 자동차가 전기차로 변형되는 paradigm sift 효과를 나타내게 된다.
또한 N-gram의 고질적인 문제는 기본적인 가정인 Markov Assumption 가정에서 출발했기 때문에 발생하는 Long-distance dependency문제로 인한 syntactic dependency와 semantic dependency였는데 이를 해결하게 된 것이 바로 Attention Mechanism이였다.
하지만 Attention Mechanism의 경우 카테고라이징 문제에 대해선 자유로울 수 없었으며 이를 개선하기 위해 Attention Mechanism Neural Network를 기반으로 한 Bert와 GPT라는 Language Model기법론이 나오게 된다.
재미있는 부분은 이 모든 연구들은 영문 기반이라는 것이다.
언어마다 특성이 다르고 성격이 다르고, 띄워쓰기를 하지 않는 국가들도 많기 때문에 모든 언어적 특성들을 수용적으로 포용할 수 있는 연구는 많지 않은 것이 현실이다.
그렇기 때문에 서비스 측면에서 아직 연구될 분야는 많고, 자연어 처리 분야의 Language Modeling기법들도 요새는 이미지 모델과의 결합과 다양한 Weight Summation Logic을 탑재한 Neural Network의 확장, 그리고 Graph Neural Net의 출현과 같이 Language Model의 한계를 극복하려는 연구들이 진행되고 있다.