BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (Paper) Jacob Devlin Ming-Wei Chang Kenton Lee Kristina Toutanova Google AI Language 1. 서론 기존의 자연어 처리 모델은 Specific Task 모델을 Inital State 에서 부터 훈련하기 위한 형태로 접근하였다. 이러한 접근 방법의 문제는 여러가지가 있겠지만, 목적별로 많은 훈련 데이터를 확보해야만 한다는 것이 가장 큰 문제일 것이다. […]