Author: tmddno1@naver.com

OneShot Text classification(BERT + SIAMESE NEURAL NETWORKS)

BERT 와 Siamese Neural Networks 의 조합을 통해 Text Classification 을 OneShot 으로 적용해 보고자 한다. 아래는 Test Code Link (Colab) https://colab.research.google.com/drive/1ixWY3er1Wxirl1r2zGxular2ZplpK-qN

Read more

Machine Reading comprehension recent research

MRC(Machine Reading Comprehension) 연구 최신 Trend 인 XLNet 과 Albert 에 대한 Review

Read more

Old fashioned nlp algorithms

1. Boolean Retrieval (1) Inverted Index Term-document incidence matrix 는 Boolean 연산 기반으로 Information Retrieval 을 하기 위한 대표적인 방법으로 기본적으로 위의 테이블과 같은 가로축은 문서, 세로축은 단어 형태로 Matrix 를 구성하고, 각 문서 별로 단어가 존재하면 1, 그렇지 않으면 0 형태로 테이블을 구성하는 것을 시작으로 한다. 하지만 이러한 방법은 Matrix 사이즈가 매우 크고 데이터가 […]

Read more

Deep Learning based Recommendation Algorithms

[참조 논문 및 사이트]☞Deep Learning based Recommender System: A Survey and New Perspectives ☞Reinforcement Learning to Rank in E-Commerce Search Engine:Formalization, Analysis, and Application ☞Personalizing Session-based Recommendations with Hierarchical Recurrent Neural Networks ☞Wide & Deep Learning for Recommender Systems ☞Convolutional Matrix Factorization for Document Context-Aware Recommendation ☞Deep Neural Networks for YouTube Recommendations ☞ITEM2VEC: NEURAL ITEM […]

Read more

Transfer Learning Researches after BERT

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding (NAACL 2019)Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova Cloze-driven Pretraining of Self-attention Networks (arXiv 2019)Alexei Baevski, Sergey Edunov, Yinhan Liu, Luke Zettlemoyer, Michael Auli Unified Language Model Pre-training for Natural Language Understanding and Generation (arXiv 2019)Li Dong, Nan Yang, Wenhui Wang, Furu Wei, Xiaodong Liu, Yu Wang, Jianfeng […]

Read more

Fine-tune BERT for Extractive Summarization

택스트 요약에는 Abstractive 와 Extractive 두 가지 방법이 있습니다. Abstractive 방법은 본문에 없는 내용으로 재 구성하여 요약하는 방법이고, Extractive 방법은 본문에 있는 내용 중 중요한 내용을 기준으로 추출하여 내용을 요약하는 방식입니다. 이 논문에서는 Extractive 방법을 대상으로 하고 있으며, 그 중요도를 판단하는 단위도 단어가 아닌 문장단위로 판단하는 연구로 보입니다. 전체적으로 연구 방향은 BERT 에 요약을 위한 […]

Read more

A Introduction to Text summarization

포스트에서는 텍스트 요약에 대한 전반적인 내용을 다루어 보고자 한다. 텍스트의 요약이라는 것은 당연히 장문의 Document 를 함축적인 문장이나 핵심 키워드로 축약하는 기술을 의미하며, 이러한 요약 기술은 형태적인 측면에서 크게 Abstractive Summary 와 Extractive Summary 두 가지로 나누어진다고 볼 수 있다. 두 가지의 차이는 예시적으로 설명하면 아래와 같다. 주어진 Document가 있을 때 그 문장에서 가장 핵심적인 […]

Read more

Semi-Supervised Sequece Modelling with Cross-View Training

이 논문은 제목에서 확인 할 수 있는 것과 같이, Semi-Supervised Learning 관한 연구이며, 특히 자연어 처리 쪽에 어떻게 효과적으로 이 기법을 적용할 것인지에 초점을 맞추고 있다. 이 논문에서는 Unsupervised 형태로 Pretrained Model 을 만든 후 , 기존 모델에 활용하는 Word2Vec이나 ElMo 같은 알고리즘을 Semi supervised 의 한 형태로 정의하고 있으며, 이러한 방법의 문제로 Labeled 된 […]

Read more

IMPORTANT NATURAL LANGUAGE PROCESSING (NLP) RESEARCH PAPERS OF 2018

BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding Sequence Classification with Human Attention Phrase-Based & Neural Unsupervised Machine Translation What you can cram into a single vector: Probing sentence embeddings for linguistic properties SWAG: A Large-Scale Adversarial Dataset for Grounded Commonsense Inference Deep contextualized word representations Meta-Learning for Low-Resource Neural Machine Translation Linguistically-Informed Self-Attention […]

Read more

Bagging, Boosting and Stacking

본 포스트에서는 Bagging, Boosting 그리고 Stacking 기법이 무엇인지, 그리고 각 기법을 사용하는 대표적인 알고리즘들 Random Forest, AdaBoost, Gradient Boost 그리고 요즘 Kaggle Ranker 들이 묻지도 따지지도 않고 사용하는 XgBoost 등에 대해서 설명하고자 한다. 1. Bias & Variance Bagging 및 Boosting 을 설명하기 위해서는 사전에 머신러닝에서 이야기 하는 Error 가 Bias 와 Variance로 구성되어 있으며, 각 […]

Read more