포스트에서는 텍스트 요약에 대한 전반적인 내용을 다루어 보고자 한다. 텍스트의 요약이라는 것은 당연히 장문의 Document 를 함축적인 문장이나 핵심 키워드로 축약하는 기술을 의미하며, 이러한 요약 기술은 형태적인 측면에서 크게 Abstractive Summary 와 Extractive Summary 두 가지로 나누어진다고 볼 수 있다. 두 가지의 차이는 예시적으로 설명하면 아래와 같다. 주어진 Document가 있을 때 그 문장에서 가장 핵심적인 문장이나 단어들을 추출하는 형태라고 하면 Extractive Summary 가 될 것이고, 주어진 Document 를 읽고 이를 요약할 수 있는 하나의 문장을 생성하는(마치 사람이 요약을 하는 것 처럼) 형태로 요약을 한다면, Abstractive Summary 가 될 것이다. 둘 중에 어떤 것이 우월하다라고 말하기는 어렵고, 이는 주어진 Document 의 성격이나, 우리가 활용하고자하는 목적에 따라 달라질 것이다. Text Summarization 분야는 딥러닝 이전에도 많은 연구와 다양한 접근 방법이 있었으나, 여기서는 딥러닝 이후의 연구에만 집중하여 살펴 보고자 한다.
현재 Summarization 문제에 대해서 어떤 연구들이 어느정도 성과를 내고 있는지 확인하려면, 요즘 같은 분위기에서는 Leader Board 를 참조하는 것이 중요할 것이라고 판단된다.
[참조] Rogue Matix (Text 요약 성능 지표로 많이 사용)
https://rxnlp.com/how-rouge-works-for-evaluation-of-summarization-tasks/#.XMZ-U4kzaHs
Rogue Matrix 은 기본적으로 Y^ 문장과 Y 문장간의 일치도를 F1 Score 와 같은 개념으로 해석한다고 보면된다. 단, Rogue 1은 그 비교 단위를 Unigram 으로 Rouge 2는 그 단위를 Bigram 으로 본다고 생각하면되며, Rogue L 은 Y^문장과 Y문장 중에 가장 길게 매칭되는 문장의 길이의 조화평균의 개념이다.
Text Summarization on GigaWord (Abstractive Summary) https://paperswithcode.com/task/text-summarization/latest
Document Summarization on CNN / Daily Mail
https://paperswithcode.com/sota/document-summarization-on-cnn-daily-mail
Text Summarization on DUC 2004 Task 1
https://paperswithcode.com/sota/text-summarization-on-duc-2004-task-1