Hierachical Text Classification

자연어의 역사 근간을 통해 바라본 딥러닝에서의 자연어 처리에 대한 다양한 스킬의 발전 방향을 알아보고자 해당 블로그를 작성한다.

페르디낭 드 소쉬르(Ferdinand de Saussure, 1857년 11월 26일 ~ 1913년 2월 22일)
언어학에서는 소쉬르를 빼면 이야기가 되지 않는 부분은 그야 말로 구조주의 언어학의 창시자이자 아버지이기 때문이다. 이전의 비교 언어학을 탈피하여 NLP의 근간은 구조학적 언어의 기반을 닦은 것이 바로 그이기 때문이다.

소쉬르의 언어적 특징

계층적 구조의 언어
언어는 계층적 구조이다. 그것은 다른 차원의 성분들로 쪼개진다.
특히 언어학은 음소, 형태소, 어휘, 단어의 결합, 문장의 차원들과 그 이상의 단위들을 구분한다. 각 차원들은 그것에 고유한 규칙들의 체계에 따라 조직화된다.
언어는 두 개의 구조적 축에 따라 조직화된다.
한편으로 언어의 성분들은 다양한 등가의 집합들에 따라 배분된다.
이러한 등가관계에 있는 것들의 집합을 계열체라 한다.
예를 들어 철수, 영이, 바둑이 등은 명사라는 점에서 하나의 계열체를 이룬다.
또 그, 너, 나 등은 대명사라는 점에서 하나의 계열체에 속한다.
계열체 내의 성분들은 그 자체로 의미를 갖는 것이 아니라 계열체 내의 다른 단어들과의 관계, 즉 계열체 내에서 그것들이 차지하는 위치에 따라 의미가 이루어진다.

즉 철수는 원래부터 철수가 아니라 체계 내에서 철수가 차지하는 위치에 의해, 즉 영이가 아니고 철이가 아니고 영수가 아니고 바둑이가 아니기 때문에 철수이다.

소쉬르가 말한 계열적 관계, 결합적 관계는 문장 등 언어 사슬의 의미를 구조적으로 이해하는 데 필수적이다. 우리는 문장을 이해할 때 문장 속에 존재하는 단어들 사이의 관계, 즉 결합적 질서만 생각하기 쉽다. 그러나 문장의 의미는 그것만으로 이루어지는 것이 아니다.
문장을 만들 때 무의식적으로 거치는 과정인 계열적 관계를 생각하지 않으면 전체적인 의미를 파악할 수 없는 것이다. 계열적 관계는 선택된 단어와 선택되지 않은, 현재 문장 속에 존재하지 않지만 선택된 단어에 의미를 부여해주는 부재하는 것과의 관계이다. 문장을 만들 때 우리는 계열체 내에서 하나의 단어만 선택한다. 그 선택된 단어는 선택되지 않은, 즉 문장 속에 물질적으로 실현되지 않고 부재하는 계열체 내의 다른 단어들과의 관계에 의해 의미가 이루어지는 것이다. 따라서 단어의 의미는 문장 속의 존재하는 것들 사이의 관계 뿐 아니라 부재하는 것과의 관계를 생각할 때 이루어진다는 것을 알 수 있다.


Tagged , ,

Leave a Reply

Your email address will not be published. Required fields are marked *