Scaling Documents' Semantic Transparency Spectrum with Semantic Hypernetwork

Semantic Hypernetwork 학습에 의한 자연언어 텍스트의 의미 구분

  • Lee, Eun-Seok (Cognitive Science Program, Seoul National University) ;
  • Kim, Joon-Shik (The Department of Neuropsychiatry, Seoul National University) ;
  • Shin, Won-Jin (BI Lab, School of Computer Sci. & Eng., Seoul National University) ;
  • Park, Chan-Hoon (BI Lab, School of Computer Sci. & Eng., Seoul National University) ;
  • Zhang, Byoung-Tak (BI Lab, School of Computer Sci. & Eng., Seoul National University)
  • 이은석 (서울대학교 인지과학협동과정) ;
  • 김준식 (서울대학교 신경정신과) ;
  • 신원진 (서울대학교 컴퓨터공학부 바이오지능 연구실) ;
  • 박찬훈 (서울대학교 컴퓨터공학부 바이오지능 연구실) ;
  • 장병탁 (서울대학교 컴퓨터공학부 바이오지능 연구실)
  • Published : 2008.06.30

Abstract

어떤 자연언어 문서가 전달하려는 의미는 그 텍스트의 성격에 따라 아주 명확할 수도(예: 뉴스 문서), 아주 불분명할 수도 있다(예: 시). 이 연구는 이러한 '의미의 명확성(semantic transparency)'을 정량적으로 측정할 수 있다고 가정하고, 이 의미의 명확성을 판단하는 데에 단어들의 연쇄(word association)의 확률통계적 성질들이 어떻게 기능하는지에 대해 논한다. 이를 위해 특정 단어가 연쇄체를 형성하면서 발생하는 neighboring frequency와 degeneracy를 중심으로 Markov chain Monte Carlo scheme을 적용하여 의미망('Semantic Hypernetwork')으로 학습시킨 후 문서의 구성 단어들과 그 집합들 간의 연결 상태를 파악하였다. 우리는 의미적으로 그 표상이 분명하게 나뉘는 문서들(뉴스와 시)을 대상으로 이 모델이 어떻게 이들의 의미적 명확성을 분류하는지 분석하였다. Neighboring frequency와 degeneracy, 이 두 속성이 언어구조에서의 의미망 기억과 학습 탐색 기제에 유의한 기질로서 제안될 수 있다. 본 연구의 주요 결과로 1) 텍스트의 의미론적 투명성을 구별하는 통계적 증거와, 2) 문서의 의미구조에 대한 새로운 기질 발견, 3) 기존의 문서의 카테고리 별 분류와는 다른 방식의 분류 방식 제안을 들 수 있다.

Keywords