DOI QR코드

DOI QR Code

사건 어휘의 특성을 반영한 다국어 사건 연결 탐색

Multilingual Story Link Detection based on Properties of Event Terms

  • 이경순 (전북대학교 전자정보공학부)
  • 발행 : 2005.02.01

초록

본 논문에서는 다국어 뉴스에 대해서 '시간' 요소와 '언어 공간' 요소를 사건 어휘의 가중치 계산에 반영하는 다국어 사건 연결 탐색하는 방법을 제안한다. 시간의 흐름과 다국어 공간상에서 어휘의 분포 특성을 어휘의 가중치로 반영하여 사건 중심 어휘에 변별력을 줌으로써 같은 사건을 다루는 문서를 탐색하도록 한다. 시간상에서 어휘가중치는 전체 시간의 모든 문서집합에서의 어휘 분포와 특정 시간의 문서집합에서의 어휘 분포를 비교함으로써 계산하고, 그 특정 시간의 어휘의 가중치로 표현한다. 두 개의 언어는 하나의 언어에서보다 더 많은 정보를 줄 수 있기 때문에, 각 언어공간에서 어휘의 중요도를 측정하고, 다국어 처리에서 다른 언어 공간에서의 정보를 참조함으로써 언어 공간에서의 참조 역할을 하도록 한다. 본 논문의 실험에서는 같은 기간의 한국어와 일본어 신문기사에 대해서 사건 연결 탐색 성능을 평가하였다. 일반적인 가중치 기법인 tfidf 가중치 기법과의 비교 평가에서, 제안 방법이 단일언어 문서쌍에 대한 사건 연결 탐색은 $14.3{\%}$, 다국어 문서쌍에 대한 사건 연결 탐색에서는 $16.7{\%}$의 성능 향상을 보였다. 제안한 가중치 요소에 대한 유효성을 검증하기 위해, 공간 밀집도를 측정하였는데, 같은 사건을 나타내는 문서들의 그룹에서는 높은 밀집도를 나타냈고, 서로 다른 사건을 나타내는 문서들의 그룹에서는 낮은 밀집도를 나타냈다. 이 결과를 통해서 시간과 공간 요소를 반영한 사건 어휘 가중치 방법이 단일언어 사건 연결 탐색뿐만 아니라 다국어 사건 연결 탐색에 효과적이라고 볼 수 있다.

In this paper, we propose a novel approach which models multilingual story link detection by adapting the features such as timelines and multilingual spaces as weighting components to give distinctive weights to terms related to events. On timelines term significance is calculated by comparing term distribution of the documents on that day with that on the total document collection reported, and used to represent the document vectors on that day. Since two languages can provide more information than one language, term significance is measured on each language space and used to refer the other language space as a bridge on multilingual spaces. Evaluating the method on Korean and Japanese news articles, our method achieved $14.3{\%}\;and\;16.7{\%}$ improvement for mono- and multi-lingual story pairs, and for multilingual story pairs, respectively. By measuring the space density, the proposed weighting components are verified with a high density of the intra-event stories and a low density of the inter-events stories. This result indicates that the proposed method is helpful for multilingual story link detection.

키워드

참고문헌

  1. Fiscus, J., Doddington, G., Garofolo, J. and Martin, A. 1999. NIST' s 1998 topic detection and tracking evaluation (TDT2). Proc. of DARPA Broadcast News Workshop
  2. Carbonell, J., Yang, Y., Brown, R., Zhang, J. and Ma, N. 2002. New event & link detection at CMU for TDT 2002. Proc. of Topic Detection and Tracking (TDT-2002) Evaluations
  3. Chen, Y and Chen, H. 2002. NLP and IR approaches to monolingual and multilingual link detection. Proc. of 19th International Conference on Computational Linguistics https://doi.org/10.3115/1072228.1072234
  4. Fukumoto, F. and Suzuki, Y. 2000. Event tracking based on domain dependency. Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval https://doi.org/10.1145/345508.345548
  5. Swan, R. and Allan, J. 2000. Automatic generation of overview timelines. Proc. of 23rd Annual International ACM SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2000) https://doi.org/10.1145/345508.345546
  6. Eichmann, D. 2002. Tracking & detection using entities and noun phrases. Proc. of Topic Detection and Tracking(TDT-2002) Workshop
  7. Yang, Y., Zhang, J., Carbonell, J. and Jin, C. Topic-conditioned novelty detection. Proc. of the International Conference on Knowledge Discovery and Data Mining, Edmonton(KDD 2002)
  8. Lam, W. and Huang, R. 2002. Link detection for multilingual new for the TDT2002 evaluation. Proc. of Topic Detection and Tracking(TDT-2002) Workshop
  9. Levow, G- A. and Oard, DW. 2000. Translingual topic detection: applying lessons from the MEI project. Proc. of Topic Detection and Tracking(TDT-2000) Workshop
  10. He, D., Park, H-R., Murray, G., Subotin, M. and Oard, DW. 2002. TDT-2002 topic tracking at Maryland: first experiments. Proc. of Topic Detection and Tracking (TDT-2002) Workshop
  11. Leek, T., Jin, H., Sista, S. and Schwartz, R. 1999. The BBN crosslingual topic detection and tracking system. Proc. of Topic Detection and Tracking (TDT-1999) Workshop
  12. Matsumoto, Y., Kitauchi, A., Yamashita, T., Hirano, Y., Matsuda, H., Takaoka, K. and Asahara, M. 2002. Morphological analysis system ChaSen version 2.2.9. Nara Institute of Science and Technology
  13. Masui, F., Suzuki, N. and Hukumoto, J. 2002. Named entity extraction(NExT) for text processing development. Proc. of 8th time annual meeting of The Association for Natural Language Processing(In Japanese). http : //www.ai.info.mie-u.ac.jp/next/
  14. Salton, G., Wong, A and Yang, C.S. 1975. A vector space model for automatic indexing. Communications of the ACM, 18(11) https://doi.org/10.1145/361219.361220
  15. Yang, Y., Pedersen J.P. 1997. A Comparative Study on Feature Selection in Text Categorization Proceedings of the Fourteenth International Conference on Machine Learning(ICML' 97)
  16. Devore, J.L. 1995. Probability and Statistics for Engineering and the Sciences. Morgan Kaufmann Publishers, Inc., 4th edition
  17. ChangshinSoft. 2001. ezTrans Korean-to-Japanese/Japanese-to-Korean machine translation system