Entity Linking For Tweets Using User Model and Real-time News Stream

유저 모델과 실시간 뉴스 스트림을 사용한 트윗 개체 링킹

  • Jeong, Soyoon (Computer Science and Engineering Sogang University) ;
  • Park, Youngmin (Computer Science and Engineering Sogang University) ;
  • Kang, Sangwoo (Computer Science and Engineering Sogang University) ;
  • Seo, Jungyun (Computer Science and Engineering Sogang University)
  • 정소윤 (서강대학교 컴퓨터공학과) ;
  • 박영민 (서강대학교 컴퓨터공학과) ;
  • 강상우 (서강대학교 컴퓨터공학과) ;
  • 서정연 (서강대학교 컴퓨터공학과)
  • Received : 2015.11.27
  • Accepted : 2015.12.03
  • Published : 2015.12.31

Abstract

Recent researches on Entity Linking(EL) have attempted to disambiguate entities by using a knowledge base to handle the semantic relatedness and up-to-date information. However, EL for tweets using a knowledge base is still unsatisfactory, mainly because the tweet data are mostly composed of short and noisy contexts and real-time issues. The EL system the present work builds up links ambiguous entities to the corresponding entries in a given knowledge base via exploring the news articles and the user history. Using news articles, the system can overcome the problem of Wikipedia coverage (i.e., not handling real-time issues). In addition, given that users usually post tweets related to their particular interests, the current system referring to the user history robustly and effectively works with a small size of tweet data. In this paper, we propose an approach to building an EL system that links ambiguous entities to the corresponding entries in a given knowledge base through the news articles and the user history. We created a dataset of Korean tweets including ambiguous entities randomly selected from the extracted tweets over a seven-day period and evaluated the system using this dataset. We use accuracy index(number of correct answer given by system/number of data set) The experimental results show that our system achieves a accuracy of 67.7% and outperforms the EL methods that exclusively use a knowledge base.

최근 개체 링킹에 대한 연구들은 지식 베이스를 외부 자원으로 사용하여 실세계의 지식과 의미적인 관련도를 통해 중의성을 해소하는데 중점을 두고 있다. 지식 베이스를 사용한 개체 링킹은 신문기사나 블로그 포스트 등에서는 좋은 성능을 보이지만, 마이크로블로그에서는 짧은 텍스트 길이와 지식 베이스에 존재하지 않는 주제를 다루는 특성 때문에 비교적 낮은 성능을 보인다. 본 논문에서는 140자가 되지 않는 짧은 텍스트 내에서 실시간으로 빠르게 정보를 공유하는 특성을 가지는 마이크로블로그에서 나타나는 개체명의 중의성을 해소하는 방법을 제안한다. 제안하는 방법은 지식 베이스만 사용하는 개체 링킹의 한계를 극복하기 위해 마이크로블로그 사용자 기록과 뉴스 기사를 이용하고, 지식 베이스에 존재하는 특정 엔트리로 개체 링킹을 수행한다. 본 논문에서는 개체명을 포함하는 한국어 트윗을 추출하여 데이터를 구축하였다. 성능 평가는 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며, 제안하는 시스템은 구축한 데이터에서 기존 지식 베이스만 사용한 개체 링킹 시스템보다 높은 67.7%의 정확도를 나타내었다.

Keywords

References

  1. 김영식, 함영균, 김지성, 황도삼, 최기선 (2014). 한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소, 제26회 한글 및 한국어 정보처리 학술대회 논문집, 100-106.
  2. 이동혁 (2008). 신문기사 속 작은따옴표의 기능. 우리말연구, (23), 139-162.
  3. Bansal, R., Panem, S., Gupta, M. & Varma, V. (2014). EDIUM: Improving Entity Disambiguation via User Modeling. Journal of Advances in Information Retrieval, 8416, 418-423. https://doi.org/10.1007/978-3-319-06028-6_35
  4. Bunescu, R. C. & Pasca, M. (2006). Using Encyclopedic Knowledge for Named entity Disambiguation. Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, 6, 9-16.
  5. Charton, E., Meurs, M. J., Jean-Louis, L. & Gagnon, M. (2014). Mutual Disambiguation for Entity Linking. Proceedings of the 52nd Annual Meeting of the Association for Computational Linguistics, 476-481.
  6. Cucerzan, S. (2007). Large-Scale Named Entity Disambiguation Based on Wikipedia Data. Proceedings of the 2007 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 7, 708-716.
  7. Derczynski, L., Maynard, D., Rizzo, G., van Erp, M., Gorrell, G., Troncy, R.,Bontcheva, K. (2015). Analysis of named entity recognition and linking for tweets. Journal of Information Processing and Management 51, 32-49 https://doi.org/10.1016/j.ipm.2014.10.006
  8. Java, A., Song, X., Finin, T. & Tseng, B. (2007). Why We Twitter: Understanding Microblogging Usage and Communities. Proceedings of the 9th WebKDD and 1st SNA-KDD workshop on Web mining and social network analysis, 56-65.
  9. Shen, W., Wang, J., Luo, P. & Wang, M. (2013). Linking Named Entities in Tweets with Knowledge Base via User Interest Modeling. Proceedings of the 19th SIGKDD international conference on Knowledge Discovery and Data mining, 68-76.
  10. Kang, S., Kim, H., Kang, H. K. & Seo, J. (2014). Lightweight morphological analysis model for smart home applications based on natural language interfaces. International Journal of Distributed Sensor Networks, 2014, 1-9.
  11. Liu, X., Zhang, S., Wei, F. & Zhou, M. (2011). Recognizing Named Entities in Tweets. Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies, 1, 359-369.
  12. Han, X. & Zhao, J. (2009). Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge. Proceedings of the 18th Conference on Information and Knowledge Management, 215-224.
  13. Mihalcea, R. & Csomai, A. (2007). Wikify!: Linking Documents to Encyclopedic Knowledge. Proceedings of the 16th conference on Conference on Information and Knowledge Management, 233-242.
  14. Milne, D. & Witten, I. H. (2008). Learning to Link with Wikipedia. Proceedings of the 18th Conference on Information and Knowledge Management, 215-224.