DOI QR코드

DOI QR Code

KOMUChat: Korean Online Community Dialogue Dataset for AI Learning

KOMUChat : 인공지능 학습을 위한 온라인 커뮤니티 대화 데이터셋 연구

  • YongSang Yoo (Digital Analytics, Yonsei University) ;
  • MinHwa Jung (Digital Analytics, Yonsei University) ;
  • SeungMin Lee (Artificial Intelligence, Yonsei University) ;
  • Min Song (Library and Information Science Department of Yonsei University)
  • 유용상 (연세대학교 일반대학원 디지털애널리틱스융합협동과정) ;
  • 정민화 (연세대학교 일반대학원 디지털애널리틱스융합협동과정) ;
  • 이승민 (연세대학교 일반대학원 인공지능학과) ;
  • 송민 (연세대학교 문헌정보학과)
  • Received : 2023.04.24
  • Accepted : 2023.06.09
  • Published : 2023.06.30

Abstract

Conversational AI which allows users to interact with satisfaction is a long-standing research topic. To develop conversational AI, it is necessary to build training data that reflects real conversations between people, but current Korean datasets are not in question-answer format or use honorifics, making it difficult for users to feel closeness. In this paper, we propose a conversation dataset (KOMUChat) consisting of 30,767 question-answer sentence pairs collected from online communities. The question-answer pairs were collected from post titles and first comments of love and relationship counsel boards used by men and women. In addition, we removed abuse records through automatic and manual cleansing to build high quality dataset. To verify the validity of KOMUChat, we compared and analyzed the result of generative language model learning KOMUChat and benchmark dataset. The results showed that our dataset outperformed the benchmark dataset in terms of answer appropriateness, user satisfaction, and fulfillment of conversational AI goals. The dataset is the largest open-source single turn text data presented so far and it has the significance of building a more friendly Korean dataset by reflecting the text styles of the online community.

사용자가 만족감을 느끼며 상호작용할 수 있는 대화형 인공지능을 개발하기 위한 노력이 이어지고 있다. 대화형 인공지능 개발을 위해서는 사람들의 실제 대화를 반영한 학습 데이터를 구축하는 것이 필요하지만, 기존 데이터셋은 질문-답변 형식이 아니거나 존대어를 사용하여 사용자가 친근감을 느끼기 어려운 문체로 구성되어 있다. 이에 본 논문은 온라인 커뮤니티에서 수집한 30,767개의 질문-답변 문장 쌍으로 구성된 대화 데이터셋(KOMUChat)을 구축하여 제안한다. 본 데이터셋은 각각 남성, 여성이 주로 이용하는 연애상담 게시판의 게시물 제목과 첫 번째 댓글을 질문-답변으로 수집하였다. 또한, 자동 및 수동 정제 과정을 통해 혐오 데이터 등을 제거하여 양질의 데이터셋을 구축하였다. KOMUChat의 타당성을 검증하기 위해 언어 모델에 본 데이터셋과 벤치마크 데이터셋을 각각 학습시켜 비교분석하였다. 그 결과 답변의 적절성, 사용자의 만족감, 대화형 인공지능의 목적 달성 여부에서 KOMUChat이 벤치마크 데이터셋의 평가 점수를 상회했다. 본 연구는 지금까지 제시된 오픈소스 싱글턴 대화형 텍스트 데이터셋 중 가장 대규모의 데이터이며 커뮤니티 별 텍스트 특성을 반영하여 보다 친근감있는 한국어 데이터셋을 구축하였다는 의의를 가진다.

Keywords

References

  1. 강경필. (2022). 일상 대화 챗봇의 동향과 과제. 정보과학회지,40(12),39-45.
  2. 강소영. (2022). 성별 대화 진행 방식 - 말 끼어들기(말 끼어들기 이후)를 중심으로 -. 이화어문논집, 56, 115-150.
  3. 고윤석 등. (2021). 인공지능 학습용 데이터셋 구축 안내서. 서울: 한국지능정보사회진흥원
  4. 김일환 & 이도길. (2016). "신문 빅 데이터 기반의 단어 사용과 트렌드 분석: 신문의 명사 빈도사용 패턴을 중심으로." 언어정보, 22, 41-62.
  5. 김정우. (2009). 인터넷 커뮤니티에서 사용되는 말에 대한 연구 -자전거 관련 커뮤니티를 중심으로-. 사회언어학, 17(1), 109-133.
  6. 김태균. (2022). 크롤링을 통한 데이터 수집의 형사책임 - 대법원 2022. 5. 12. 선고 2021도 1533 판결을 중심으로 -. 서강법률논총, 11(3), 275-306.
  7. 김혜미, 이준웅. (2011). 인터넷 뉴스와 댓글의 뉴스 프레임 융합 효과 연구. 한국언론학보, 55(2), 32-55.
  8. 김효정, 조윤정. (2022, September 21) [2022 커뮤니티 보고서] 20대男 '에펨코리아', 진보 20대女 '더쿠'. 주간조선. http://weekly.chosun.com/news/articleView.html?idxno=22062
  9. 민경서, 최보석, 한승진. (2022). KoBERT, KoGPT2를 이용한 이전 대화에서 추출한 문장 정보 기반 감성 문장 생성. 한국통신학회 학술대회논문집,(),1579-1581.
  10. 박규현, 권희연. (2022). KoGPT2를 이용한 쇼핑몰 리뷰 생성기. 한국컴퓨터정보학회 학술발표논문집 ,30(1),31-33.
  11. 박도형. (2014). 온라인 커뮤니티 특성, 커뮤니티 멤버 특성, 개인 특성이 잠복관찰 활동에 미치는 영향: 왜 사람들은 쓰지 않고 읽기만 하는가?. 인터넷정보학회논문지, 15(1), 73-88. https://doi.org/10.7472/JKSII.2014.15.1.73
  12. 박일섭. (2019). 메신저 대화 자료 수집 및 말뭉치 구축. 서울: 국립국어원
  13. 박일섭.(2021). 2021년 온라인 대화 자료 수집 및 정제. 서울: 국립국어원
  14. 박혜성. (2017). 한국 뮤지컬 마니아 관객 활동의 문화 정치적 함의. 언론과 사회, 25(1), 37-96.
  15. 손건영, 김미숙. (2023). KoBERT 기반 일반상식 추출 및 반영한 KoBART 기반 대화생성모델. 한국HCI학회 학술대회, 841-847.
  16. 손건영, 김미숙. (2022). 일반상식을 적용한 KoBART 기반 대화 생성 모델. 한국정보과학회 학술발표논문집, 1837-1839.
  17. 손세모돌. (2003). 인터넷 게시판 글 제목의 욕설/비속어 사용과 익명성의 관계. 텍스트언어학, 15(0), 169-198.
  18. 손지영, 신용태. (2018). TextRank 알고리즘을 이용한 음악 가사 요약 기법. 멀티미디어학회논문지 21.1: 45-50.
  19. 송민채, 신경식. (2022). 한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구. 지능정보연구, 28(4), 309-328. https://doi.org/10.13088/JIIS.2022.28.4.309
  20. 오종환, 장수연, 이준환. (2014). 한글 자음 및 모음 사용을 통해 드러나는 온라인에서의 정서표현에 대한 탐색적 연구. 멀티미디어학회논문지, 17(7), 866-878.
  21. 유소연, 임규건. (2021). "텍스트 마이닝과 의미 네트워크 분석을 활용한 뉴스 의제 분석:코로나 19 관련 감정을 중심으로." 지능정보연구, 27(1), 47-64. https://doi.org/10.13088/JIIS.2021.27.1.047
  22. 이세진, 이정교. (2012). "온라인 여성 커뮤니티에서의 이용자 간 상호작용과 사회연결망에 관한 연구." 社會科學硏究 38.2: 47-71.
  23. 전영일. (2022). KOSTAT 통계플러스 2022 봄호. 대전광역시: 통계개발원
  24. 조우진, 이혁준. (2021). 사전학습 언어모델 기반의 한국어 질문-답변 데이터 증강 방법. 정보 과학회 컴퓨팅의 실제 논문지, 27(12), 563-573.
  25. 주현덕, 박세니. (2005). 그들은 어떻게 다른가?: 연애관계와 연애태도에서의 성차와 집단차이. 한국심리학회지:여성, 10(4), 573-601.
  26. 차재국. (2010). 기독교 영시에 나타난 명사(名詞) 어휘의 빈도수에 관한 연구. 영미언어와문화, 1(1), 81-102.
  27. 한주희, 유진이, 이영훈. (2022). 산업공학 인식에 대한 온라인 커뮤니티 데이터 분석. 대한산업공학회지, 48(3), 280-288.
  28. Ban, B. (2022). A Survey on Awesome Korean NLP Datasets. Proceedings of the 13th IEEE International Conference on Information and Communication Technology Convergence (ICTC 2022), 1615-1620.
  29. Casas, J., Tricot, M. O., Abou Khaled, O., Mugellini, E., & Cudre-Mauroux, P. (2020). Trends & methods in chatbot evaluation. In Companion Publication of the 2020 International Conference on Multimodal Interaction, 280-286.
  30. Cho, W, Kim, S, Cho, H, Kim, N. (2021). "Kosp2e: Korean Speech to English Translation Corpus". arXiv preprint, arXiv:2107.0287. https://arxiv.org/abs/2107.02875 107.02875
  31. Fleiss, J. L. (1971). Measuring nominal scale agreement among many raters. Psychological bulletin, 76(5), 378.
  32. Grootendorst, M. (2020). KeyBERT: Minimal keyword extraction with BERT. Version v0.3.0, doi:10.5281/zenodo.4461265.
  33. Ha, J. W., Nam, K., Kang, J., Lee, S. W., Yang, S., Jung, H., ... & Kim, S. (2020). ClovaCall: Korean goal-oriented dialog speech corpus for automatic speech recognition of contact centers. arXiv preprint arXiv:2004.09367.
  34. Hwang, S, Kim, J. (2021). Toward a Chatbot for Financial Sustainability. Sustainability 13(6), 3173, doi: 10.3390/su13063173.
  35. Landis, J. R. and Koch, G. G. (1977). The measurement of observer agreement for categorical data. Biometrics, 33, 159-174. https://doi.org/10.2307/2529310
  36. Lee.M. (2022). Kiwi, Korean Intelligent Word Identifier. Github. from https://github.com/bab2min/Kiwi
  37. Lewis, M., Liu, Y., Goyal, N., Ghazvininejad, M., Mohamed, A., Levy, O., ... & Zettlemoyer, L. (2019). Bart: Denoising sequence-to-sequence pre-training for natural language generation, translation, and comprehension. arXiv preprint arXiv:1910.13461.
  38. Li, X., Zhong, H., Guo, Y., Ma, Y., Qian, H., Zhu, Y., ... Wen, J. (2020). Pchatbot: A Large-Scale Dataset for Personalized Chatbot. Proceedings of the 44th International ACM SIGIR Conference on Research and Development in Information Retrieval, 2470-2477.
  39. Maroengsit, W., Piyakulpinyo, T., Phonyiam, K., Pongnumkul, S., Chaovalit, P., & Theeramunkong, T. (2019). A survey on evaluation methods for chatbots. In Proceedings of the 2019 7th International conference on information and education technology, 111-119.
  40. Mihalcea, R., & Tarau, P. (2004). Textrank: Bringing order into text. In Proceedings of the 2004 conference on empirical methods in natural language processing, 404-411.
  41. Moon, J., Cho, W. I., & Lee, J. (2020). BEEP! Korean corpus of online news comments for toxic speech detection. arXiv preprint arXiv:2005.12503.
  42. Park, C., Seo, J., Lee, S., Lee, C., Moon, H., Eo, S., & Lim, H. S. (2021). BTS: Back TranScription for speech-to-text post-processor using text-to-speechto-text. In Proceedings of the 8th Workshop on Asian Translation (WAT2021), 106-116.
  43. Park, H., Kim, C., Son, H., Seo, S., & Kim, J. H. (2022). Hybrid CTC-attention network-based end-to-end speech recognition system for Korean language. Journal of Web Engineering, 265-284.
  44. Radford, A., Wu, J., Child, R., Luan, D., Amodei, D., & Sutskever, I. (2019). Language models are unsupervised multitask learners. OpenAI blog, 1(8), 9.
  45. Raffel, C., Shazeer, N., Roberts, A., Lee, K., Narang, S., Matena, M., ... & Liu, P. J. (2020). Exploring the limits of transfer learning with a unified text-to-text transformer. The Journal of Machine Learning Research, 21(1), 5485-5551.
  46. Ram, A., Prasad, R., Khatri, C., Venkatesh, A., Gabriel, R., Liu, Q., ... & Pettigrue, A. (2018). Conversational ai: The science behind the alexa prize. arXiv preprint arXiv:1801.03604.
  47. Youngsook Song. (2018). Chatbot_data_for_Korean v1.0[Online]. Github. Retrieved June 29, 2022, from https://github.com/songys/Chatbot_data