DOI QR코드

DOI QR Code

Application Development for Text Mining: KoALA

텍스트 마이닝 통합 애플리케이션 개발: KoALA

  • Received : 2019.03.08
  • Accepted : 2019.04.15
  • Published : 2019.05.31

Abstract

In the Big Data era, data science has become popular with the production of numerous data in various domains, and the power of data has become a competitive power. There is a growing interest in unstructured data, which accounts for more than 80% of the world's data. Along with the everyday use of social media, most of the unstructured data is in the form of text data and plays an important role in various areas such as marketing, finance, and distribution. However, text mining using social media is difficult to access and difficult to use compared to data mining using numerical data. Thus, this study aims to develop Korean Natural Language Application (KoALA) as an integrated application for easy and handy social media text mining without relying on programming language or high-level hardware or solution. KoALA is a specialized application for social media text mining. It is an integrated application that can analyze both Korean and English. KoALA handles the entire process from data collection to preprocessing, analysis and visualization. This paper describes the process of designing, implementing, and applying KoALA applications using the design science methodology. Lastly, we will discuss practical use of KoALA through a block-chain business case. Through this paper, we hope to popularize social media text mining and utilize it for practical and academic use in various domains.

빅데이터 시대를 맞아 다양한 도메인에서 수없이 많은 데이터들이 생산되면서 데이터 사이언스가 대중화 되었고, 데이터의 힘이 곧 경쟁력인 시대가 되었다. 특히 전 세계 데이터의 80% 이상을 차지하는 비정형 데이터에 대한 관심이 부각되고 있다. 소셜 미디어의 발전과 더불어 비정형 데이터의 대부분은 텍스트 데이터의 형태로 발생하고 있으며, 마케팅, 금융, 유통 등 다양한 분야에서 중요한 역할을 하고 있다. 하지만 이러한 소셜 미디어를 활용한 텍스트 마이닝은 수치형 데이터를 활용한 데이터 마이닝 분야에 비해 접근이 어렵고 복잡해 기대에 비해 그 활용도가 높지 못한 실정이다. 이에 본 연구는 프로그래밍 언어나 고사양 하드웨어나 솔루션에 의존하지 않고, 쉽고 간편한 소셜 미디어 텍스트 마이닝을 위한 통합 애플리케이션으로 Korean Natural Language Application(KoALA)을 개발하고자 한다. KoALA는 소셜 미디어 텍스트 마이닝에 특화된 애플리케이션으로, 한글, 영문을 가리지 않고 분석 가능한 통합 애플리케이션이다. 데이터 수집에서 전처리, 분석, 그리고 시각화에 이르는 전 과정을 처리해준다. 본 논문에서는 디자인 사이언스(design science) 방법론을 활용해 KoALA 애플리케이션을 디자인, 구현, 적용하는 과정에 대해서 다룬다. 마지막으로 블록체인 비즈니스 관련 사례를 들어 KoALA의 실제 활용방안에 대해서 다룬다. 본 논문을 통해 소셜 미디어 텍스트 마이닝의 대중화와 다양한 도메인에서 텍스트 마이닝의 실무적, 학술적 활용을 기대해 본다.

Keywords

Acknowledgement

본 연구는 중소기업벤처부와 창업진흥원이 지원하는 세대융합 창업캠퍼스 사업의 지원을 받아 진행되었음.

References

  1. 김유영, 송 민, "영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축", 지능정보연구, 제22권, 제3호, 2016, pp. 71-89. https://doi.org/10.13088/JIIS.2016.22.3.071
  2. 문동지, 연다인, 김희웅, "토픽 모델링 기반 한국 노인의 행복과 불행 이슈 분석", Information Systems Review, 제20권, 제2호, 2018, pp. 139-161. https://doi.org/10.14329/isr.2018.20.2.139
  3. 박준석, 김창식, 곽기영, "텍스트마이닝과 소셜네트워크분석 기법을 활용한 호텔분야 연 구동향 분석", 관광레저연구, 제28권, 제9호, 2016, pp. 209-226.
  4. 배정환, 손지은, 송 민, "텍스트 마이닝을 이용한 2012년 한국대선 관련 트위터 분석", 지능정보연구, 제19권, 제3호, 2013, pp. 141-156. https://doi.org/10.13088/JIIS.2013.19.3.141
  5. 배정환, 한남기, 송 민, "토픽 모델링을 이용한 트위터 이슈 트래킹 시스템", 지능정보연구, 제20권, 제2호, 2014, pp. 109-122. https://doi.org/10.13088/JIIS.2014.20.2.109
  6. 손 맥, 조은영, 김희웅, "e 러닝 성공 평가에 관한 연구", 지식경영연구, 제15권, 제2호, 2014, pp. 67-88. https://doi.org/10.15813/KMR.2014.15.2.004
  7. 송 민, "텍스트 마이닝", 도서출판 청람, 서울, 2017.
  8. 송혜지, 박경수, 정혜은, 송민, "텍스트 마이닝 기법을 활용한 한국의 경제연구 동향 분석", 한국정보관리학회 학술대회 논문집, 2013, pp. 47-50.
  9. 안창원, 황승구, "빅 데이터 기술과 주요 이슈", 정보과학회지, 제30권, 제6호, 2012, pp. 10-17.
  10. 양승준, 이보연, 김희웅, "토픽모델링 기반 행복과 불행 이슈 분석 및 행복 증진 방안 연구", 지식경영연구, 제17권, 제2호, 2016, pp. 165-185. https://doi.org/10.15813/KMR.2016.17.2.007
  11. 유홍연, 고영중, "Bidirectional LSTM CRF 기반의 개체명 인식을 위한 단어 표상의 확장", 정보과학회논문지, 제44권, 제3호, 2017, pp. 306-313. https://doi.org/10.5626/JOK.2017.44.3.306
  12. 이소현, 손새아, 김희웅, "텍스트마이닝을 이용한 미용성형 주요 요인에 관한 연구", 지식경영연구, 제20권, 제1호, 2018.
  13. 이태헌, 윤영주, 김희웅, "텍스트 마이닝을 이용한 정보보호인식 분석 및 강화 방안 모색", 정보화정책, 제23권, 제4호, 2016, pp. 76-94. https://doi.org/10.22693/NIAIP.2016.23.4.076
  14. 임명수, 김남규, "비정형 텍스트 분석을 통한 이슈의 형성 및 변이과정 규명", 한국지능정보시스템학회 학술대회논문집, 2015, pp. 19-19.
  15. 조수선, "온라인 신문 댓글의 내용분석: 댓글의 유형과 댓글 게시자의 성향", 커뮤니케이션학연구, 제15권, 제2호, 2007, pp. 65-84.
  16. 조은영, 박진원, 김희웅, "소셜 미디어 마케팅 실패사례 분석을 통한소셜 미디어 마케팅 전략 연구", 지식경영연구, 제16권, 제2호, 2015, pp. 91-111. https://doi.org/10.15813/KMR.2015.16.2.005
  17. 차윤정, 이지혜, 최지은, 김희웅, "소셜 미디어 토픽모델링을 통한 스마트폰 마케팅 전략 수립 지원", 지식경영연구, 제16권, 제4호, 2015, pp. 69-87. https://doi.org/10.15813/KMR.2015.16.4.005
  18. 최지은, 김소담, 김희웅, "헬스케어 환경에서 텍스트마이닝 기반 서비스품질 평가", Information Systems Review, 제20권, 제2호, 2018, pp. 111-137. https://doi.org/10.14329/isr.2018.20.2.111
  19. 이승우, "카카오 '연내 블록체인 플랫폼 만들것'", 한국경제, 2018. 3. 27., Available at http://news.hankyung.com/article/2018032747701/.
  20. Bailey, J. E. and S. W. Pearson, "Development of a tool for measuring and analyzing computer user satisfaction", Management Science, Vol.29, No.5, 1983, pp. 530-545. https://doi.org/10.1287/mnsc.29.5.530
  21. Baskerville, R., J. Pries-Heje, and J. Venable, "Soft design science methodology", In Proceedings of the 4th International Conference on Design Science Research in Information Systems and Technology, 2009, p. 9.
  22. Bhattacherjee, A., "Understanding information systems continuance: An expectation-confirmation model", MIS Quarterly, 2001, pp. 351-370.
  23. Das, T. K. and P. M. Kumar, "Big data analytics: A framework for unstructured data analysis", International Journal of Engineering Science & Technology, Vol.5, No.1, 2013, pp. 153-156.
  24. Delone, W. H. and E. R. McLean, "The DeLone and McLean model of information systems success: A ten-year update", Journal of Management Information Systems, Vol.19, No.4, 2003, pp. 9-30. https://doi.org/10.1080/07421222.2003.11045748
  25. ESG, "Research report: Digital archive market forecast 2010-2015", Enterprise Strategy Group(ES G), 2010. 7. 6, Available at https://research.esg-global.com/reportaction/digitalarchive2010/Marketing/.
  26. Feldman, R. and J. Sanger, The text mining handbook: Advanced approaches in analyzing unstructured data, Cambridge University Press, 2007.
  27. Freeze, R. D., K. A. Alshare, P. L. Lane, and H. J. Wen, "IS success model in e-learning context based on students' perceptions", Journal of Information Systems Education, Vol.21, No.2, 2010, pp. 173-185.
  28. Gharehchopogh, F. S. and Z. A. Khalifelu, "Analysis and evaluation of unstructured data: text mining versus natural language processing", In Application of Information and Communication Technologies (AICT), 2011 5th International Conference on 2011 IEEE, 2011, pp. 1-4.
  29. Gregor, S. and A. R. Hevner, "Positioning and presenting design science research for maximum impact", MIS Quarterly, Vol.37, No.2, 2013, pp. 337-355. https://doi.org/10.25300/MISQ/2013/37.2.01
  30. Hearst, M., What is text mining, SIMS, 2003.
  31. Hevner, A. R., S. T. March, J. Park, and S. Ram, "Design science in information systems research", MIS Quarterly, Vol.28, No.1, 2004, pp. 75-105. https://doi.org/10.2307/25148625
  32. Java, A., X. Song, T. Finin, and B. Tseng, "Why we twitter: Understanding microblogging usage and communities", In Proceedings of the 9th WebKDD and 1st SNA-KDD 2007 Workshop on Web Mining and Social Network Analysis ACM, 2007, pp. 56-65.
  33. Kim, H. W., H. C. Chan, and S. Gupta, "Social media for business and society", Asia Pacific Journal of Information Systems, Vol.25, No.2, 2015, pp. 211-233. https://doi.org/10.14329/apjis.2015.25.2.211
  34. Lee, B. C., J. O. Yoon, and I. Lee, "Learners' acceptance of e-learning in South Korea: Theories and results", Computers & Education, Vol.53, No.4, 2009, pp. 1320-1329. https://doi.org/10.1016/j.compedu.2009.06.014
  35. Li, W., H. Chen, and J. F. Nunamaker Jr, "Identifying and profiling key sellers in cyber carding community: AZSecure text mining system", Journal of Management Information Systems, Vol.33, No.4, 2016, pp. 1059-1086. https://doi.org/10.1080/07421222.2016.1267528
  36. Parasuraman, A., V. A. Zeithaml, and L. L. Berry, "A conceptual model of service quality and its implications for future research", The Journal of Marketing, 1985, Vol.49, pp. 41-50. https://doi.org/10.1177/002224298504900403
  37. Peffers, K., T. Tuunanen, C. E. Gengler, M. Rossi, W. Hui, V. Virtanen, and J. Bragge, "The design science research process: A model for producing and presenting information systems research", In Proceedings of the First International Conference on Design Science Research in Information Systems and Technology (DESRIST 2006), 2006, pp. 83-106.
  38. Rai, A., S. S. Lang, and R. B. Welker, "Assessing the validity of IS success models: An empirical test and theoretical analysis", Information Systems Research, Vol.13, No.1, 2002, pp. 50-69. https://doi.org/10.1287/isre.13.1.50.96
  39. Sagiroglu, S. and D. Sinanc, "Big data: A review", In Collaboration Technologies and Systems (CTS), 2013 International Conference on IEEE, 2013, pp. 42-47.
  40. Sebastiani, F. and A. Esuli, "Determining term subjectivity and term orientation for opinion mining andrea esuli", In Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics (EACL'06), 2006.
  41. Seddon, P. and M. Y. Kiew, "A partial test and development of DeLone and McLean's model of IS success", Australasian Journal of Information Systems, Vol.4, No.1, 2006.
  42. Strapparava, C., A. Gliozzo, and C. Giuliano, "Pattern abstraction and term similarity for word sense disambiguation: Irst at senseval-3", In Proceedings of SENSEVAL-3, the Third International Workshop on the Evaluation of Systems for the Semantic Analysis of Text, 2004.
  43. Wang, Y. S., "Assessing e-commerce systems success: a respecification and validation of the DeLone and McLean model of IS success", Information Systems Journal, Vol.18, No.5, 2008, pp. 529-557. https://doi.org/10.1111/j.1365-2575.2007.00268.x
  44. Williams, C. B. and G. Gulati, "The political impact of Facebook: Evidence from the 2006 midterm elections and 2008 nomination contest", Politics and Technology Review, Vol.1, No.1, 2008, pp. 11-24.
  45. Wimmer, H. and V. Y. Yoon, "Counterfeit product detection: Bridging the gap between design science and behavioral science in information systems research", Decision Support Systems, Vol.104, 2017, pp. 1-12. https://doi.org/10.1016/j.dss.2017.09.005