• 제목/요약/키워드: text-mining technique

검색결과 221건 처리시간 0.023초

제품 특징화를 위한 오피니언 문서의 클러스터링 기법 (An Opinion Document Clustering Technique for Product Characterization)

  • 장재영
    • 한국전자거래학회지
    • /
    • 제19권2호
    • /
    • pp.95-108
    • /
    • 2014
  • 오피니언 마이닝은 문서로부터 의견을 추출하는 텍스트 마이닝의 응용분야로 현재 활발한 연구가 진행되고 있다. 대부분의 관련 연구는 특정 제품군에 대해서 주어진 특징별로 긍정과 부정 평가를 나누는 감성분류에 초점을 맞추고 있다. 하지만 제품별로 강조되는 특성들을 구별해내는 연구는 거의 이루어지고 있지 않다. 본 논문에서는 특성별로 오피니언 문서들을 분류하고, 이를 이용하여 특정 제품군에 대해서 제품별로 강조되는 특성들을 선별하는 기법을 제안한다. 제안된 기법에서는 텍스트 클러스터링을 활용하였으며, 새로운 유사도 계산 방식을 사용하였다. 또한 실험을 통하여 제안된 방법의 유용성을 증명하였다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

한국도로공사 VOC 데이터를 이용한 토픽 모형 적용 방안 (Application of a Topic Model on the Korea Expressway Corporation's VOC Data)

  • 김지원;박상민;박성호;정하림;윤일수
    • 한국IT서비스학회지
    • /
    • 제19권6호
    • /
    • pp.1-13
    • /
    • 2020
  • Recently, 80% of big data consists of unstructured text data. In particular, various types of documents are stored in the form of large-scale unstructured documents through social network services (SNS), blogs, news, etc., and the importance of unstructured data is highlighted. As the possibility of using unstructured data increases, various analysis techniques such as text mining have recently appeared. Therefore, in this study, topic modeling technique was applied to the Korea Highway Corporation's voice of customer (VOC) data that includes customer opinions and complaints. Currently, VOC data is divided into the business areas of Korea Expressway Corporation. However, the classified categories are often not accurate, and the ambiguous ones are classified as "other". Therefore, in order to use VOC data for efficient service improvement and the like, a more systematic and efficient classification method of VOC data is required. To this end, this study proposed two approaches, including method using only the latent dirichlet allocation (LDA), the most representative topic modeling technique, and a new method combining the LDA and the word embedding technique, Word2vec. As a result, it was confirmed that the categories of VOC data are relatively well classified when using the new method. Through these results, it is judged that it will be possible to derive the implications of the Korea Expressway Corporation and utilize it for service improvement.

Identifying Mobile Owner based on Authorship Attribution using WhatsApp Conversation

  • Almezaini, Badr Mohammd;Khan, Muhammad Asif
    • International Journal of Computer Science & Network Security
    • /
    • 제21권7호
    • /
    • pp.317-323
    • /
    • 2021
  • Social media is increasingly becoming a part of our daily life for communicating each other. There are various tools and applications for communication and therefore, identity theft is a common issue among users of such application. A new style of identity theft occurs when cybercriminals break into WhatsApp account, pretend as real friends and demand money or blackmail emotionally. In order to prevent from such issues, data mining can be used for text classification (TC) in analysis authorship attribution (AA) to recognize original sender of the message. Arabic is one of the most spoken languages around the world with different variants. In this research, we built a machine learning model for mining and analyzing the Arabic messages to identify the author of the messages in Saudi dialect. Many points would be addressed regarding authorship attribution mining and analysis: collect Arabic messages in the Saudi dialect, filtration of the messages' tokens. The classification would use a cross-validation technique and different machine-learning algorithms (Naïve Baye, Support Vector Machine). Results of average accuracy for Naïve Baye and Support Vector Machine have been presented and suggestions for future work have been presented.

소셜미디어 빅데이터의 텍스트 마이닝과 오피니언 마이닝 기법을 활용한 웹드라마 분석과 제안 (Webdrama Analysis and Recommendation using Text Mining and Opinion Mining Technique of Social Media)

  • 오세종;김치호
    • 만화애니메이션 연구
    • /
    • 통권44호
    • /
    • pp.285-306
    • /
    • 2016
  • 1인 스마트폰 사용으로 웹툰, 웹소설, TV드라마는 생산자에서 소비자에게 직접적으로 소비할 수 있는 Direct-to-Consumer로 전환되고 있다. 특히, 포털사이트의 웹드라마는 새로운 미디어로 급성장하고 있다. '연애세포', '0시의 그녀', '최고의 미래', '우리 옆집에 EXO가 산다' 등을 TV드라마의 시청률처럼 조회수, 유입자, 댓글, 좋아요 등으로 다양한 반응을 분석할 수 있다. 분석 방법은 소셜미디어 빅데이터의 텍스트 마이닝 기법과 오피니언 마이닝 기법으로 작품을 분석했다. 즉, 웹드라마 마다의 특정 키워드를 추출하고, 추출한 키워드의 긍정, 부정, 중립 등 시청자의 감정을 예측할 수도 있다. 주요 인기 웹드라마를 분석한 결과로는 이미 팬을 확보한 K-Pop 아이돌 멤버의 출현과 포털사이트의 편성 회사와의 연관성이 재생수, 유입자, 댓글, 좋아요에 큰 영향을 미치는 것으로 나타났다. 또한 TV 이외의 매체로 '모바일 TV'의 영향력을 증명하였다. 한계점으로는 모바일 특화 콘텐츠 확보와 비즈니스 모델을 정립하는 것이 필요하겠다. 이 부분을 해결한다면, 한국은 웹드라마의 콘텐츠 강국이라는 긍정적 이미지를 보여줄 수 있는 계기가 될 것이다.

효율적인 문서 자동 분류를 위한 대표 색인어 추출 기법 (A Feature Selection Technique for an Efficient Document Automatic Classification)

  • 김지숙;김영지;문현정;우용태
    • 정보기술과데이타베이스저널
    • /
    • 제8권1호
    • /
    • pp.117-128
    • /
    • 2001
  • Recently there are many researches of text mining to find interesting patterns or association rules from mass textual documents. However, the words extracted from informal documents are tend to be irregular and there are too many general words, so if we use pre-exist method, we would have difficulty in retrieving knowledge information effectively. In this paper, we propose a new feature extraction method to classify mass documents using association rule based on unsupervised learning technique. In experiment, we show the efficiency of suggested method by extracting features and classifying of documents.

  • PDF

한글 음소 단위 딥러닝 모형을 이용한 감성분석 (Sentiment Analysis Using Deep Learning Model based on Phoneme-level Korean)

  • 이재준;권순범;안성만
    • 한국IT서비스학회지
    • /
    • 제17권1호
    • /
    • pp.79-89
    • /
    • 2018
  • Sentiment analysis is a technique of text mining that extracts feelings of the person who wrote the sentence like movie review. The preliminary researches of sentiment analysis identify sentiments by using the dictionary which contains negative and positive words collected in advance. As researches on deep learning are actively carried out, sentiment analysis using deep learning model with morpheme or word unit has been done. However, this model has disadvantages in that the word dictionary varies according to the domain and the number of morphemes or words gets relatively larger than that of phonemes. Therefore, the size of the dictionary becomes large and the complexity of the model increases accordingly. We construct a sentiment analysis model using recurrent neural network by dividing input data into phoneme-level which is smaller than morpheme-level. To verify the performance, we use 30,000 movie reviews from the Korean biggest portal, Naver. Morpheme-level sentiment analysis model is also implemented and compared. As a result, the phoneme-level sentiment analysis model is superior to that of the morpheme-level, and in particular, the phoneme-level model using LSTM performs better than that of using GRU model. It is expected that Korean text processing based on a phoneme-level model can be applied to various text mining and language models.

당뇨병 모바일 앱 관련 연구동향: 텍스트 네트워크 분석 및 토픽 모델링 (Research Trend on Diabetes Mobile Applications: Text Network Analysis and Topic Modeling)

  • 박승미;곽은주;김영지
    • Journal of Korean Biological Nursing Science
    • /
    • 제23권3호
    • /
    • pp.170-179
    • /
    • 2021
  • Purpose: The aim of this study was to identify core keywords and topic groups in the 'Diabetes mellitus and mobile applications' field of research for better understanding research trends in the past 20 years. Methods: This study was a text-mining and topic modeling study including four steps such as 'collecting abstracts', 'extracting and cleaning semantic morphemes', 'building a co-occurrence matrix', and 'analyzing network features and clustering topic groups'. Results: A total of 789 papers published between 2002 and 2021 were found in databases (Springer). Among them, 435 words were extracted from 118 articles selected according to the conditions: 'analyzed by text network analysis and topic modeling'. The core keywords were 'self-management', 'intervention', 'health', 'support', 'technique' and 'system'. Through the topic modeling analysis, four themes were derived: 'intervention', 'blood glucose level control', 'self-management' and 'mobile health'. The main topic of this study was 'self-management'. Conclusion: While more recent work has investigated mobile applications, the highest feature was related to self-management in the diabetes care and prevention. Nursing interventions utilizing mobile application are expected to not only effective and powerful glycemic control and self-management tools, but can be also used for patient-driven lifestyle modification.

대사경로 재구축을 위한 텍스트 마이닝 기법 (Text-mining Techniques for Metabolic Pathway Reconstruction)

  • 권혁렬;나종화;유재수;조완섭
    • 한국산업정보학회논문지
    • /
    • 제12권4호
    • /
    • pp.138-147
    • /
    • 2007
  • 대사 공학의 발전과 함께 생물체에 유전자 재조합기술과 관련 분자생물학 및 화학공학적 기술을 이용하여 새로운 대사회로를 도입하거나 기존의 대사회로를 제거 증폭 변경시켜 세포나 균주의 대사 특성을 조절하는(directed modification) 일련의 기술들이 가능해지고 있다. 하지만 이러한 대사회로를 조절하기 위해서는 많은 선행 연구에 대한 고찰이 필요하며, 일선 연구자들은 방대한 선행 자료를 검색하고 일일이 읽으면서 자신에게 필요한 정보를 수집하고 있다. 따라서 효율적으로 대사 모델을 구축하고, 방대한 대사관련 연구논문으로부터 대사흐름 관련 정보를 자동으로 추출하는 기술의 개발이 중요한 이슈로 부각되고 있다. 본 논문에서는 대사경로 재구축을 위한 서열과 패턴 기반의 텍스트 마이닝 기법을 제안한다. 제안된 기법은 웹 로봇을 이용하여 최신의 논문을 반자동적으로 수집하고 이를 이용하여 최신의 논문을 로컬 데이터베이스로 구축한다. 또한 생물학 개체명의 인식율을 높이기 위해 유전자 온토로지를 이용하며, NCBI에서 제공하는 Tokenizer 라이브러리를 이용하여 개체명의 파괴 없이 인식할 수 있게 하였다. 본 연구에서 제안한 텍스트 마이닝 기법에서는 패턴을 이용하여 논문으로부터 대사경로 지식을 추출하게 되므로 올바른 패턴을 확보하는 것이 중요한 문제이다. 논문에서는 패턴의 수집을 위하여 대표적인 대사 경로 전문 사이트인 일본의 KEGG 경로 데이터베이스에서 추출한 Glycosphingolip건 종에 대한 20,000 여건의 논문에서 66개의 패턴을 추출하였다. 제안된 기법의 유효성을 입증하기 위하여 Glycosphingolipid종의 GLS 대사경로 19개 개체명을 이용하여 시스템을 평가하였다. 그 결과 논문 125,907건에 대하여 정확도 96.3%, 재현을 95.1%, 처리시간 15초의 성능을 보였다. 본 논문에서 제안된 시스템은 대사 경로 재구축에 유용하게 활용될 수 있을 것으로 기대된다.

  • PDF

앙상블 기법을 활용한 온라인 음식 상품 리뷰 감성 분석 (Sentiment analysis of online food product review using ensemble technique)

  • 김한민;박경보
    • 디지털융복합연구
    • /
    • 제17권4호
    • /
    • pp.115-122
    • /
    • 2019
  • 온라인 마켓에서 소비자는 다양한 상품을 접하고 이에 대한 의견을 자유롭게 기술한다. 소비자의 상품 리뷰가 다른 소비자와 온라인 마켓의 성공에 큰 영향을 주는 만큼 온라인 마켓은 판매 상품에 대한 소비자의 감성을 정확하게 분석할 필요가 있다. 데이터 분석 기법 중 하나인 텍스트 마이닝은 상품에 대한 소비자 리뷰를 분석하여 상품을 효율적으로 관리할 수 있게 해준다. 선행 연구들은 데이터 도메인과 사이즈에 따라 분석 결과의 정확도가 다르게 나타남에도 불구하고 특정 도메인과 2만개 미만의 데이터를 분석해왔다. 또한, 분석의 정확도를 향상 시킬 수 있는 추가 요인에 대한 연구는 거의 수행하지 않았다. 본 연구는 앙상블 기법을 활용하여 기존 연구에서 주로 다루지 않은 음식 상품 도메인의 72,530개 리뷰 데이터를 분석하였다. 또한, 분석 정확도 향상과 관련하여 요약 리뷰의 영향력을 살펴보았다. 연구 결과, 본 연구는 기존 연구와 다르게 부스팅 앙상블 기법이 가장 높은 분석 정확도를 보인다는 사실을 발견하였다. 또한, 요약 리뷰는 분석의 정확도 향상에 기여하는 것으로 나타났다.