• Title/Summary/Keyword: Latent Dirichlet Allocation (LDA) analysis

Search Result 145, Processing Time 0.032 seconds

LDA를 이용한 온라인 리뷰의 다중 토픽별 감성분석 - TripAdvisor 사례를 중심으로 - (Multi-Topic Sentiment Analysis using LDA for Online Review)

  • 홍태호;니우한잉;임강;박지영
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제27권1호
    • /
    • pp.89-110
    • /
    • 2018
  • Purpose There is much information in customer reviews, but finding key information in many texts is not easy. Business decision makers need a model to solve this problem. In this study we propose a multi-topic sentiment analysis approach using Latent Dirichlet Allocation (LDA) for user-generated contents (UGC). Design/methodology/approach In this paper, we collected a total of 104,039 hotel reviews in seven of the world's top tourist destinations from TripAdvisor (www.tripadvisor.com) and extracted 30 topics related to the hotel from all customer reviews using the LDA model. Six major dimensions (value, cleanliness, rooms, service, location, and sleep quality) were selected from the 30 extracted topics. To analyze data, we employed R language. Findings This study contributes to propose a lexicon-based sentiment analysis approach for the keywords-embedded sentences related to the six dimensions within a review. The performance of the proposed model was evaluated by comparing the sentiment analysis results of each topic with the real attribute ratings provided by the platform. The results show its outperformance, with a high ratio of accuracy and recall. Through our proposed model, it is expected to analyze the customers' sentiments over different topics for those reviews with an absence of the detailed attribute ratings.

토픽 모델링을 활용한 다문화 연구의 이슈 추적 연구 (A Study on Issue Tracking on Multi-cultural Studies Using Topic Modeling)

  • 박종도
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.273-289
    • /
    • 2019
  • 본 논문은 국내 다문화 관련 분야의 연구동향을 규명하기 위하여 다문화와 관련한 국내 학술 문헌을 수집하여 LDA (Latent Dirichlet Allocation) 기반의 토픽 모델링을 통해 토픽을 분석하였다. 이를 통해 국내 다문화 관련 연구에서의 중심 연구 토픽을 시기별로 추적하여 그 변화의 양상을 관찰하였고, 그 결과 핫 토픽으로는 '다문화 사회통합'과 '학교 다문화 교육'이 관찰되었으며 콜드 토픽으로는 '문화정체성과 민족주의' 관련 토픽이 관찰되었다.

잠재의미분석방법을 통한 학교보건 연구동향 분석 (Trend Analysis of School Health Research using Latent Semantic Analysis)

  • 신선희;박윤주
    • 한국학교보건학회지
    • /
    • 제33권3호
    • /
    • pp.184-193
    • /
    • 2020
  • Purpose: This study was designed to investigate the trends in school health research in Korea using probabilistic latent semantic analysis. The study longitudinally analyzed the abstracts of the papers published in 「The Journal of the Korean Society of School Health」 over the recent 17 years, which is between 2004 and August 2020. By classifying all the papers according to the topics identified through the analysis, it was possible to see how the distribution of the topics has changed over years. Based on the results, implications for school health research and educational uses of latent semantic analysis were suggested. Methods: This study investigated the research trends by longitudinally analyzing journal abstracts using latent dirichlet allocation (LDA), a type of LSA. The abstracts in 「The Journal of the Korean Society of School Health」 published from 2004 to August 2020 were used for the analysis. Results: A total of 34 latent topics were identified by LDA. Six topics, which were「Adolescent depression and suicide prevention」, 「Students' knowledge, attitudes, & behaviors」, 「Effective self-esteem program through depression interventions」, 「Factors of students' stress」, 「Intervention program to prevent adolescent risky behaviors」, and 「Sex education curriculum, and teacher」were most frequently covered by the journal. Each of them was dealt with in at least 20 papers. The topics related to 「Intervention program to prevent adolescent risky behaviors」, 「Effective self-esteem program through depression interventions」, and 「Preventive vaccination and factors of effective vaccination」 appeared repeatedly over the most recent 5 years. Conclusion: This study introduced an AI-powered analysis method that enables data-centered objective text analysis without human intervention. Based on the results, implications for school health research were presented, and various uses of latent semantic analysis (LSA) in educational research were suggested.

Analysis of Research Topics and Trends on COVID-19 in Korea Using Latent Dirichlet Allocation (LDA)

  • Heo, Seong-Min;Yang, Ji-Yeon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.83-91
    • /
    • 2020
  • 본 연구에서는 DBpia에 등록된 코로나19 관련 논문을 대상으로 연구 토픽을 밝히고 연구 변화 추세를 검토한다. 잠재 디리슐레 할당(Latent Dirichlet Allocation) 알고리즘을 적용한 결과, 7개의 연구 토픽을 도출하였고, 각 토픽은 "International Dynamics", "Technology & Security", "Psychological Impact", "Biomedical-Related", "Economic Impact", "Online Education", "Religion-Related"에 관한 내용이었다. 또한 다범주 로짓모형을 사용하여 연구 토픽의 추세 변화를 살펴본 결과, 2020년 6월 전에는 국제적 역학관계 및 생물 의학 관련 논문이 주를 이루었다면, 이후에는 다양한 분야로 연구 주제가 확대되었다. 특히 경제적인 영향, 온라인 교육, 심리적인 영향에 관한 연구가 꾸준히 증가함을 확인할 수 있었다. 이러한 결과는 향후 코로나19 관련 공동 연구의 가이드 라인을 제시하고, 활발한 연구 활동을 위한 기초자료로 활용될 수 있을 것이다.

A Development of LDA Topic Association Systems Based on Spark-Hadoop Framework

  • Park, Kiejin;Peng, Limei
    • Journal of Information Processing Systems
    • /
    • 제14권1호
    • /
    • pp.140-149
    • /
    • 2018
  • Social data such as users' comments are unstructured in nature and up-to-date technologies for analyzing such data are constrained by the available storage space and processing time when fast storing and processing is required. On the other hand, it is even difficult in using a huge amount of dynamically generated social data to analyze the user features in a high speed. To solve this problem, we design and implement a topic association analysis system based on the latent Dirichlet allocation (LDA) model. The LDA does not require the training process and thus can analyze the social users' hourly interests on different topics in an easy way. The proposed system is constructed based on the Spark framework that is located on top of Hadoop cluster. It is advantageous of high-speed processing owing to that minimized access to hard disk is required and all the intermediately generated data are processed in the main memory. In the performance evaluation, it requires about 5 hours to analyze the topics for about 1 TB test social data (SNS comments). Moreover, through analyzing the association among topics, we can track the hourly change of social users' interests on different topics.

토픽모델링을 활용한 교통경찰 민원 분석 (An Analysis of Civil Complaints about Traffic Policing Using the LDA Model)

  • 이상엽
    • 한국ITS학회 논문지
    • /
    • 제20권4호
    • /
    • pp.57-70
    • /
    • 2021
  • 본 연구는 민원데이터를 분석함으로써 교통경찰에 대한 국민의 치안 수요를 탐색하고자 하였다. 이를 위해 교통경찰 관련 국민신문고 민원데이터 2,062건을 대상으로, 토픽모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation)을 통해 주요 토픽을 추출하고 높은 비중을 차지한 위반신고에 대해 추가분석을 시도하였다. 이 과정에서 키워드와 대표문서의 일관성과 합치성을 함께 고려하였다. 분석 결과 교통경찰 관련 민원은 시설개선, 신호에 따른 교차로통행방법, 번호판 영치, 개인형 이동장치 등 41개의 토픽으로 분류할 수 있었다. 교차로내 위반과 이륜자동차의 위반에 대한 단속을 강화하고 무인교통단속장비, 횡단보도, 신호등의 설치 및 운영에 대한 선제적인 조치, 최근 개정된 법령과 시행된 정책, 경찰교통민원 사이트, 단속 사후 절차에 대한 더욱 활발한 홍보가 필요한 것으로 판단된다.

잠재 디리클레 할당(LDA) 기반의 토픽모델링 분석을 통한 '초등과학교육' 학술지 연구논문의 주제 및 변화 (An Examination of the Topics and Changes in the Research Papers Published in the Journal of Korean Elementary Science Education Using Latent Dirichlet Allocation for the Topic Modeling Analysis)

  • 장진아;나지연
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권2호
    • /
    • pp.356-372
    • /
    • 2022
  • 본 연구에서는 한국초등과학교육학회의 지난 50년을 돌아보기 위하여, '초등과학교육'에 게재된 연구논문들이 어떤 주제로 어떻게 변화했는지 살펴보았다. 이를 위해 창간호(1983)년부터 2021년까지 '초등과학교육' 학술지에 게재된 연구논문의 총 1,065개 영문초록들에 대하여 LDA 기반 토픽모델링 분석을 실시하였다. LDA 분석 결과 총 14개의 토픽들이 추출되었으며, 핵심어 및 핵심 문서를 통해 각 토픽들에 담긴 의미를 분석하였다. 또한 시기별로 각 토픽들의 추이를 파악하기 위해, 3년을 주기로 하여 토픽들의 평균 비중값 변화를 분석하고 선형회귀 분석을 통해 통계적으로 유의미하게 증가 또는 감소한 토픽들을 분석하였다. 끝으로 본 연구의 결과를 통해, 향후 초등과학교육 연구 수행 및 지원을 위한 시사점을 논의하였다.

Latent Dirichlet Allocation (LDA) 모델 기반의 인공지능(A.I.) 기술 관련 연구 활동 및 동향 분석 (Systemic Analysis of Research Activities and Trends Related to Artificial Intelligence(A.I.) Technology Based on Latent Dirichlet Allocation (LDA) Model)

  • 정명석;이주연
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.87-95
    • /
    • 2018
  • 최근 인공지능(Artificial Intelligence; A.I.)의 기술 발전과 함께 이에 대한 관심이 증가하고 있으며 관련 시장도 비약적으로 확대되고 있다. 아직은 초기단계이지만 2000년 이후 현재까지 계속 확장되고 있는 인공지능 기술 분야의 연구방향과 투자 분야에 대한 불확실성을 줄이는 것이 중요한 시점이다. 이러한 기술 변화와 시대적 요구에 따라서 본 연구는 빅데이터(Big Data) 분석방법 중 텍스트 마이닝(Text Mining)과 토픽모델링(Topic Modeling)을 활용하여 기술동향을 살펴보고, 핵심기술과 성장 가능성이 있는 연구의 향후 방향성을 제시하였다. 본 연구의 결과로부터 인공지능의 기술동향에 대한 이해를 바탕으로 향후 연구 방향에 대한 새로운 시사점을 도출할 수 있으리라 기대한다.

잠재디리클레할당을 이용한 한국학술지인용색인의 풍력에너지 문헌검토 (Review of Wind Energy Publications in Korea Citation Index using Latent Dirichlet Allocation)

  • 김현구;이제현;오명찬
    • 신재생에너지
    • /
    • 제16권4호
    • /
    • pp.33-40
    • /
    • 2020
  • The research topics of more than 1,900 wind energy papers registered in the Korean Journal Citation Index (KCI) were modeled into 25 topics using latent directory allocation (LDA), and their consistency was cross-validated through principal component analysis (PCA) of the document word matrix. Key research topics in the wind energy field were identified as "offshore, wind farm," "blade, design," "generator, voltage, control," 'dynamic, load, noise," and "performance test." As a new method to determine the similarity between research topics in journals, a systematic evaluation method was proposed to analyze the correlation between topics by constructing a journal-topic matrix (JTM) and clustering them based on topic similarity between journals. By evaluating 24 journals that published more than 20 wind energy papers, it was confirmed that they were classified into meaningful clusters of mechanical engineering, electrical engineering, marine engineering, and renewable energy. It is expected that the proposed systematic method can be applied to the evaluation of the specificity of subsequent journals.

LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석 (Latent mobility pattern analysis of bus passengers with LDA)

  • 조아;이경희;조완섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1061-1069
    • /
    • 2015
  • 최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다.