• 제목/요약/키워드: LDA model

검색결과 167건 처리시간 0.028초

WTO에서 한국은 무슨 말을 해왔나?: 각료회의 대표발언문 분석을 중심으로 (What has Korea told in the WTO? : An analysis on the Ministerial Conference Statements)

  • 서정민
    • 무역학회지
    • /
    • 제48권1호
    • /
    • pp.29-53
    • /
    • 2023
  • 본 연구는 WTO 최고 의사결정기구인 WTO 각료회의(MC)에서 회원국 대표들의 발언을 분석하여 지난 27년 동안 한국이 WTO에 대해 보여준 입장과 태도를 살펴본다. 이를 위해 WTO 문서 데이터베이스에서 회원국이 작성한 약 1,800개의 성명서 문서를 추출하여 텍스트 데이터셋을 구축한 후, 다른 회원국과 비교하여 한국 발언의 특징을 파악하기 위해 텍스트 마이닝 기법을 적용한다. 발언 수, 발언 길이 등 형식적 특징을 통해 한국의 WTO에 대한 관심 지속성, WTO에 대한 관심 정도 등 기본적인 태도를 측정하는 한편, 실체적 특징으로 LDA 토픽 모델을 통한 한국 발언의 주제들을 분류하고, 다른 회원국 발언과의 비교분석을 통해 각료회의 회기별 한국 대표 발언의 키워드를 분석한다.

손목 움직임 추정을 위한 Gaussian Mixture Model 기반 표면 근전도 패턴 분류 알고리즘 (A Gaussian Mixture Model Based Surface Electromyogram Pattern Classification Algorithm for Estimation of Wrist Motions)

  • 정의철;유송현;이상민;송영록
    • 대한의용생체공학회:의공학회지
    • /
    • 제33권2호
    • /
    • pp.65-71
    • /
    • 2012
  • In this paper, the Gaussian Mixture Model(GMM) which is very robust modeling for pattern classification is proposed to classify wrist motions using surface electromyograms(EMG). EMG is widely used to recognize wrist motions such as up, down, left, right, rest, and is obtained from two electrodes placed on the flexor carpi ulnaris and extensor carpi ulnaris of 15 subjects under no strain condition during wrist motions. Also, EMG-based feature is derived from extracted EMG signals in time domain for fast processing. The estimated features based in difference absolute mean value(DAMV) are used for motion classification through GMM. The performance of our approach is evaluated by recognition rates and it is found that the proposed GMM-based method yields better results than conventional schemes including k-Nearest Neighbor(k-NN), Quadratic Discriminant Analysis(QDA) and Linear Discriminant Analysis(LDA).

A New Fine-grain SMS Corpus and Its Corresponding Classifier Using Probabilistic Topic Model

  • Ma, Jialin;Zhang, Yongjun;Wang, Zhijian;Chen, Bolun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권2호
    • /
    • pp.604-625
    • /
    • 2018
  • Nowadays, SMS spam has been overflowing in many countries. In fact, the standards of filtering SMS spam are different from country to country. However, the current technologies and researches about SMS spam filtering all focus on dividing SMS message into two classes: legitimate and illegitimate. It does not conform to the actual situation and need. Furthermore, they are facing several difficulties, such as: (1) High quality and large-scale SMS spam corpus is very scarce, fine categorized SMS spam corpus is even none at all. This seriously handicaps the researchers' studies. (2) The limited length of SMS messages lead to lack of enough features. These factors seriously degrade the performance of the traditional classifiers (such as SVM, K-NN, and Bayes). In this paper, we present a new fine categorized SMS spam corpus which is unique and the largest one as far as we know. In addition, we propose a classifier, which is based on the probability topic model. The classifier can alleviate feature sparse problem in the task of SMS spam filtering. Moreover, we compare the approach with three typical classifiers on the new SMS spam corpus. The experimental results show that the proposed approach is more effective for the task of SMS spam filtering.

독립성분 분석을 이용한 번호판 숫자 인식 (Recognition of Numeric Characters in License Plate based on Independent Component Analysis)

  • 정병준;강현철
    • 대한전자공학회논문지SP
    • /
    • 제46권2호
    • /
    • pp.99-107
    • /
    • 2009
  • 본 논문에서는 자동차 번호판 숫자의 특징을 추출하기 위해 강화된 독립성분분석(independent component analysis)의 혼합모델을 제안한다 독립성분분석은 고차 통계적 특성만을 이용하기 때문에 고차 통계적 특성과 숫자 종류별 상관관계에 대한 특성을 고려하지 못한다. 이러한 독립성분분석의 한계를 극복하기 위해, 본 논문에서는 주성분분석(principle component analysis)과 선형판별분석(linear discriminant analysis)을 조합한 혼합 모델 형태의 독립성분분석을 제안한다. 실험 결과, 제안된 혼합 모델은 독립성분분석이나 다른 혼합 모델들보다 특징 추출과 인식에서 우수한 성능을 보임을 확인하였다.

Sentiment Analysis on 'HelloTalk' App Reviews Using NRC Emotion Lexicon and GoEmotions Dataset

  • Simay Akar;Yang Sok Kim;Mi Jin Noh
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.35-43
    • /
    • 2024
  • During the post-pandemic period, the interest in foreign language learning surged, leading to increased usage of language-learning apps. With the rising demand for these apps, analyzing app reviews becomes essential, as they provide valuable insights into user experiences and suggestions for improvement. This research focuses on extracting insights into users' opinions, sentiments, and overall satisfaction from reviews of HelloTalk, one of the most renowned language-learning apps. We employed topic modeling and emotion analysis approaches to analyze reviews collected from the Google Play Store. Several experiments were conducted to evaluate the performance of sentiment classification models with different settings. In addition, we identified dominant emotions and topics within the app reviews using feature importance analysis. The experimental results show that the Random Forest model with topics and emotions outperforms other approaches in accuracy, recall, and F1 score. The findings reveal that topics emphasizing language learning and community interactions, as well as the use of language learning tools and the learning experience, are prominent. Moreover, the emotions of 'admiration' and 'annoyance' emerge as significant factors across all models. This research highlights that incorporating emotion scores into the model and utilizing a broader range of emotion labels enhances model performance.

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

딥러닝 기반 소셜미디어 한글 텍스트 우울 경향 분석 (A Deep Learning-based Depression Trend Analysis of Korean on Social Media)

  • 박서정;이수빈;김우정;송민
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.91-117
    • /
    • 2022
  • 국내를 비롯하여 전 세계적으로 우울증 환자 수가 매년 증가하는 추세이다. 그러나 대다수의 정신질환 환자들은 자신이 질병을 앓고 있다는 사실을 인식하지 못해서 적절한 치료가 이루어지지 않고 있다. 우울 증상이 방치되면 자살과 불안, 기타 심리적인 문제로 발전될 수 있기에 우울증의 조기 발견과 치료는 정신건강 증진에 있어 매우 중요하다. 이러한 문제점을 개선하기 위해 본 연구에서는 한국어 소셜 미디어 텍스트를 활용한 딥러닝 기반의 우울 경향 모델을 제시하였다. 네이버 지식인, 네이버 블로그, 하이닥, 트위터에서 데이터수집을 한 뒤 DSM-5 주요 우울 장애 진단 기준을 활용하여 우울 증상 개수에 따라 클래스를 구분하여 주석을 달았다. 이후 구축한 말뭉치의 클래스 별 특성을 살펴보고자 TF-IDF 분석과 동시 출현 단어 분석을 실시하였다. 또한, 다양한 텍스트 특징을 활용하여 우울 경향 분류 모델을 생성하기 위해 단어 임베딩과 사전 기반 감성 분석, LDA 토픽 모델링을 수행하였다. 이를 통해 문헌 별로 임베딩된 텍스트와 감성 점수, 토픽 번호를 산출하여 텍스트 특징으로 사용하였다. 그 결과 임베딩된 텍스트에 문서의 감성 점수와 토픽을 모두 결합하여 KorBERT 알고리즘을 기반으로 우울 경향을 분류하였을 때 가장 높은 정확률인 83.28%를 달성하는 것을 확인하였다. 본 연구는 다양한 텍스트 특징을 활용하여 보다 성능이 개선된 한국어 우울 경향 분류 모델을 구축함에 따라, 한국 온라인 커뮤니티 이용자 중 잠재적인 우울증 환자를 조기에 발견해 빠른 치료 및 예방이 가능하도록 하여 한국 사회의 정신건강 증진에 도움을 줄 수 있는 기반을 마련했다는 점에서 의의를 지닌다.

사용자 리뷰를 통한 소셜커머스와 오픈마켓의 이용경험 비교분석 (A Comparative Analysis of Social Commerce and Open Market Using User Reviews in Korean Mobile Commerce)

  • 채승훈;임재익;강주영
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.53-77
    • /
    • 2015
  • 국내 모바일 커머스 시장은 현재 소셜커머스가 이용자 수 측면에서 오픈마켓을 압도하고 있는 상황이다. 산업계에서는 모바일 시장에서 소셜커머스의 성장에 대해 빠른 모바일 시장진입, 큐레이션 모델 등을 주요 성공요인으로 제시하고 있지만, 이에 대한 학계의 실증적인 연구 및 분석은 아직 미미한 상황이다. 본 연구에서는 사용자 리뷰를 바탕으로 모바일 소셜커머스와 오픈마켓의 사용자 이용경험을 비교 분석하는 탐험적인 연구를 수행하였다. 먼저 본 연구는 구글 플레이에 등록된 국내 소셜커머스 주요 3개 업체와 오픈마켓 주요 3개 업체의 모바일 앱 리뷰를 수집하였다. 본 연구는 LDA 토픽모델링을 통해 1만여건에 달하는 모바일 소셜커머스와 오픈마켓 사용자 리뷰를 지각된 유용성과 지각된 편리성 토픽으로 분류한 뒤 감정분석과 동시출현단어분석을 수행하였다. 이를 통해 본 연구는 국내 모바일 커머스 상에서 오픈마켓 이용자들에 비해 소셜커머스 이용자들이 서비스와 이용편리성 측면에서 더 긍정적인 경험을 하고 있음을 증명하였다. 소셜커머스는 '배송', '쿠폰', '할인'을 중심으로 서비스 측면에서 이용자들에게 긍정적인 이용경험을 이끌어내고 있는 반면, 오픈마켓의 경우 '로그인 안됨', '상세보기 불편', '멈춤'과 같은 기술적 문제 및 불편으로 인한 이용자 불만이 높았다. 이와 같이 본 연구는 사용자 리뷰를 통해 서비스 이용경험을 효과적으로 비교 분석할 수 있는 탐험적인 실증연구법을 제시하였다. 구체적으로 본 연구는 LDA 토픽모델링과 기술수용모형을 통해 사용자 리뷰를 서비스와 기술 토픽으로 분류하여 효과적으로 분석할 수 있는 새로운 방법을 제시하였다는 점에서 의의가 있다. 또한 본 연구의 결과는 향후 소셜커머스와 오픈마켓의 경쟁 및 벤치마킹 전략에 중요하게 활용될 수 있을 것으로 기대된다.

Classifying Temporal Topics with Similar Patterns on Twitter

  • Yun, Hong-Won
    • Journal of information and communication convergence engineering
    • /
    • 제9권3호
    • /
    • pp.295-300
    • /
    • 2011
  • Twitter is a popular microblogging service that enables the users to send and read short text messages. These messages are becoming source to analyze topic trends and identify relations among temporal topics. In this paper, we propose a method to classify the temporal topics on Twitter as a problem of grouping the similar patterns. To provide a starting point for a classification under the same topics, we identify the content word weighting scheme based on Latent Dirichlet Allocation (LDA). And we formulate how the temporal topics in the time window can be classified like peaky topics, constant topics, and periodic topics. We provide different real case studies which show the validity of the proposed method. Evaluations show that the proposed method is useful as a classifying model in the analysis of the temporal topics.

Exploring the Trends and Challenges of Artificial Intelligence Education through the Analysis of Newspapers in Korea, 1991-2020: A topic-modeling approach

  • Kim, Sung-ae
    • Journal of information and communication convergence engineering
    • /
    • 제18권4호
    • /
    • pp.216-221
    • /
    • 2020
  • Artificial intelligence (AI), an essential skill of the Fourth Industrial Revolution, is being actively taught in higher education; however, AI education is only in the preparatory stage in elementary, middle, and high schools. Investigating various newspaper articles related to AI education to date can aid in basic data collection, which is an important process in the preparatory stage. Accordingly, 13,378 newspaper articles were collected from a total of 21 newspapers, and five topics were extracted using the latent Dirichlet allocation (LDA)-based topic model along with frequency analysis. Newspaper articles from the early 2000s expanded to technologies related to the Fourth Industrial Revolution. Accordingly, education in AI fields should be linked with education in AI-based technology. In addition, efforts should be made to secure the continuity and sequence of AI education in cooperation with related higher institutions and companies.