• 제목/요약/키워드: LDA model

검색결과 161건 처리시간 0.028초

기계학습 기반 토픽모델링을 이용한 학술지 "자원환경지질"의 연구주제 분류 및 연구동향 분석 (Topic Model Analysis of Research Themes and Trends in the Journal of Economic and Environmental Geology)

  • 김태용;박혜민;허준용;양민준
    • 자원환경지질
    • /
    • 제54권3호
    • /
    • pp.353-364
    • /
    • 2021
  • 국내 지질학의 연구 분야는 20세기 중반 이후부터 꾸준하게 발전되어왔다. 학술지 "자원환경지질"은 국내 지질학을 대표하는 역사가 긴 학술지로 지질학을 바탕으로 하는 융복합연구 논문이 게재되고 있다. 본 연구는 학술지 "자원환경지질"에 게재된 논문을 대상으로 문헌 고찰(literature review)을 수행하여 지질학의 역사와 발전에 대해 논의하고자 한다. 1968년부터 2020년까지 총 2,571편의 논문 제목, 주제어, 다국어 초록을 수집하였으며, Latent Dirichlet Allocation (LDA) 기반 토픽모델링을 실시하여 연구 주제를 분류하고 연구 동향과 주제간 연관성을 확인하였다. 학술지 "자원환경지질"은 총 8개의 연구주제('암석학 및 지구화학', '수문학 및 수리지질학', '광상학', '화산학', '토양오염 및 복원학', '기초지질 및 구조지질학', '지구물리 및 물리탐사', '점토광물')로 분류할 수 있었다. 1994년 이전에는 '광상학', '화산학', '기초지질 및 구조지질학'의 연구주제들이 활발하게 연구되었으며, 이후 '수문학 및 수리지질학', '토양오염 및 복원학', '지구물리 및 물리탐사', '점토광물'의 연구주제들이 성행하였다. 연관성분석(network analysis)결과, 학술지 "자원환경지질"은 '광상학'을 기반으로 융복합적 연구 논문들이 게재되었다는 것을 확인하였다. 본 연구의 결과는 지질학을 다루는 연구자들에게 문헌 고찰의 새로운 방법론을 제시하여 지질학의 역사에 대한 이해를 제공했음에 의의가 있다.

토픽모델링을 이용한 국내 미세먼지 연구 분류 및 연구동향 분석 (A Study on the Research Topics and Trends in South Korea: Focusing on Particulate Matter)

  • 박혜민;김태용;권대웅;허준용;이주연;양민준
    • 대한원격탐사학회지
    • /
    • 제38권5_3호
    • /
    • pp.873-885
    • /
    • 2022
  • 전 세계적으로 미세먼지(particulate matter, PM)와 사망률 및 유병률 증가의 관련성이 보고되면서 다양한 연구가 수행되었으며, 우리나라에서는 1990년대 후반을 기점으로 PM에 대한 중요성을 인식하고, PM에 대한 다양한 연구가 수행되었다. 본 연구에서는 '미세먼지' 관련 연구들의 주제를 분류하고, 각 주제별 연구 동향을 확인하기 위해 Research Information Sharing Service (RISS)에 게재된 미세먼지 관련 2,764편의 논문을 대상으로 Latent Dirichlet Allocate (LDA) 분석을 수행하였다. 연구 결과, 총 10개의 주제로 분류하는 것이 가장 적합하였으며, 미세먼지 관련 연구주제는 '미세먼지 저감(Topic 1)', '정부 정책 및 관리(Topic 2)', '미세먼지 특성(Topic 3)', '미세먼지 모델(Topic 4)', '환경교육(Topic 5)', '바이오(Topic 6)', '교통수단(Topic 7)', '황사(Topic 8)', '실내 미세먼지 오염(Topic 9)', '인체 위해성(Topic 10)'의 주제로 분류할 수 있었다. 특히, '정부 정책 및 관리(Topic 2)', '미세먼지 모델(Topic 4)', '환경교육(Topic 5)'. '바이오(Topic 6)' 관련 연구주제들이 시간에 따라 전체 논문에 대한 비율이 증가하는 추세를 보여 성행하는 것을 확인하였다(linear slope>0). 본 연구의 결과는 미세먼지 관련 다양한 분야의 연구자들에게 새로운 문헌 고찰의 방법론을 제시하고, 미세먼지 분야의 역사와 발전에 대한 이해를 제공했음에 의의가 있다.

정보활용교육 주요 토픽과 교원능력개발평가 사서교사 평가지표 비교 연구 (Comparative Study of Information Literacy Education and Librarian Teacher Evaluation Index in Teachers' Competency Development Evaluation)

  • 이민수;김혜진
    • 한국도서관정보학회지
    • /
    • 제53권3호
    • /
    • pp.455-477
    • /
    • 2022
  • 본 연구는 정보활용교육의 주요 토픽과 사서교사 역량 강화를 위해 실시되고 있는 교원능력개발 평가지표의 비교·분석을 통해서 사서교사가 적절한 요소를 통해 평가가 이루어지고 있는지 분석하였다. 이를 위해 1995년부터 2022년 5월까지 문헌정보학 분야 4대 학술지에서 출판된 정보활용교육 관련 논문들을 수집하여 LDA 토픽모델링을 실시하였다. 토픽모델링 결과 20개의 토픽 중 정보활용교육(T10)이 12.0%로 가장 활발하게 논의되고 있음을 알 수 있으며, 도서관 활용수업(T2) 10.4%, 이용자 서비스(T3) 8.8%가 그다음 순으로 나타났다. 반면 독서토론(T7) 3.3%, 독서교육(T19) 2.9%, 인력 관리(T13) 2.1%, 사서교사 직무 만족도(T17) 2.1% 등은 정보활용교육 토픽모델링에서 저조한 토픽들로 나타났다. 또한 학교도서관 사서교사의 수업모형개발(T1)과 교육과정 개발(T20)은 사서교사가 협업수업과 정보활용교육을 진행함에 있어서 필수적으로 수행하는 과정임에도 불구하고 현행 교원능력개발 평가지표에는 고유한 평가지표로 반영되어 있지 않는 것으로 나타났다. 이에 본 연구에서는 교원능력개발평가 사서교사 평가지표 '교육 및 수업 지원' 요소에 '수업모형 및 교육과정 개발'을 추가 평가지표로 제안하였다.

Non-Simultaneous Sampling Deactivation during the Parameter Approximation of a Topic Model

  • Jeong, Young-Seob;Jin, Sou-Young;Choi, Ho-Jin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권1호
    • /
    • pp.81-98
    • /
    • 2013
  • Since Probabilistic Latent Semantic Analysis (PLSA) and Latent Dirichlet Allocation (LDA) were introduced, many revised or extended topic models have appeared. Due to the intractable likelihood of these models, training any topic model requires to use some approximation algorithm such as variational approximation, Laplace approximation, or Markov chain Monte Carlo (MCMC). Although these approximation algorithms perform well, training a topic model is still computationally expensive given the large amount of data it requires. In this paper, we propose a new method, called non-simultaneous sampling deactivation, for efficient approximation of parameters in a topic model. While each random variable is normally sampled or obtained by a single predefined burn-in period in the traditional approximation algorithms, our new method is based on the observation that the random variable nodes in one topic model have all different periods of convergence. During the iterative approximation process, the proposed method allows each random variable node to be terminated or deactivated when it is converged. Therefore, compared to the traditional approximation ways in which usually every node is deactivated concurrently, the proposed method achieves the inference efficiency in terms of time and memory. We do not propose a new approximation algorithm, but a new process applicable to the existing approximation algorithms. Through experiments, we show the time and memory efficiency of the method, and discuss about the tradeoff between the efficiency of the approximation process and the parameter consistency.

A Novel Hyperspectral Microscopic Imaging System for Evaluating Fresh Degree of Pork

  • Xu, Yi;Chen, Quansheng;Liu, Yan;Sun, Xin;Huang, Qiping;Ouyang, Qin;Zhao, Jiewen
    • 한국축산식품학회지
    • /
    • 제38권2호
    • /
    • pp.362-375
    • /
    • 2018
  • This study proposed a rapid microscopic examination method for pork freshness evaluation by using the self-assembled hyperspectral microscopic imaging (HMI) system with the help of feature extraction algorithm and pattern recognition methods. Pork samples were stored for different days ranging from 0 to 5 days and the freshness of samples was divided into three levels which were determined by total volatile basic nitrogen (TVB-N) content. Meanwhile, hyperspectral microscopic images of samples were acquired by HMI system and processed by the following steps for the further analysis. Firstly, characteristic hyperspectral microscopic images were extracted by using principal component analysis (PCA) and then texture features were selected based on the gray level co-occurrence matrix (GLCM). Next, features data were reduced dimensionality by fisher discriminant analysis (FDA) for further building classification model. Finally, compared with linear discriminant analysis (LDA) model and support vector machine (SVM) model, good back propagation artificial neural network (BP-ANN) model obtained the best freshness classification with a 100 % accuracy rating based on the extracted data. The results confirm that the fabricated HMI system combined with multivariate algorithms has ability to evaluate the fresh degree of pork accurately in the microscopic level, which plays an important role in animal food quality control.

웹 애플리케이션 기반의 텍스트 데이터 분석 모델 (Text Data Analysis Model Based on Web Application)

  • 진고환
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.785-792
    • /
    • 2021
  • 4차 산업혁명 이후 인공지능, 빅 데이터와 같은 기술들의 발전으로 사회 전반에 다양한 변화가 일어나고 있으며, 핵심적인 기술 적용 과정에서 수집할 수 있는 데이터의 양도 급속하게 증가하고 있는 추세이다. 특히 학계에서는 연구 동향을 파악하기 위하여 기존에 생성된 문헌 데이터에 대한 분석이 이루어지고 있으며, 이러한 문헌 분석은 연구의 흐름을 정리하고, 어떤 연구 방법론이나 주제, 또는 현재 학계에서 화두가 되고 있는 대상에 대한 파악을 통하여 향후 연구 방향 설정에 많은 기여를 하고 있는 상황이다. 그러나 문서 데이터의 분석을 위하여 데이터 수집이 필요하나, 일반적으로 프로그램에 대한 전문 지식이 없는 경우 접근하기 어렵다. 본 논문에서는 텍스트 마이닝 기반의 토픽 모델링 웹 애플리케이션 모델을 제안한다. 제안 모델을 통하여 데이터 분석 기법에 대한 전문적인 지식이 부족하더라도, 연구 논문의 수집, 저장, 텍스트 분석과 같은 다양한 작업을 진행할 수 있으며, 연구자들이 선행 연구 분석과 연구 동향을 파악하기 위하여 데이터 분석에 투입되는 시간 및 노력을 단축시킬 수 있을 것으로 기대된다.

Pseudo 2D-HMM을 이용한 효율적인 얼굴인식에 관한 연구 (A Study on Efficient Face Recognition using Pseudo 2D-HMM)

  • 이우주;임정훈;노경석;서희경;이배호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.493-496
    • /
    • 2003
  • 본 논문에서는 계산의 복잡성을 단순화하고, 얼굴영상에 대해 높은 얼굴 인식률을 얻기 위해 2D-HMM(Midden Markov Model) 얼굴인식 방법을 제안하고 실험하였다. 계산의 복잡성을 줄이기 위해 기존의 픽셀값 대신에 2D-DCT계수를 관측벡터로 사용함으로써 관측벡터의 크기와 인식 시스템의 복잡성을 줄일 수 있었다. 얼굴인식 시스템의 성능을 평가하기 위하여 Yale, ORL의 얼굴 데이터베이스에 대하여 기존의 얼굴인식 방법으로 널리 알려진 Eigenface 방법, LDA 방법과 본 논문에서 제안한 방법인 1D-HMM, 2D-HMM방법의 인식률을 비교 평가하였다. 실험결과 2D-HMM 방법의 인식률이 99.5%로 기존의 얼굴인식 방법들보다 우수한 성능을 나타냈다. 또한 일정 state수에 대해 mixture의 수가 증가할수록 인식결과가 좋아짐을 알 수 있었다.

  • PDF

토픽 모델링에 기반한 온라인 상품 평점 예측을 위한 온라인 사용 후기 분석 (Online Reviews Analysis for Prediction of Product Ratings based on Topic Modeling)

  • 박상현;문현실;김재경
    • 한국IT서비스학회지
    • /
    • 제16권3호
    • /
    • pp.113-125
    • /
    • 2017
  • Customers have been affected by others' opinions when they make a purchase. Thanks to the development of technologies, people are sharing their experiences such as reviews or ratings through online or social network services, However, although ratings are intuitive information for others, many reviews include only texts without ratings. Also, because of huge amount of reviews, customers and companies can't read all of them so they are hard to evaluate to a product without ratings. Therefore, in this study, we propose a methodology to predict ratings based on reviews for a product. In a methodology, we first estimate the topic-review matrix using the Latent Dirichlet Allocation technic which is widely used in topic modeling. Next, we predict ratings based on the topic-review matrix using the artificial neural network model which is based on the backpropagation algorithm. Through experiments with actual reviews, we find that our methodology can predict ratings based on customers' reviews. And our methodology performs better with reviews which include certain opinions. As a result, our study can be used for customers and companies that want to know exactly a product with ratings. Moreover, we hope that our study leads to the implementation of future studies that combine machine learning and topic modeling.

코로나19 팬데믹 상황에서 감성분석을 이용한 미국, 중국, 한국 여행자의 온라인 리뷰 비교 분석 (A Comparative Analysis of Travelers' Online Reviews among China, USA, and South Korea using Sentiment Analysis in the Era of the COVID-19 Pandemic)

  • 홍준우;홍태호
    • 한국IT서비스학회지
    • /
    • 제20권5호
    • /
    • pp.159-176
    • /
    • 2021
  • In this study, we performed a comparative analysis of the sentiment value for the tourists in USA, China, and Korea on the COVID19 pandemic era to explore and find out the features of the tourists by using online reviews. We collected a total of 243,826 online hotel reviews for metropolitan city and vacation spot in the three countries to compare the features between the business and the vacation trips. We collected the online reviews into the tow groups from Jan. 1, 2019 to Nov. 31, 2019 for before COVID19 pandemic and from Apr. 1, 2020 to Deb 28, 2021 for during COVID19. Online reviews were categorized into 6 dimensions using LDA model. Sentiment analysis were presented for 6 dimensions by utilizing a lexicon base. We proposed an approach to analyzing the importance of each attribute by applying 6-dimensional sentiment values to conjoint analysis. Our empirical analysis showed that the proposed approach could explore and find out the changed features of travelers during the COVID19 pandemic.

Research on Community Knowledge Modeling of Readers Based on Interest Labels

  • Kai, Wang;Wei, Pan;Xingzhi, Chen
    • Journal of Information Processing Systems
    • /
    • 제19권1호
    • /
    • pp.55-66
    • /
    • 2023
  • Community portraits can deeply explore the characteristics of community structures and describe the personalized knowledge needs of community users, which is of great practical significance for improving community recommendation services, as well as the accuracy of resource push. The current community portraits generally have the problems of weak perception of interest characteristics and low degree of integration of topic information. To resolve this problem, the reader community portrait method based on the thematic and timeliness characteristics of interest labels (UIT) is proposed. First, community opinion leaders are identified based on multi-feature calculations, and then the topic features of their texts are identified based on the LDA topic model. On this basis, a semantic mapping including "reader community-opinion leader-text content" was established. Second, the readers' interest similarity of the labels was dynamically updated, and two kinds of tag parameters were integrated, namely, the intensity of interest labels and the stability of interest labels. Finally, the similarity distance between the opinion leader and the topic of interest was calculated to obtain the dynamic interest set of the opinion leaders. Experimental analysis was conducted on real data from the Douban reading community. The experimental results show that the UIT has the highest average F value (0.551) compared to the state-of-the-art approaches, which indicates that the UIT has better performance in the smooth time dimension.