• 제목/요약/키워드: Latent Dirichlet allocation

검색결과 212건 처리시간 0.021초

LDA 토픽모델링을 통한 ICT분야 국가연구개발사업의 주요 연구토픽 및 동향 탐색 (Investigation of Research Topic and Trends of National ICT Research-Development Using the LDA Model)

  • 우창우;이종연
    • 한국융합학회논문지
    • /
    • 제11권7호
    • /
    • pp.9-18
    • /
    • 2020
  • 본 논문의 연구목표는 LDA(Latent Dirichlet Allocation) 모델을 적용하여 국가연구개발사업을 통해 수행되고 있는 ICT(Information and Communication Technology) 분야의 연구과제에 대한 주요 연구 토픽과 동향을 탐색하는데 있다. 연구방법에는 NTIS(National Science and Technology Information Service)로부터 최근 5년간 국가연구개발사업의 전체 연구과제 정보를 다운로드받고 이를 정보통신기획평가원(IITP)의 EZone 시스템과 매칭하여 ICT 분야 연구과제 5,200건을 확보하고, 토픽모델링 기법중 하나인 LDA 모델을 적용하여 연구토픽과 연구동향을 조사하였다. 실험결과로, ICT분야 연구과제에 대한 연구토픽은 인공지능, 빅데이터, 사물인터넷(Internet of Things)과 같은 지능정보기술로 확인되었고 연구동향에는 초실감미디어에 관한 연구가 활발히 진행되고 있음을 확인하였다. 끝으로 본 논문에서 진행된 국가연구개발사업에 대한 토픽모델링 결과는 향후 ICT분야 연구개발 계획 및 전략수립, 정책, 과제기획 등 중요한 정보로 활용될 수 있을 것이다.

토픽모델링을 활용한 교통경찰 민원 분석 (An Analysis of Civil Complaints about Traffic Policing Using the LDA Model)

  • 이상엽
    • 한국ITS학회 논문지
    • /
    • 제20권4호
    • /
    • pp.57-70
    • /
    • 2021
  • 본 연구는 민원데이터를 분석함으로써 교통경찰에 대한 국민의 치안 수요를 탐색하고자 하였다. 이를 위해 교통경찰 관련 국민신문고 민원데이터 2,062건을 대상으로, 토픽모델링 방법 중 하나인 잠재 디리클레 할당(Latent Dirichlet Allocation)을 통해 주요 토픽을 추출하고 높은 비중을 차지한 위반신고에 대해 추가분석을 시도하였다. 이 과정에서 키워드와 대표문서의 일관성과 합치성을 함께 고려하였다. 분석 결과 교통경찰 관련 민원은 시설개선, 신호에 따른 교차로통행방법, 번호판 영치, 개인형 이동장치 등 41개의 토픽으로 분류할 수 있었다. 교차로내 위반과 이륜자동차의 위반에 대한 단속을 강화하고 무인교통단속장비, 횡단보도, 신호등의 설치 및 운영에 대한 선제적인 조치, 최근 개정된 법령과 시행된 정책, 경찰교통민원 사이트, 단속 사후 절차에 대한 더욱 활발한 홍보가 필요한 것으로 판단된다.

한국과학교육학회지는 44년간 어떤 주제로 어떻게 변화했는가? -잠재 디리클레 할당(LDA)을 활용한 토픽모델링 분석- (How the Journal of the Korean Association for Science Education(JKASE) Changed for the Past 44 Years?: Topic Modeling Analysis Using Latent Dirichlet Allocation)

  • 장진아;나지연
    • 한국과학교육학회지
    • /
    • 제42권2호
    • /
    • pp.185-200
    • /
    • 2022
  • 이 연구에서는 LDA 기반의 토픽모델링 분석을 통해 한국과학교육학회지에 게재된 연구 논문들이 어떤 주제로 어떻게 변화했는지 탐색하였다. 이를 위해, 1978년부터 2021년 5월까지 한국과학교육학회지에 게재된 논문들의 영문초록 총 2,115개에 대한 LDA 기반 토픽모델링분석을 실시하였다. 분석 결과, 총 23개의 토픽을 추출하였으며 각 토픽들을 관련된 키워드 및 세부 연구주제들과 함께 제시하였다. 다음으로, 시간에 따른 토픽들의 변화 추이를 살펴보기 위해, 4년 주기에 대한 각 토픽들의 평균 비중값의 변화를 히트맵으로 시각화하였다. 이를 통해, 시간이 지남에 따라 상승해온 주제와 하락해온 주제들을 밝혔다. 이 연구의 결과들은 꾸준히 연구되어온 전통적인 연구 주제들, 교육 철학이나 연구방법의 변화, 사회나 정책적 요구에 따라 달라져온 연구 주제들을 드러냄으로써 한국의 과학교육연구에 새로운 통찰을 제공할 것으로 기대된다.

잠재 디리클레 할당(LDA) 기반의 토픽모델링 분석을 통한 '초등과학교육' 학술지 연구논문의 주제 및 변화 (An Examination of the Topics and Changes in the Research Papers Published in the Journal of Korean Elementary Science Education Using Latent Dirichlet Allocation for the Topic Modeling Analysis)

  • 장진아;나지연
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권2호
    • /
    • pp.356-372
    • /
    • 2022
  • 본 연구에서는 한국초등과학교육학회의 지난 50년을 돌아보기 위하여, '초등과학교육'에 게재된 연구논문들이 어떤 주제로 어떻게 변화했는지 살펴보았다. 이를 위해 창간호(1983)년부터 2021년까지 '초등과학교육' 학술지에 게재된 연구논문의 총 1,065개 영문초록들에 대하여 LDA 기반 토픽모델링 분석을 실시하였다. LDA 분석 결과 총 14개의 토픽들이 추출되었으며, 핵심어 및 핵심 문서를 통해 각 토픽들에 담긴 의미를 분석하였다. 또한 시기별로 각 토픽들의 추이를 파악하기 위해, 3년을 주기로 하여 토픽들의 평균 비중값 변화를 분석하고 선형회귀 분석을 통해 통계적으로 유의미하게 증가 또는 감소한 토픽들을 분석하였다. 끝으로 본 연구의 결과를 통해, 향후 초등과학교육 연구 수행 및 지원을 위한 시사점을 논의하였다.

빅데이터를 활용한 젠트리피케이션 상권의 장소성 분류와 특성 분석 -서울시 14개 주요상권을 중심으로- (Classifying and Characterizing the Types of Gentrified Commercial Districts Based on Sense of Place Using Big Data: Focusing on 14 Districts in Seoul)

  • 김영재;박인권
    • 지역연구
    • /
    • 제39권1호
    • /
    • pp.3-20
    • /
    • 2023
  • 본 연구는 젠트리피케이션이 발생한 상권의 장소성을 파악하여 상권의 확장과 쇠퇴 속에서 장소성의 구체적인 모습을 유형화하고 유형별 특징을 분석하는 것을 목적으로 한다. 소셜 미디어를 통해 수집된 대용량 문서를 활용하여 위계적 군집분석을 시행하였으며, 지역별 장소성을 인지적 차원의 <경험>과 실재적 차원의 <상권특성>으로 구분하여 상권 군집별 특성을 확인하였다. 이를 위해 잠재 디리클레 할당(Latent Dirichlet Allocation: LDA) 토픽모델링 기법과 서울시 우리마을가게 상권분석서비스를 통해 수집된 상권별 매출액 통계자료를 활용하였다. 분석 결과 서울시 젠트리피케이션 상권은 고유한 특성을 가진 '연극 상권', '전통문화 상권', '여성 미용 상권', '고급음식점 및 의료서비스 상권', '트렌디 상권'으로 분류되는 것으로 나타났다. 연구의 결과를 바탕으로 보다 효율적이고 지역별 특색에 맞는 상업정책들을 시행할 수 있을 것으로 기대한다.

잠재의미분석방법을 통한 학교보건 연구동향 분석 (Trend Analysis of School Health Research using Latent Semantic Analysis)

  • 신선희;박윤주
    • 한국학교보건학회지
    • /
    • 제33권3호
    • /
    • pp.184-193
    • /
    • 2020
  • Purpose: This study was designed to investigate the trends in school health research in Korea using probabilistic latent semantic analysis. The study longitudinally analyzed the abstracts of the papers published in 「The Journal of the Korean Society of School Health」 over the recent 17 years, which is between 2004 and August 2020. By classifying all the papers according to the topics identified through the analysis, it was possible to see how the distribution of the topics has changed over years. Based on the results, implications for school health research and educational uses of latent semantic analysis were suggested. Methods: This study investigated the research trends by longitudinally analyzing journal abstracts using latent dirichlet allocation (LDA), a type of LSA. The abstracts in 「The Journal of the Korean Society of School Health」 published from 2004 to August 2020 were used for the analysis. Results: A total of 34 latent topics were identified by LDA. Six topics, which were「Adolescent depression and suicide prevention」, 「Students' knowledge, attitudes, & behaviors」, 「Effective self-esteem program through depression interventions」, 「Factors of students' stress」, 「Intervention program to prevent adolescent risky behaviors」, and 「Sex education curriculum, and teacher」were most frequently covered by the journal. Each of them was dealt with in at least 20 papers. The topics related to 「Intervention program to prevent adolescent risky behaviors」, 「Effective self-esteem program through depression interventions」, and 「Preventive vaccination and factors of effective vaccination」 appeared repeatedly over the most recent 5 years. Conclusion: This study introduced an AI-powered analysis method that enables data-centered objective text analysis without human intervention. Based on the results, implications for school health research were presented, and various uses of latent semantic analysis (LSA) in educational research were suggested.

Learning Probabilistic Kernel from Latent Dirichlet Allocation

  • Lv, Qi;Pang, Lin;Li, Xiong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2527-2545
    • /
    • 2016
  • Measuring the similarity of given samples is a key problem of recognition, clustering, retrieval and related applications. A number of works, e.g. kernel method and metric learning, have been contributed to this problem. The challenge of similarity learning is to find a similarity robust to intra-class variance and simultaneously selective to inter-class characteristic. We observed that, the similarity measure can be improved if the data distribution and hidden semantic information are exploited in a more sophisticated way. In this paper, we propose a similarity learning approach for retrieval and recognition. The approach, termed as LDA-FEK, derives free energy kernel (FEK) from Latent Dirichlet Allocation (LDA). First, it trains LDA and constructs kernel using the parameters and variables of the trained model. Then, the unknown kernel parameters are learned by a discriminative learning approach. The main contributions of the proposed method are twofold: (1) the method is computationally efficient and scalable since the parameters in kernel are determined in a staged way; (2) the method exploits data distribution and semantic level hidden information by means of LDA. To evaluate the performance of LDA-FEK, we apply it for image retrieval over two data sets and for text categorization on four popular data sets. The results show the competitive performance of our method.

국내 산업공학 연구 주제 2001~2015 (Research Topics in Industrial Engineering 2001~2015)

  • 정보권;이학연
    • 대한산업공학회지
    • /
    • 제42권6호
    • /
    • pp.421-431
    • /
    • 2016
  • Over the last four decades, industrial engineering (IE) research in Korea has continued to evolve and expand to respond to social needs. This paper aims to identify research topics in IE research and explore their dynamic changes over time. The topic modeling approach, which automatically discovers topics that pervade a large and unstructured collection of documents, is adopted to identify research topics in domestic IE research. 1,242 articles published from 2001 to 2015 in two IE journals issued by the Korean Institute of Industrial Engineers were collected and their English abstracts were analyzed. Applying the Latent Dirichlet Allocation model led us to uncover 50 topics of domestic IE research. The top 10 most popular topics are revealed, and topic trends are explored by examining the dynamic changes over time. The four topics, technology management, financial engineering, data mining (supervised learning), efficiency analysis, are selected as hot topics while several traditional topics related with manufacturing are revealed as cold topics. The findings are expected to provide fruitful implications for IE researchers.

Latent Dirichlet Allocation (LDA) 모델 기반의 인공지능(A.I.) 기술 관련 연구 활동 및 동향 분석 (Systemic Analysis of Research Activities and Trends Related to Artificial Intelligence(A.I.) Technology Based on Latent Dirichlet Allocation (LDA) Model)

  • 정명석;이주연
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.87-95
    • /
    • 2018
  • 최근 인공지능(Artificial Intelligence; A.I.)의 기술 발전과 함께 이에 대한 관심이 증가하고 있으며 관련 시장도 비약적으로 확대되고 있다. 아직은 초기단계이지만 2000년 이후 현재까지 계속 확장되고 있는 인공지능 기술 분야의 연구방향과 투자 분야에 대한 불확실성을 줄이는 것이 중요한 시점이다. 이러한 기술 변화와 시대적 요구에 따라서 본 연구는 빅데이터(Big Data) 분석방법 중 텍스트 마이닝(Text Mining)과 토픽모델링(Topic Modeling)을 활용하여 기술동향을 살펴보고, 핵심기술과 성장 가능성이 있는 연구의 향후 방향성을 제시하였다. 본 연구의 결과로부터 인공지능의 기술동향에 대한 이해를 바탕으로 향후 연구 방향에 대한 새로운 시사점을 도출할 수 있으리라 기대한다.

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석 (Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis)

  • 김규하;박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.151-159
    • /
    • 2015
  • 이 논문에서는 텍스트마이닝 (text mining) 기법을 이용하여 한국데이터정보과학회지에 게재된 논문의 영어초록을 분석하였다. 먼저 다양한 방법을 통해 단어-문서 행렬 (term-document matrix)을 생성하고 이를 사회연결망 분석 (social network analysis)을 통해 시각화하였다. 또한 토픽을 추출하기 위한 방법으로 LDA (latent Dirichlet allocation)와 CTM (correlated topic model)을 사용하였다. 토픽의 수, 단어-문서 행렬의 생성방법에 따라 엔트로피 (entropy)를 통해 토픽 추출 모형들의 성능을 비교하였다.