• 제목/요약/키워드: Latent Dirichlet Allocation (LDA) analysis

검색결과 145건 처리시간 0.022초

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

텍스트 마이닝을 통한 한국과 중국 시내면세점 만족 속성과 소비자 평점에 미치는 영향 분석 -중국인 관광객을 중심으로 (A Text Mining Analysis of Attributes for Satisfaction and Effect of Consumer Ratings to Korea and China Duty Free Stores - Focusing on Chinese Tourists -)

  • 양다솜;김종욱
    • 디지털융복합연구
    • /
    • 제18권8호
    • /
    • pp.1-9
    • /
    • 2020
  • 본 연구에서는 중국 최대 온라인 리뷰 사이트인 Dazhong Dianping에서 중국인 관광객들은 한국과 중국 시내 면세점의 어떠한 속성들을 중요하게 생각하며 어떠한 Cluster들이 별점 점수(만족도)에 영향을 미치는지에 대해 알아보고자 하였다. 따라서 한국 시내면세점 리뷰 5,659개 중국 산야 시내면세점 리뷰 4,051개 총 9,710개를 R을 활용하여 텍스트 마이닝 분석하였다. 분석 결과, 한국 시내 면세점에서는 Sale, Membership, Food가 총 별점에 정(+)의 영향을 미치는 것으로 나타났다. 중국 시내면세점에서 Sale, Product, Airport, Food, Membership이 총 별점에 정(+)의 영향을 미치는 것으로 나타났다. 면세점 만족도 속성 중 Food라는 속성을 발견하면서 면세점 쇼핑 중 이용할 수 있는 식당 등의 편의 시설 공간을 제공하는 것이 중요함을 알 수 있었다. 이는 면세점 선택 및 만족의 새로운 속성을 찾았다는 점에 기인하여 연구를 확장시킬 수 있었다. 실무적으로 면세점 종사자들에게 식당 등의 편의시설 공간 제공이 중요함을 인식시킬 수 있었다.

뉴스 빅데이터를 통해 검토한 대학교육의 토픽 분석 (A Topic Analysis of College Education Using Big Data of News Articles)

  • 양지연;구정호
    • 디지털융복합연구
    • /
    • 제19권12호
    • /
    • pp.11-20
    • /
    • 2021
  • 본 연구는 신문기사 빅데이터를 통해 대학교육 관련 보도의 토픽을 추출하고, 토픽별 특징 및 신문사별 보도양상을 분석한다. 2016년-2021년 상반기 주요 중앙지와 지역지의 기사를 빅카인즈를 통해 추출하였고, 잠재디리슐레할당을 이용하여 총 9개의 토픽을 발견하였다. 토픽1과 토픽3은 교육에 대한 대학지원사업에 관련된 것이나 토픽3은 지역대학에 초점이 맞추어져 있다. 토픽2는 코로나19 이후 대학교육, 토픽4는 교수-학습법, 토픽5는 정부정책, 토픽6은 고교교육기여대학 지원사업, 토픽7은 대학교육 비전, 토픽8은 국제화, 토픽9는 입시 등을 논하고 있다. 조선일보, 경향신문, 한겨레는 코로나19 이후 강의, 정부정책 관련, 대학교육에 대한 기사와 논평을 많이 보도한 반면 동아일보, 중앙일보, 한라일보, 부산일보, 대전일보, 경인일보는 대학지원사업, 고교교육기여대학 지원사업 등 광고·홍보성 기사가 상대적으로 많았다. 2016년부터의 관련기사를 신문사별 뿐 아니라, COVID-19 발생 전후로도 분석하여 관련 보도의 토픽 차이를 살펴볼 수 있었다. 사회적으로 주요 관심 사항인 대학교육이 언론에 어떻게 보도되고 있는지 확인함으로써 미래의 대학교육 정책 방향과 미디어의 순기능과 역기능 등 언론의 역할에 대해 고찰할 필요가 있음을 시사한다.

네트워크 텍스트 분석을 이용한 한국가정과교육학회지 논문의 연구 동향 분석 (Research Trend Analysis of Publications in the Journal of Home Economics Education Association Using Network Text Analysis)

  • 이윤정;김은정;김지선
    • 한국가정과교육학회지
    • /
    • 제31권4호
    • /
    • pp.1-18
    • /
    • 2019
  • 이 연구는 네트워크 텍스트 분석을 이용하여 가정과교육 분야의 연구동향을 분석하였다. 2003년 7월부터 2018년 12월 사이에 한국가정과교육학회지에 게재된 586편의 논문의 주제를 소셜 네트워크 분석프로그램인 Netminer 4의 텍스트분석 도구를 이용하여 주제어들의 출현빈도와 중심성 분석(연결중심성, 근접중심성, 매개중심성), 시기별 LDA 분석 등을 실시하였다. 그 결과는 다음과 같다. 첫째, 전반적으로 출현 빈도가 높은 단어들은 부모, 문화, 단원, 건강, 진로, 소비, 실천성 등이었다. 주제어 네트워크 분석 결과, 연결중심성은 부모, 관리가 가장 높았고, 근접중심성은 부모, 남학생, 매개중심성은 남학생, 단원 등이 가장 높게 나타났다. 둘째, 2003년부터 2018년까지의 연구를 4개 시기로 나누어 중심성 분석을 실시한 결과, 네 시기 모두 교육, 가정, 목적, 수업, 중학교, 학교 등 출현 빈도수가 높은 단어들은 유사하였으나, 시기별로는 제3, 제4시기에는 '목적'이라는 단어가, 제4시기에는 '과정' 이라는 단어가 두드러지게 나타났다. 셋째, 시기별 중심성 분석 결과 중심성의 종류와 무관하게 각 시기에 중요한 역할을 하는 단어들은 일정한 것으로 나타났다. 넷째, LDA 분석을 통한 토픽 변화를 분석하였을 때 교육과정, 교과서, 가족건강성, 교수학습, 평가, 식생활, 외모관리, 소비 등은 모든 시기에 지속적으로 등장하였다. 4개 시기의 토픽은 점차 다양화되고, 세분화되며, 심화되는 경향을 보였다. 연구를 통해 교육과정의 변화와 국가정책이 반영되어 새롭게 등장한 토픽인 교사연수와 안전이 주제어로 도출되었으며, 상대적으로 연구의 관심이 낮았던 토픽은 주거임이 드러나 학자들의 관심과 연구 활성화가 요구된다고 할 것이다. 이 연구는 2000년대 이후 한국가정과교육학계에서 이루어진 연구들의 주요 관심사를 파악할 수 있었다는 점과 관심사들의 순위를 제시하였다는 점에서 의미가 있다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.