• 제목/요약/키워드: 토픽 분류

검색결과 137건 처리시간 0.026초

토픽모델링을 이용한 대한원격탐사학회지의 연구주제 분류 및 연구동향 분석: 자연·환경재해 분야를 중심으로 (A Study on the Research Topics and Trends in Korean Journal of Remote Sensing: Focusing on Natural & Environmental Disasters)

  • 김태용;박혜민;허준용;양민준
    • 대한원격탐사학회지
    • /
    • 제37권6_2호
    • /
    • pp.1869-1880
    • /
    • 2021
  • 대한원격탐사학회지는 국내 원격탐사 분야를 대표하는 학술지로 원격탐사를 바탕으로 다학제 간 융합연구를 통해 수행된 다양한 분야의 연구논문들이 게재되고 있다. 본 연구는 대한원격탐사학회지에 게재된 논문을 바탕으로 토픽모델링을 수행하여 원격탐사 분야의 역사와 발전에 대해 논의하고자 한다. 1985년부터 2021년까지 총 1,847편의 논문 제목, 주제어, 다국어 초록을 수집하였다. 대한원격탐사학회지의 전반적인 연구 동향과 자연·환경재해 분야의 연구동향을 확인하기 위해 Latent Dirichlet Allocation (LDA)를 수행하였으며, 연구주제를 분류하고 연구동향을 확인하였다. 대한원격탐사학회지 전체 논문을 대상으로 LDA를 수행한 결과 4개의 연구주제('극권', '수권', '지권', '기권')로 분류할 수 있었으며, 시간에 따라 '기권'과 관련된 연구주제들이 성행하는 것을 확인하였다(linear slope=3.51 × 10-3, p< 0.05). 전체 논문 중 자연·환경재해 분야를 대상으로 LDA를 수행한 결과 7개의 연구주제('해양 오염', '대기 오염', '화산재해', '산불', '홍수', '가뭄', '폭우')로 분류할 수 있었으며, 시간에 따라 '대기 오염'과 관련된 연구주제들이 성행하는 것을 확인하였다(linear slope=2.61 × 10-3, p<0.05). 본 연구의 결과는 원격탐사를 다루는 다양한 분야의 연구자들에게 원격탐사 분야와 자연·환경재해 분야의 역사와 발전에 대한 이해를 제공했음에 의의가 있다.

토픽모델링을 이용한 약어 중의성 해소 (Abbreviation Disambiguation using Topic Modeling)

  • 이운교;김자희;양준기
    • 한국시뮬레이션학회논문지
    • /
    • 제32권1호
    • /
    • pp.35-44
    • /
    • 2023
  • 최근 텍스트 분석으로 트렌드 분석이나 연구 동향 분석을 하는 연구 사례가 많다. 텍스트 분석을 위한 자료 수집에 사용되는 검색어가 약어일 때 약어의 특성상 의미 중의성 해소가 필요하다. 다수의 연구에서는 연구에 필요한 자료를 찾기 위해 수작업으로 자료를 하나씩 읽어 문서를 분류하고 있다. 약어의 의미 중의성 해소를 위한 연구는 단어의 의미를 명확화하는 연구가 대부분이고 지도학습을 이용하고 있다. 약어 중의성 해소를 위한 선행 방법은 약어로 검색된 자료에서 연구 대상 자료를 찾는 문서 분류에는 적합하지 않으며 관련 연구도 부족하다. 본 연구에서는 데이터 전처리 단계에서 비지도 학습 방법인 비음수 행렬 분해 방법으로 토픽 모델링을 진행하여 약어로 수집된 문서를 반자동으로 분류하는 방법을 제시한다. 이를 검증하기 위해 'MSA'라는 약어 검색어로 학술 데이터베이스에서 논문 자료를 수집했다. 수집된 논문 1,401편에서 제안된 방법으로 316편의 Micro Services Architecture와 관련된 논문을 찾았다. 제안된 방법의 문서 분류 정확도는 92.36%로 측정되었다. 제안된 방법이 수작업에 따른 연구자의 시간과 비용을 줄일 수 있기를 기대한다.

유전자 알고리즘 기반 용어 중의성 분석 (Analysis of Term Ambiguity based on Genetic Algorithm)

  • 김정준;정성택;박정민
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.131-136
    • /
    • 2017
  • 최근 인터넷 미디어의 발달로 웹상에 수많은 문서자료들이 기하급수적으로 늘어나게 되었다. 이러한 자료들은 대부분 텍스트에 의해 그 내용이 무엇인지를 설명하고 있고 이에 따라 분류된다. 그러나 텍스트가 가지는 의미는 모호하게 해석되어질 여지가 많고 이를 정확히 해석하기 위해서는 다각도로 이를 살펴봐야 한다. 기존의 분류 방법에서는 단순히 텍스트의 출현만을 가지고 분류를 하였다. 따라서, 본 논문에서는 이를 유전자 알고리즘과 토픽추출을 기반으로 하여 용어 중의성을 분석하고 이를 단편화한 클러스터링 시스템을 구현하였다. 마지막으로 구현된 결과물을 토대로 기존의 방법과 비교하여 본 논문의 성능을 평가하였다.

주식시장관리제도와 소셜 미디어의 역할 - 개인 투자자 집단 유형과 토픽 분석 - (The Role of stock market management and social media - Analyzing the types of individual investor and topic -)

  • 김정수;이석준
    • 경영과정보연구
    • /
    • 제34권5호
    • /
    • pp.23-47
    • /
    • 2015
  • 국내 주식시장 내 개인 투자자들은 주식거래를 장기적인 투자방안보다 단기 매매차익 실현 수단으로 인식하고 있어 시장의 투명성과 건전성을 강화하기 위한 주식 시장관리제도의 역할이 중요하다. 특히, 개인 투자자들은 금융정책에 의한 시장조치로 불확실한 상황에 직면하여 투자환경에 따라 동태적 의사결정에 영향을 받게 되므로 투자자 보호를 위한 시장조치의 실효성 여부를 투자자들의 반응과 행동변화를 통해 접근할 필요가 있다. 본 연구는 시장관리 조치(상장적격성 실질심사) 전후로 개인 투자자 집단의 유형 및 반응의 변화추이를 분석하고자 하였다. 분석을 위해, 상장적격성 실질심사 대상기업 중 텍스트 분석이 가능한 9개의 기업을 선정(2009년~2014년)한 후, 국내 주식 관련 소셜 미디어(종목 토론실)로부터 웹 크롤링을 통해 개인들의 메시지를 수집하였다. 사건 발생에 따른 개인 투자자들의 관심사(토픽)와 변화추이는 텍스트 클러스터링과 토픽모델링 방법을 활용하여 개인 투자자 유형을 투자자와 비투자자 집단으로 분류하여 분석하였다. 분석결과, 특정 주식 종목 내 다양한 이해관계자 형태가 존재하며, 실질심사 대상 선정 전후로 비투자자 유형은 감소하고, 투자자는 시장 참여 유형에 따른 비중변화가 나타나는 현상을 발견하였다. 이러한 결과를 토대로 시장 조치에 따른 주식시장 내 제도의 영향을 시간(사건)경과에 따라 개인 투자자들의 반응변화를 통해 파악한 데 본 연구의 의의가 있다.

  • PDF

텍스트 마이닝을 활용한 미국 노년 소비자와 애완용 로봇 간 상호작용에 대한 분석: Joy For All Companion Pets에 대한 아마존 리뷰를 중심으로 (Text-Mining Analysis on the Interaction between the American Consumers Aged over 60 and Companion Pets Robots: Focused on Amazon Reviews for Joy For All Companion Pets)

  • 정예은;이유림;정재은
    • 디지털융복합연구
    • /
    • 제19권10호
    • /
    • pp.469-489
    • /
    • 2021
  • 본 연구는 정서 지원 애완용 로봇에 대한 소비자의 담론을 살펴보고 키워드를 통해 해당 제품에 대한 노년 소비자의 반응을 파악하고자 아마존 사이트 내 하즈브로(Hasbro)의 Companion Pets 제품 사용에 대한 미국 소비자들의 리뷰를 수집하고, R을 이용하여 단어 빈도분석, 토픽모델링 LDA 분석을 실시하였다. 첫째, 키워드 빈도분석 결과 애완용 로봇의 형태가 실제 동물과 유사한지에 대한 관심이 높은 것으로 나타났다. 둘째, 토픽모델링 결과 5개의 토픽으로 인지, 감정, 행동적 반응이 도출되었으며 이는 긍정 및 부정으로 크게 분류되었다. 셋째, 소비자와 애완용 로봇의 상호작용에 영향을 미치는 사용자, 제품 및 환경적 특성이 확인되었다. 애완용 로봇은 반려동물을 키우기 어려운 사람들이 이를 대체하기 위하여 사용하고, 인지적 어려움이 있는 노년 소비자와 신체적 어려움이 있는 소비자가 이를 이용하는 것으로 나타났다. 본 연구는 코로나19와 같은 팬데믹 상황에서 정서 지원 기능을 수행하는 애완용 로봇에 대하여 이해하고, 소비자의 효용을 극대화하는 서비스를 제공하는데 도움을 줄 것으로 기대한다.

코로나 전후 행복 이슈 변화 분석 및 행복 증진 방안 연구 (A Topic Modeling Approach to the Analysis of Happiness Issues Before and After Pandemic)

  • 김가혜;이소현
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.81-103
    • /
    • 2022
  • 전 세계적으로 정신건강과 웰빙에 대한 중요성을 인식하고 있고, 세계 행복 보고서를 통해 꾸준하게 대중의 행복 수치를 기록하고 있다. 2019년 중국에서 발생한 코로나19는 사람들의 일상적인 생활에 많은 변화를 가져왔고, 전염병의 장기화로 인한 스트레스 누적이 사람들의 행복에 영향을 주고 있다. 기존 연구에서는 팬데믹 이후 '우울', '불안'과 같은 정신건강에 부정적인 영향을 알렸고, 수치상으로 행복 지수가 낮아졌음을 밝혔다. 전염병 이후 한국 사회에서 대중들이 느끼는 행복의 이슈 변화에 대한 구체적인 이슈를 분석하는 연구는 부족하다. 따라서, 본 연구는 코로나19 이후 한국인의 행복이슈에 생긴 변화를 파악하고 행복을 증진시킬 수 있는 방안을 찾는 것을 목표로 한다. 코로나19 이전 데이터는 2018년 1월 1일부터 2019년 12월 31일까지, 코로나19 이후 데이터는 2020년 1월 1일부터 2021년 12월 31일까지로 시기를 나누어 수집하였다. ERG 이론에 기반한 하위 키워드 32가지를 검색하여 다양한 측면에서 데이터를 수집하였다. 코로나19 전후 토픽 모델링 결과를 국회 미래연구원에서 발표한 '행복 지표 2.0'의 '건강', '안전', '경제', '교육', '관계 및 사회참여', '여가', '삶의 만족' 영역으로 분류하여 비교 분석하였다. 토픽과 키워드의 세부적인 의미에서 코로나19 전후의 차이를 발견할 수 있었다. 각 영역의 관점에서 행복 증진 방안을 토픽과 키워드를 비교 해석한 결과를 기반으로 제시하였다. 본 논문은 실제 대중들의 '행복' 관련 의견을 마이닝하여 코로나19로 인한 심리적 변화에 대한 연구를 확장했다는 점에서 학술적으로 시사한다. 또한, 기존 행복 증진 불행 경감 방안에 대한 연구를 기반으로 하여 객관적인 행복 지표 영역을 활용해 행복 증진 방안을 구체적으로 제시했다는 점에서 실무적 시사점을 갖는다.

문헌정보학 분야의 리터러시 연구 동향 분석 (A Study on the Research Trends on Literacy in Library and Information Science)

  • 장수현;남영준
    • 정보관리학회지
    • /
    • 제39권3호
    • /
    • pp.263-292
    • /
    • 2022
  • 본 연구는 문헌정보학 현장인 도서관에서 제공되는 서비스인 이용자 교육의 관련 개념인 리터러시가 각종 문헌정보학 연구 분야에서 어떠한 연구 주제를 다루는지 확인하는 것을 목적으로 한다. 이를 위해 WoS와 KCI 데이터베이스에서 문헌정보학 분야 리터러시 관련 논문을 수집하여 키워드 분석 및 토픽 모델링 분석 기법을 상호보완적으로 사용해 분석하였다. 분석 결과, WoS와 KCI의 문헌정보학 분야 리티러시 관련 연구 동향은 저자 키워드, 주요 주제 등에서 차이가 있는 것으로 나타났으며, 토픽 모델링을 통해 KCI의 리터러시 관련 연구를 3개의 토픽으로 분류하였다. 또한, 연구에서 확인한 국내 문헌정보학 분야 리터러시 연구 동향은 전체 리터러시 관련 연구 동향과 연구량 급증 시기, 핵심 다빈출 키워드 차이가 있음을 분석하였다. 특히, 전체 분야 리터러시 연구는 '리터러시', '교육', '미디어', '디지털' 등의 단어가 다수 도출되었지만 문헌정보학 분야의 리터러시 연구는 '정보활용능력', '학교도서관' 등의 키워드가 다수 등장하였다. 이를 바탕으로 향후 국내에서도 정보가 급증하는 오늘날의 정보화 환경에 맞춰 정보에 대한 평가적인 안목을 기를 수 있는 능력에 관한 연구가 필요하다는 결론을 도출하였다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.

토픽모델링을 활용한 국내 문헌정보학 연구동향 분석 (A Study on the Research Trends in Library & Information Science in Korea using Topic Modeling)

  • 박자현;송민
    • 정보관리학회지
    • /
    • 제30권1호
    • /
    • pp.7-32
    • /
    • 2013
  • 본 연구는 국내 문헌정보학 분야의 연구동향을 규명하기 위하여 문헌정보학 주요 학술지인, 정보관리학회지, 한국문헌정보학회지, 한국도서관 정보학회지, 한국비블리아학회지의 1970년도부터 2012년도까지 발표 논문 초록을 수집하여 LDA(Latent Dirichlet Allocation)기반의 토픽 모델링 실험을 수행하였다. 그 결과를 종합하면 다음과 같다. 첫째, 토픽모델링 실험에서 도출된 연구주제를 문헌정보학 주제분류표와 비교 분석한 결과, '정보학'영역의 디지털도서관, 이용연구, 인터넷, 전문가시스템, 계량정보학, 자동화, 정보검색, 정보시스템, '도서관 서비스'영역의 정보서비스, 도서관 유형별 서비스, 이용자 교육/정보리터러시, 서비스 평가, '문헌정보학 기초'영역의 도서관과 사회, 전문성, '자료조직'영역의 분류, 편목, 메타데이터, '도서관 경영'영역의 도서관 평가, 장서개발/관리, '서지학'영역의 고서지, '도서관 체제'영역의 도서관 및 정보정책, '출판'영역의 도서/출판, '기록관리학'영역의 하위주제 등과 연결할 수 있었다. 또한 가장 많은 연구주제가 발견된 학문영역은 정보학과 도서관서비스로 나타났다. 둘째, 문헌정보학의 주요 연구주제에서 도서관 유형별 서비스 및 평가, 인터넷, 메타데이터의 연구주제는 상승세를 보였으나, 도서, 분류, 편목, 고서지에 관한 연구주제는 하강세를 보였다. 셋째, 학술지를 구분하여 비교 분석한 결과, 정보관리학회지는 도서관에 관한 연구주제보다 정보학에 관한 연구주제가 많이 출현하였고, 한국문헌정보학회지와 한국도서관 정보학회지, 한국비블리아학회지는 도서관에 관한 연구주제가 정보학에 관한 주제보다 많이 나타났다.

단일 카테고리 문서의 다중 카테고리 자동확장 방법론 (A Methodology for Automatic Multi-Categorization of Single-Categorized Documents)

  • 홍진성;김남규;이상원
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.77-92
    • /
    • 2014
  • 텍스트에 대한 사용자의 접근성을 향상시키기 위해, 이들 문서는 정해진 기준에 따라 카테고리로 분류되어 제공되고 있다. 과거에는 카테고리 분류 작업이 수작업으로 수행되었지만, 문서 작성자에게 분류를 맡기는 경우 분류 정확성을 보장할 수 없고 관리자가 모든 분류를 담당하는 경우 많은 시간과 비용이 소요된다는 어려움이 있었다. 이러한 한계를 극복하기 위해 카테고리를 자동으로 식별할 수 있는 문서 분류 기법에 대한 연구가 활발하게 수행되었다. 하지만 대부분의 문서 분류 기법은 각 문서가 하나의 카테고리에만 속하는 경우를 가정하고 있기 때문에, 하나의 문서가 다양한 주제를 갖는 실제 상황과 부합하지 않는다는 한계를 갖는다. 이를 보완하기 위해 최근 문서의 다중 카테고리 식별을 위한 연구가 일부 수행되었으나, 이들 연구는 대부분 이미 다중 카테고리가 부여되어 있는 문서에 대한 학습을 통해 분류 규칙을 생성하므로 단일 카테고리만 부여되어 있는 기존 문서의 다중 카테고리 식별에는 적용할 수 없다는 제약을 갖는다. 따라서 본 연구에서는 이러한 제약을 극복하기 위해, 카테고리, 토픽, 문서간 관계 분석을 통해 단일 카테고리를 갖는 문서로부터 추가 주제를 발굴하여 이를 다중 카테고리로 자동 확장시킬 수 있는 방법론을 제안하였다. 실험 결과 원 카테고리가 식별된 총 24,000건의 문서 중 23,089건에 대해 카테고리를 확장시킬 수 있었다. 또한 정확도 분석에서 카테고리의 특성에 따라 카테고리 분류 정확도가 상이하게 나타나는 현상을 발견하였다. 본 연구는 단일 카테고리로 분류된 문서에 대해 다중 카테고리를 추가로 식별하여 부여함으로써, 규칙 학습 과정에서 다중 카테고리가 부여된 문서를 필요로 하는 기존 다중 카테고리 문서 분류 알고리즘의 활용성을 매우 향상시킬 수 있을 것으로 기대한다.