• 제목/요약/키워드: 토픽 추출

검색결과 211건 처리시간 0.026초

Causal Impact 분석 기법을 접목한 COVID-19 팬데믹 전·후 메타버스 애플리케이션 리뷰의 토픽 변화 분석 (Analysis of Topic Changes in Metaverse Application Reviews Before and After the COVID-19 Pandemic Using Causal Impact Analysis Techniques)

  • 이소원;노미진;한무명초;김양석
    • 스마트미디어저널
    • /
    • 제13권1호
    • /
    • pp.36-44
    • /
    • 2024
  • 가상환경 기술의 발전과 COVID-19 팬데믹으로 언택트 문화가 부상함에 따라 메타버스(Metaverse)가 주목받고 있다. 본 연구에서는 최근 메타버스 서비스로 주목받는 "제페토" 애플리케이션에 대한 사용자들의 리뷰를 분석하여, COVID-19 팬데믹 이후 메타버스에 대한 요구사항의 변화를 확인하고자 하였다. 이를 위해 2018년 9월부터 2023년 3월까지 구글플레이스토어에 작성된 "제페토" 애플리케이션 리뷰 109,662건을 수집하였으며, LDA 토픽모델링 기법을 활용하여 토픽을 추출하고, COVID-19 팬데믹이 선언된 "2020년 3월 11일"을 기준으로 전·후로 토픽이 어떻게 변화했는지 Causal Impact 기법을 사용하여 분석하였다. 분석 결과 애플리케이션 기능적 문제(토픽1), 보안 문제(토픽2), 애플리케이션 내 가상화폐(Zem)에 대한 불만 사항(토픽3), 애플리케이션 성능(토픽4), 개인정보 관련 문제(토픽5) 등 5가지 토픽이 추출되었으며, 이들 중 보안 문제(토픽2)가 COVID-19 팬데믹에 가장 큰 영향을 받았음이 확인하였다.

독후감 텍스트의 토픽모델링 적용에 관한 탐색적 연구 (A Study on the Application of Topic Modeling for the Book Report Text)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.1-18
    • /
    • 2016
  • 이 연구는 독후감 텍스트의 주제분석에 토픽모델링의 활용방안을 탐색하는 것을 목적으로 하고 있다. 텍스트의 주제분석 방안으로서 토픽모델링 분석방법을 이해하고, R에서 제공하는 "topicmodels" 패키지의 LDA 함수를 사용하여 23건의 사례 독후감 텍스트들을 대상으로 실제의 분석작업을 수행하였다 토픽모델링 분석결과 16개의 토픽들을 추출하였고 토픽과 구성 단어들의 관계에서 토픽 네트워크 사례 독후감과 토픽들의 관계에서 독후감 네트워크를 구성하였다. 이후 토픽 네트워크와 독후감 네트워크를 대상으로 중심성 분석을 수행하였으며 분석결과는 다음과 같다. 첫째 16개의 토픽들이 1개의 컴포넌트를 가지는 네트워크로 나타났다. 이것은 16개 토픽들이 상호 연관되어 있다는 것을 의미한다. 둘째, 독후감 네트워크에서는 연결정도 중심성이 높은 독후감들과 낮은 독후감들로 구분이 되었다. 전자의 독후감들은 다른 독후감들과 주제적으로 유사성을 가지며 후자의 독후감들은 다른 독후감들과 주제적으로 상이성을 가지는 것으로 해석하였다. 토픽모델링의 결과를 네트워크 분석과 결합함으로써 독후감의 주제파악에 유용한 결과들을 얻게 되었다.

이질적인 언어 자원의 순차적 매칭을 이용한 문장 유사도 계산 기반의 위키피디아 한국어-영어 병렬 문장 추출 방법 (Extracting Korean-English Parallel Sentences based on Measure of Sentences Similarity Using Sequential Matching of Heterogeneous Language Resources)

  • 천주룡;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.127-132
    • /
    • 2014
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 문장을 추출하기 위해 이질적 언어 자원의 순차적 매칭을 적용한 유사도 계산 방법을 제안한다. 선행 연구에서는 병렬 문장 추출을 위해 언어 자원별로 유사도를 계산하여 선형 결합하였고, 토픽모델을 이용해 추정한 단어의 토픽 분포를 유사도 계산에 추가로 이용함으로써 병렬 문장 추출 성능을 향상시켰다. 하지만, 이는 언어 자원들이 독립적으로 사용되어 각 언어자원이 가지는 오류가 문장 간 유사도 계산에 반영되는 문제와 관련이 적은 단어 간의 분포가 유사도 계산에 반영되는 문제가 있다. 본 논문에서는 이질적인 언어 자원들을 이용해 순차적으로 단어를 매칭함으로써 언어 자원들의 독립적인 사용으로 각 자원의 오류가 유사도에 반영되는 문제를 해결하였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용함으로써 관련이 적은 단어의 분포가 반영되는 문제를 해결하였다. 실험을 통해, 언어 자원들을 이용해 순차적으로 매칭한 유사도 계산 방법은 선행 연구에 비해 F1-score 48.4%에서 51.3%로 향상된 성능을 보였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용한 방법은 약 10%에서 34.1%로 향상된 성능을 얻었다. 마지막으로, 제안한 유사도 방법들을 결합함으로써 선행연구의 51.6%에서 2.7%가 향상된 54.3%의 성능을 얻었다.

  • PDF

의존 구문 구조 관점으로 본 서브토픽 마이닝 (Subtopic Mining from the View of Dependency Structure)

  • 김세종;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.294-296
    • /
    • 2012
  • 본 논문은 일본어 웹 문서 말뭉치로부터 의존 구문 구조 관점으로 바라본 단어들의 동시발생(co-occurrence) 정보를 사용하여 서브토픽 마이닝(subtopic mining)을 수행하는 방법론을 제안한다. 우리는 의존 구문 구조를 반영하는 간단한 패턴들을 사용하여 서브토픽들을 추출 및 생성하고, 제안한 수식을 바탕으로 순위화한다. 본 방법론은 기존의 주요 상용 검색 서비스에서 제공하는 연관 검색어 및 추천 검색어를 사용한 방법론보다 좋은 성능을 보였다.

토픽모델링과 군집분석을 통한 지방 소멸 위험지역과 요인의 탐색 (Exploring Regional Decline Risk Areas and Factors Using Topic Modeling and Cluster Analysis)

  • 김지민;조희련
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.349-350
    • /
    • 2023
  • 우리나라는 지속적인 저출산과 고령화로 인해 지방 소멸 위험지역이 점차 늘어나고 있다. 본 연구는 지방 소멸과 관련된 다양한 요인을 '인구 소멸'이라는 키워드를 포함하는 신문 기사에 대한 토픽모델링을 통해 발견하고, 추출된 토픽과 관련된 공공 데이터를 수집하여 비슷한 특징을 가지는 지역을 묶는 군집분석을 수행한다. 그리고 지방소멸위험지수로 분류된 소멸 위험지역과 군집분석 결과를 비교한다.

신문기사에 나타난 경주지진 사건의 사회적 이슈분석 (Analysis of Social Issues of the Newspaper Articles on Gyeongju Earthquakes)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제48권2호
    • /
    • pp.53-72
    • /
    • 2017
  • 이 연구는 토픽모델링을 사용하여 2016년 경주지진에 대한 사회적 이슈의 유형과 특성을 분석하는 것을 목적으로 한다. 구체적인 연구문제는 경주지진 사건과 관련된 토픽의 유형, 사건 발생 이후 시간의 흐름에 따른 토픽의 변화양상, 그리고 신문매체의 유형별 토픽의 차이를 살펴보는 것이다. 토픽모델링 분석결과 55개의 토픽이 추출되었다. 이들 토픽에서 파악한 특성은 다음과 같다. 첫째, 시간의 흐름에 따라 주요 토픽이 변화하는 양상을 보였다. 지진이 발생한 9월에 다양한 토픽들이 나타났다. 특히 지진발생 후 2주간에는 긴급한 이슈들이 다루어졌다. 10월 이후부터는 해당 시기의 사회적 현안과 관련된 이슈들이 부각되었다. 원전관련 안전문제는 시기와 상관없이 꾸준히 제시되었다. 둘째, 전국과 지방으로 구분된 신문매체에서는 주요하게 다루는 토픽에 차이가 나타났다. 그리고 보수와 진보적 성향의 신문매체에서도 주요한 토픽들이 다르게 나타났다.

트위터 기반의 트렌드 뉴스 추천 기법 (Trend-based Trend News Recommendation Scheme)

  • 김대용;김대훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.1038-1039
    • /
    • 2013
  • 최근 스마트폰의 사용이 보편화되면서 많은 양의 온라인 뉴스가 다양한 경로를 통하여 서비스되고 있다. 한편, 실시간으로 제공되는 뉴스의 양이 방대해지면서, 언론사에서 톱 뉴스로 제공하는 토픽과 달리, 실제 사용자들에게 화제가 되고 있는 토픽을 선별하는 데 어려움이 있다. 많은 사용자들이 실생활에서 작성하고 공유하는 트위터는 실제 사람들 사이에 화제가 되고 있는 토픽을 담고 있는 경우가 많다. 이러한 트렌드를 뉴스와 연계시키면 화제가 되는 트렌드 뉴스를 사용자에게 제공할 수 있다. 본 논문에서는 클라이언트-서버 모델을 기반으로 실시간으로 사용자 트위터를 분석하여 추출된 트렌드를 기반으로 관련 뉴스를 검색하여 제공하는 시스템을 제안한다. 클라이언트를 통해 수집한 트위터 단문에서 서버는 화제가 되고 있는 트렌드를 추출하고, 이를 기반으로 Google 등을 통해 관련 뉴스를 검색하여 클라이언트에게 전달한다. 이 모든 과정을 실시간으로 제공하기 위한 알고리즘을 제안하고 프로토타입 시스템을 통하여 그 성능을 평가한다.

관리도를 활용한 국민청원 토픽 모니터링 연구 (Topic change monitoring study based on Blue House national petition using a control chart)

  • 이희연;최지은;이성임;손원
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.795-806
    • /
    • 2021
  • 최근 온라인 채널을 통한 텍스트 자료가 방대해 지면서 이를 요약하고 분석하는 연구에 관한 관심이 커지고 있는 추세이다. 먼저 텍스트 자료에 대한 기본적인 분석 중 하나는 어떤 주제나 내용을 포함하고 있는지 잠재된 토픽을 추출하는 것이다. 연구자가 일일이 모든 자료를 읽고 내용을 요약할 수도 있겠지만, 대용량 데이터를 다루는 경우에는 결코 쉽지 않기 때문에, 통계적 모형을 사용하여 토픽을 추출하는 토픽모형 방법들이 제안되어 왔다 (Blei와 Lafferty, 2007; Blei 등, 2003). 시간에 따라 수집된 텍스트 데이터로부터 토픽의 변화를 모니터링하기 위하여, 본 연구에서는 잠재적 디리슈레 할당(latent Dirichlet allocation) 모형을 통해 토픽을 분류하고 그 결과를 바탕으로 한 토픽 지수를 제안하였다. 또한, 이를 통계적 공정관리의 대표적 도구인 관리도에 적용하여 시간 경과에 따른 토픽의 변화를 모니터링하는 데 적용해 보았다. 실제 데이터로 2018년 3월 5일부터 2020년 3월 5일 사이에 청와대 국민청원 온라인 게시판에 접수된 텍스트 데이터를 사용하였으며, 토픽 지수를 모니터링함으로써 토픽에 대한 이상변화를 탐지할 수 있음을 살펴 보았다.

Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 (Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents)

  • 장정호;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

Seasonal-Trend Decomposition과 시계열 상관관계 분석을 통한 비정상 이벤트 탐지 시각적 분석 시스템 (Visual Analytics for Abnormal Event detection using Seasonal-Trend Decomposition and Serial-Correlation)

  • 연한별;장윤
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1066-1074
    • /
    • 2014
  • 본 논문에서는 시공간 정보를 포함하는 트윗 스트림에서 비정상적인 이벤트에 대한 상관관계를 사용자에게 시각적으로 분석하는 방법을 다양한 실험을 통하여 제안한다. 제안하는 방법으로는 트윗에서 토픽 모델링을 수행한 다음 계절요인과 추세요인을 반영한 시계열 분석 기법을 이용하여 비정상적인 이벤트 후보군을 추출한다. 추출된 토픽이 포함되어 있는 데이터를 대상으로 다시 한 번 토픽을 추출하여 시계열 분석을 수행한 다음 앞서 추출한 토픽과의 상관관계를 분석하여 비정상적인 이벤트를 탐지할 수 있도록 하였다. 비정상 이벤트를 탐지하는 모든 과정에 시각적 분석 방법을 이용하여 단순한 수치 정보가 아닌 시각적 패턴 형태로 나타냄으로써 사용자는 직관적으로 비정상 이벤트의 동향과 주기적인 패턴을 분석할 수 있도록 하였다. 실험은 2014년 1월 1일부터 2014년 6월 30일까지 국내에서 발생한 트윗을 대상으로 2개의 사건[경주 마우나 리조트 붕괴 사건(2014.02.17.), 진도 여객선 침몰 사건(2014.04.16.)]에 대해 시각적 분석 시스템을 적용하여 사용자는 쉽게 데이터를 분석하고 이해할 수 있음을 보였다.