• 제목/요약/키워드: 토픽 추출

검색결과 212건 처리시간 0.026초

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

토픽 모델과 버그 리포트 메타 필드를 이용한 버그 심각도 예측 방법 (Predicting Bug Severity by utilizing Topic Model and Bug Report Meta-Field)

  • 양근석;이병정
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권9호
    • /
    • pp.616-621
    • /
    • 2015
  • 최근 개발된 소프트웨어들은 많은 수의 컴포넌트들을 가지고 있으며, 복잡성 또한 증가하고 있다. 지난 해 오픈소스 프로젝트 (Eclipse, Mozilla)에서는 하루에 약 375건의 버그 리포트가 제출되었다. 이렇게 증가된 버그 리포트들로 인해 개발자들의 시간과 노력이 불필요하게 증가하고 있다. 또 버그 심각도는 품질 보증 담당자, 프로젝트 매니저 또는 개발자에 의해 직접 판단되므로 그들에 의해 주관적으로 결정된다. 또한 많은 수의 버그 리포트 때문에 심각도 판단에서 실수할 수도 있다. 따라서 본 논문에서는 버그 심각도 예측 방법을 제안한다. 먼저, 새로운 버그 리포트가 제출되면, 유사한 토픽을 찾아내고 버그 리포트의 메타 필드를 이용하여 후보 버그 리포트의 범위를 줄인다. 추출된 버그 리포트를 Naive Bayes Multinomial 기법에 훈련하여 새로운 버그 리포트의 심각성을 예측한다. 오픈소스 프로젝트에 본 방법을 적용하여 본 방법이 버그 심각도 예측에 효과적이라는 것을 보인다.

토픽모델링 및 주성분 분석 기반 검색 질의 유형 분류 연구 (A Study on Search Query Topics and Types using Topic Modeling and Principal Components Analysis)

  • 강현아;임희석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.223-234
    • /
    • 2021
  • 4차 산업 혁명 시대의 도래에 따라 쇼핑의 행태는 더욱 빠르게 오프라인에서 온라인으로 이동하고 있다. 온라인 쇼핑에서 고객의 정보요구를 가장 집약적으로 보여주는 것이 바로 검색 질의이다. 하지만 검색 분야에서도 검색 질의 관련 연구 사례는 많지 않으며 대부분의 검색 질의 연구 분야 선행 연구들은 연구자의 정성적인 판단에 근거하여 제한적인 주제와 데이터 기반으로 연구되어 왔다. 이에 본 연구는 검색 질의 연구 분야에 기계학습을 적용하여 검색 질의와 검색 이후 이용자가 조회한 문서명 로그를 기반으로 토픽모델링 수행 후 검색 질의 주제를 정의함으로써 데이터 기반의 정량적 방법론으로 15개의 검색 질의 주제 유형을 정의하였다. 또한 기존 검색어 자체만을 보고 판단하던 주제 유형에서 나아가 검색 행동특성을 반영한 유형을 정의하기 위하여 주성분 분석을 통해 주요 변수를 추출 후 각 주제별 검색 행동특성을 분석함으로써 검색 탐색 활성도, 상품 관여도에 따른 4가지의 새로운 검색 질의 유형 분류체계를 제시하였다. 본 연구결과는 효과적인 검색서비스 구축 및 검색 시스템 개발에 기여할 것으로 기대된다.

빅데이터를 활용한 영화흥행 요인 분석: 영화 <기생충>의 SNS 활용지수와 토픽키워드 중심으로 (Analyzing Factors of Success of Film Using Big Data : Focusing on the SNS Utilization Index and Topic Keywords of the Film )

  • 김진욱
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제14권4호
    • /
    • pp.145-153
    • /
    • 2020
  • 빠르게 변화하고 있는 4차 산업 시대에 빅데이터는 다양한 분야에 활용되고 있다. 최근 문화예술콘텐츠 전반에도 빅데이터의 활용은 급속도로 적용되고 있고, 그중에서도 영화는 자본이 많이 드는 예술장르로서 빅데이터의 활용은 매우 유용한 분석 수단이다. 본 연구는 2019년 제72회 칸 영화제의 황금종려상과 아카데미 시상식에서 4관왕(작품상, 감독상, 각본상, 외국어 영화상)을 차지하며 한국영화의 가치를 보여준 영화 <기생충>을 대상으로 빅데이터 분석기법을 적용하여 실시하였다. 이렇게 분석된 값은 데이터의 주기별 변화량과 감성의 값을 부여하는 오피니언 마이닝을 통해 영화 흥행을 예측하고, 페이스북(Facebook), 트위터(Twitter) 등 SNS의 활용지수와 토픽 키워드를 추출하여 관객들의 관심을 반영하는 영화적 요인들이 무엇인지를 살펴보았다. 이처럼 빅데이터를 활용한 영화흥행 요인분석으로 모델 구축 및 모형 개발로 흥행예측이 가능해지면 영화제작 과정의 효율성을 극대화하면서 제작비용과 영화실패에 따른 리스크를 최소화 할 것이다.

텍스트마이닝을 활용한 빅데이터 기반의 디지털 트랜스포메이션 연구동향 파악 (Identifying Research Trends in Big data-driven Digital Transformation Using Text Mining)

  • 김민준
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.54-64
    • /
    • 2022
  • 빅데이터 기반의 디지털 트랜스포메이션은 데이터 및 데이터 관련 기술을 통해 기업의 성과 향상, 조직 변화, 사회 공헌 등의 목적 달성을 위해 수행하는 혁신적 프로세스를 의미한다. 성공적인 빅데이터 기반의 디지털 트랜스포메이션을 위해서는 관련 연구 현황, 주요 연구토픽, 주요 연구토픽 간의 관계를 이해하는 것이 필수적이다. 그러나 여러 연구들의 서로 다른 관점 및 이들 간 연계 가능성에 대해 이해하려는 노력은 아직 미진하다. 본 논문은 텍스트마이닝을 활용하여 관련 연구동향을 분석하고, 여러 연구의 다양한 관점을 통합적으로 이해하기 위한 기반 마련을 시도해보았다. Web of Science Core Collection에서 추출한 439편의 논문을 분석하여, 10개의 주요 연구토픽을 도출하였고, 이들 간의 관계를 분석하였다. 본 연구의 결과가 빅데이터 기반의 디지털 트랜스포메이션에 대한 통합적인 이해를 촉진하고, 성공을 위한 방향성 모색에 기여할 것으로 기대한다.

저궤도 위성통신 분야의 ICT 디지털 전환과 데이터 융합 생태계 조성을 위한 SNS 감성분석과 니드마이닝 (SNS Sentiment Analysis and Needmining for ICT Digital Transformation and Data Convergence Ecosystem Establishment in LEO Satellite Communications)

  • 이병희;김태현
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제12권12호
    • /
    • pp.347-356
    • /
    • 2023
  • 최근 우크라이나-러시아간 전쟁에서 저궤도 위성통신이 큰 진가를 발휘하였고, 우리나라도 2023년 5월 성공적인 누리호 발사로 저궤도 위성통신 서비스의 발판을 마련하고 본격적인 민간 우주시대 경쟁에 돌입하였다. 본 논문은 저궤도 위성통신 분야의 ICT 디지털 전환과 데이터 융합 생태계 조성을 위해 세계적인 SNS의 하나인 레딧에서 글을 가져와서 이용자의 감성분석을 수행하고, 이용자의 니즈를 파악하고자 니드마이닝을 통해 니즈 관련 문장을 추출하여 토픽모델링을 수행하여 토픽을 분류하고 이들 토픽에 따라 실행계획을 마련하고자 한다. 본 연구가 저궤도 위성통신 분야에서 새로운 비즈니스 모델의 개발과 혁신, 디지털 정보격차 해소 및 사회적 문제 해결, 지속 가능한 디지털 전환 및 소프트 파워 향상에 기여하는데 정책적 자료로 활용되기를 기대한다.

신문기사 빅데이터를 활용한 친환경 섬유의 추이에 관한 연구 (The Trends of Eco-Friendly Textiles Using Big Data from Newspaper Articles)

  • 조남범;이충권
    • 스마트미디어저널
    • /
    • 제13권2호
    • /
    • pp.95-107
    • /
    • 2024
  • 환경에 친화적인 제품과 서비스의 개발은 시대적인 트렌드가 되었고, 경제적 가치를 가진 친환경 섬유의 개발과 활용은 새로운 비즈니스 모델로서 주목받고 있다. 친환경 섬유에 대한 동향을 분석하고 추이를 파악하는 것은 기업, 정부, 소비자 등 다양한 이해관계자들에게 중요한 정보와 인사이트를 제공하여 지속가능한 성장에 도움을 줄 수 있다. 이에 본 연구는 2000년부터 2023년 6월까지 섬유패션 분야를 주로 다루는 신문의 기사데이터를 수집하여 분석을 진행하였다. '친환경 섬유'라는 키워드가 포함된 기사 총 12,331건을 수집하였고, 추출된 데이터에서 형태소 분석을 진행 후 연도별 토픽을 알아보기 위해 잠재 디리클레 할당과 동적 토픽 모델링 분석을 수행하였다. 연구 결과는 섬유산업의 지속 가능한 발전을 위한 전략적 지침과 인사이트를 제공함으로써, 친환경 섬유의 연구와 개발, 그리고 상용화를 촉진함에 있어서 도움이 될 것으로 기대된다.

지지 벡터 기계와 토픽 시그너처를 이용한 댓글 분류 시스템 언어에 독립적인 댓글 분류 시스템 (Comments Classification System using Support Vector Machines and Topic Signature)

  • 배민영;은지현;장두성;차정원
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.263-266
    • /
    • 2009
  • 댓글은 일반적인 글에 비해 작성가능한 문장의 길이가 짧고, 띄어쓰기나 마침표를 잘 쓰지 않는 등 비정형화된 형식 구조를 가진다. 이러한 댓글의 악성 여부를 판별하기 위하여 본 논문에서는 문장을 n-gram으로 나누고 문서요약이나 문서분류에서 자질 선택에 많이 사용되는 토픽 시그너처(Topic Signature)를 이용하여 자질을 추출한다. 또한 지지 벡터 기계(Support Vector Machines)을 사용하여 댓글의 악성 여부를 판별한다. 본 논문에서는 한글과 영어 댓글에 대한 악성 여부를 판별하는 실험을 통하여 복잡한 전처리과정을 요구하는 기존에 제안된 방법들 보다 우수한 성능을 보이는 것을 확인할 수 있었다.

  • PDF

토픽 기반의 트윗 분류를 위한 해시태그 분석 기법 (Hashtag Analysis Scheme for Topic based Tweet Categorization)

  • 김용성;전상훈;유제혁;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.737-740
    • /
    • 2014
  • 최근 SNS 사용자가 급증하면서 매우 다양하고 방대한 양의 글이 여러 종류의 SNS를 통해 생성되고 있다. 그중 트위터는 정보의 전달 및 확산에 상당히 유용한 도구로 사용되고 있다. 이러한 트위터의 사용자 트윗은 뉴스, 음악, 사진, 여행 등 다양한 형태로 등장한다. 또한 트위터는 해시태그라는 사용자 정의 태그를 사용하는데 이는 트윗의 키워드 및 핵심을 쉽게 표현할 수 있도록 해주는 효과적인 수단이다. 최근 상당히 많은 양의 트윗의 생성에도 불구하고 이를 다양한 카테고리별로 분류할 수 있는 연구가 많이 진행되지 않았다. 따라서 본 논문에서는 해시태그를 이용해 트윗의 핵심을 파악하고 수많은 트윗을 다양한 토픽별로 분류할 수 있는 기법을 제안한다. 우선 다양한 카테고리의 인기 해시태그가 포함된 트윗을 수집하고 수집한 트윗에서 해시태그별 키워드를 추출한다. 그리고 코사인 유사도를 통해 해시태그별 내용 유사도를 파악하여 각 카테고리 내의 해시태그가 얼마나 유사한 내용을 지니고 있는지 파악한다. 마지막으로 사용자 트윗이 입력되면 모든 카테고리와 유사도를 비교하여 가장 유사도가 높은 카테고리를 찾아 추천해준다. 제안된 기법을 바탕으로 프로토타입을 구현하고 실험을 통해 성능을 평가한다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.