• 제목/요약/키워드: 토픽 마이닝

검색결과 295건 처리시간 0.029초

계층적 검색 의도와 웹 자원을 활용한 2계층 구조의 서브토픽 마이닝 (Subtopic Mining of Two-level Hierarchy Based on Hierarchical Search Intentions and Web Resources)

  • 김세종;이종혁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.83-88
    • /
    • 2016
  • 서브토픽 마이닝은 입력 질의에서 나타날 수 있는 검색 의도들의 중의성 해소 및 보다 명확한 의도 전달을 위해 관련 서브토픽들을 연관성, 선호도, 다양성을 고려하여 추출 및 순위화하는 것을 말한다. 본 논문은 웹 자원의 활용에 대한 기존 연구의 한계점을 명시하고, 이를 극복하기 위해 계층적 검색 의도와 웹 자원을 기반으로 한 2계층 구조의 서브토픽 마이닝 방법론을 제안한다. 우리는 서브토픽 마이닝 평가 대회에서 제공한 웹 문서 및 각 자원의 특성을 고려하여 제 2계층 서브토픽들을 추출, 확장 및 재순위화하고, 넓은 검색 의도를 가진 서브토픽 내의 단어들은 제 1계층 서브토픽들을 구성하는데 활용하였다. 본 방법론은 관련 평가 대회에서 최고 성능을 보인 기존 연구들의 결과들과 비교했을 때, 대부분의 평가 척도에서 높은 성능을 보였다.

질의어의 종류와 의미 관계를 고려한 서브토픽 마이닝 평가 방법 제안 (Proposal of the Evaluation Method Based on Query Types and Semantic Relations in Subtopic Mining)

  • 김세종;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.285-287
    • /
    • 2012
  • 서브토픽 마이닝(subtopic mining)이란 사용자 의도를 반영하는 서브토픽을 찾아내고 순위화하는 연구분야이다. 본 논문은 서브토픽 마이닝의 결과를 평가하는 기존 방법의 한계점을 제시하고, 이를 해결하기 위해 질의어의 종류를 고려하여 보다 명확한 의도 항목(intent)의 나열을 유도하고, 질의어와 의도 항목 사이에 'is-a' 및 'part-of' 관계를 적용하여 보다 일관성 있고 의도 항목의 의미적 중복을 최소화하는 평가 방법을 제안하였으며, 평가 대상을 3종류로 구분하여 평가 결과의 활용도를 높였다.

의존 구문 구조 관점으로 본 서브토픽 마이닝 (Subtopic Mining from the View of Dependency Structure)

  • 김세종;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.294-296
    • /
    • 2012
  • 본 논문은 일본어 웹 문서 말뭉치로부터 의존 구문 구조 관점으로 바라본 단어들의 동시발생(co-occurrence) 정보를 사용하여 서브토픽 마이닝(subtopic mining)을 수행하는 방법론을 제안한다. 우리는 의존 구문 구조를 반영하는 간단한 패턴들을 사용하여 서브토픽들을 추출 및 생성하고, 제안한 수식을 바탕으로 순위화한다. 본 방법론은 기존의 주요 상용 검색 서비스에서 제공하는 연관 검색어 및 추천 검색어를 사용한 방법론보다 좋은 성능을 보였다.

텍스트 마이닝을 이용한 리빙랩 연구동향 분석 (Research Trend Analysis on Living Lab Using Text Mining)

  • 김성묵;김영준
    • 디지털융복합연구
    • /
    • 제18권8호
    • /
    • pp.37-48
    • /
    • 2020
  • 본 연구는 텍스트 마이닝을 활용하여 리빙랩 연구의 동향을 파악하고 연구 방향 정립에 필요한 함의를 도출하고자 하였다. 리빙랩 관련 연구가 발표되기 시작한 2011년부터 2019년 11월까지의 논문 166편의 키워드와 초록을 대상으로 네트워크 분석 및 토픽 모델링 기법을 사용하여 분석하였다. 키워드 중 혁신, 지역, 사회, 기술, 스마트시티 등의 출현빈도가 높았고, 중심도 분석결과 현재까지 리빙랩 연구가 혁신, 사회, 기술, 개발, 사용자 등의 키워드를 중심으로 이루어짐을 파악하였다. 토픽 모델링 결과 지역혁신과 사용자지원, 정부 사회정책사업, 스마트시티 플랫폼구축, 기업기술혁신모델 및 시스템전환 참여 등 5개 토픽을 추출하였으며 토픽을 이어주는 키워드는 혁신, 기술, 사용자, 참여인것으로 분석하였다. 2017년 KNoLL 출범 후 토픽별 비중은 고른 분포로 연구 주제가 다양화됨을 확인하였다. 텍스트마이닝을 이용한 리빙랩 연구동향 분석과 방향 제시는 연구와 정책방향 수립에 유용한 자료를 제공할 수 있다.

텍스트 마이닝 방법을 활용한 국내 학습상담 연구 동향 분석 (Analysis of Trends in Domestic Learning Counseling Research Using Text Mining Methods)

  • 현용찬;양지혜;박정환
    • 융합정보논문지
    • /
    • 제12권3호
    • /
    • pp.302-310
    • /
    • 2022
  • 본 연구는 청소년의 학습상담 관련 연구 동향을 텍스트 마이닝 방법을 활용하여 얻어진 결과를 살펴보고 후속 연구 방향을 제시하였다. 한국 청소년 고민의 상위 1, 2위는 학습과 진로이다. '학습상담', '학업상담'키워드로 RISS를 통하여 KCI 등재 후보 이상의 학술논문 201편을 대상으로 연구자의 주관과 편견을 최소화할 수 있는 텍스트 마이닝 기법으로 모델링 분석하였다. 학습상담 토픽 결과 상담 경험[토픽1], 집단상담 연구[토픽2], 부모상담[토픽3], 학습기술 프로그램 개발[토픽4]로 나타났다. 학습상담 관련 연구는 정서적인 안정을 위한 상담, 집단상담, 부모상담과 학습기술 프로그램이 개발되고 있다. 청소년의 고민을 해결하기 위한 학습상담은 심리 정서, 부모상담, 학습기술 전문가의 협업을 통한 통합적인 지원을 위한 연구가 지속되기를 기대한다.

텍스트마이닝을 활용한 감정노동 연구 동향 분석 (Research Trends on Emotional Labor in Korea using text mining)

  • 조경원;한나영
    • 한국산업정보학회논문지
    • /
    • 제26권6호
    • /
    • pp.119-133
    • /
    • 2021
  • 텍스트마이닝을 이용하여 연구동향을 파악하는 연구가 많은 분야에서 이루어지고 있으나 감정노동 분야에서는 텍스트마이닝을 사용하여 연구 동향을 파악한 연구는 없는 실정이다. 본 연구는 텍스트마이닝을 이용하여 2004년부터 2019년까지 한국연구재단의 한국학술지인용색인(KCI)에서 '감정 노동'이라는 주제어가 포함된 1,465건의 검색된 논문을 심층적으로 분석하여 감정노동 연구 동향을 파악하고자 한다. LDA분석으로 주제들을 추출하고, 토픽의 비중과 유사도를 확인하기 위해 IDM분석을 실시하였다. 이를 통해 유사도가 높은 토픽들의 의미유용성을 고려하여 토픽의 통합분석을 실시하였다. 연구토픽은 11개로 구분되며, 감정노동의 스트레스(12.2%), 감정노동과 사회적 지지(12.0%), 고객서비스 종사자의 감정노동(10.9%), 감정노동과 회복탄력성(10.2%), 감정노동전략(9.2%), 콜센터상담사의 감정노동(9.1%), 감정노동의 결과(9.0%), 감정노동과 직무소진(7.9%), 감성지능(7.1%), 예비돌봄서비스 종사자의 감정노동(6.6%), 감정노동과 조직문화(5.9%) 순의 비중으로 나타났다. 토픽모델링과 트렌드분석을 통하여 감정노동의 연구동향과 학문적 추이를 분석함으로써 감정노동 연구의 나아갈 방향을 제시하고자 하며 감정노동에 관한 실무적인 전략을 수립할 수 있기를 기대한다.

토픽 모형 및 사회연결망 분석을 이용한 한국데이터정보과학회지 영문초록 분석 (Analysis of English abstracts in Journal of the Korean Data & Information Science Society using topic models and social network analysis)

  • 김규하;박철용
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권1호
    • /
    • pp.151-159
    • /
    • 2015
  • 이 논문에서는 텍스트마이닝 (text mining) 기법을 이용하여 한국데이터정보과학회지에 게재된 논문의 영어초록을 분석하였다. 먼저 다양한 방법을 통해 단어-문서 행렬 (term-document matrix)을 생성하고 이를 사회연결망 분석 (social network analysis)을 통해 시각화하였다. 또한 토픽을 추출하기 위한 방법으로 LDA (latent Dirichlet allocation)와 CTM (correlated topic model)을 사용하였다. 토픽의 수, 단어-문서 행렬의 생성방법에 따라 엔트로피 (entropy)를 통해 토픽 추출 모형들의 성능을 비교하였다.

텍스트 마이닝과 토픽 모델링을 기반으로 한 트위터에 나타난 사회적 이슈의 키워드 및 주제 분석 (Keywords and Topic Analysis of Social Issues on Twitter Based on Text Mining and Topic Modeling)

  • 곽수정;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권1호
    • /
    • pp.13-18
    • /
    • 2019
  • 본 연구는 커뮤니케이션이 활발한 SNS 속에서 사회적 이슈가 어떤 주제별로 나뉘어져 있고, 어떤 키워드들이 유기적으로 연결되었는지 그 연결 관계를 알아보고자 하였다. '미투'라는 새로운 단어가 생겨남과 동시에 큰 운동으로 번지고 있는 '미투운동'을 사회적 이슈로 간주하였고, 여러 SNS 중 특히 실시간 소통이 가장 활발한 트위터를 중심으로 분석을 실시하였다. 우선 키워드를 '미투'로 하여 관련된 키워드를 각 날짜별로 추출하였고, 주요 키워드를 파악한 후 토픽 모델링을 수행하였다. 이를 통해 사회적 이슈를 둘러싼 키워드들이 시간의 흐름에 따라 어떻게 변화하였는지 파악하고, 각 토픽 내의 키워드를 종합하여 토픽별 사회적 이슈의 다양한 관점을 해석하였다.

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

텍스트 마이닝을 이용한 이익조정 연구동향 토픽모델링 (Topic Modeling of Profit Adjustment Research Trend in Korean Accounting)

  • 김지연;나홍석;박경환
    • 디지털융복합연구
    • /
    • 제19권1호
    • /
    • pp.125-139
    • /
    • 2021
  • 본 연구는 이익조정을 연구주제로 국내 회계학 관련 논문들의 세부 연구 동향 파악을 목적으로 한국학술지인용색인(KCI)의 회계학 또는 경영학에 속하는 학술지에 게재된 논문 초록을 텍스트 마이닝 기법을 이용하여 분석하였다. 분석 결과, 이익조정 관련 회계학 논문들이 감사 및 감사보고서, 법인세 및 부채비율, 기업의 전반적인 경영전략, 재무제표와 회계기준의 4가지 연구 영역으로 나누어지는 것을 확인하였으며, 재무제표와 회계기준이 주된 토픽일 것이라는 예측과는 달리 감사가 가장 많이 연구된 토픽으로 분석되었다. 이어 토픽별 논문 수를 기준으로 토픽 트렌드를 확인하고 특이사항에 대한 원인을 분석하였으며, K-IFRS의 도입이 이익조정 연구에 미친 영향을 확인하였다. 본 연구는 이익조정에 대한 자세한 연구 동향에 대한 정보를 제공하고 회계학 문헌분석 연구방법으로 텍스트 마이닝 기법을 제시하였다. 또한 정책결정자 및 기업 실무 담당자가 이익조정 관련하여 회계기준 외에 감사 등 4개 토픽별로 추가적으로 고려하여야 할 사항과 그 추세를 파악할 수 있도록 하였다.