• 제목/요약/키워드: 구조적 토픽 모델링

검색결과 48건 처리시간 0.033초

토론 대화에서의 토픽 분석을 위한 키워드 추출 및 키워드 기반 감성분석 시스템 (A System for Keyword Extraction and Keyword-based Sentiment Analysis for Topic Analysis in Discussion)

  • 정용빈;오유진;박재완;장새미;함영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-169
    • /
    • 2022
  • 토픽 모델링은 비즈니스 분석이나 기술 동향 파악 등 다방면에서 많이 사용되고 있는 기술이다. 하지만 대표적인 방법인 LDA와 같은 비지도학습의 경우, 그 알고리즘 구조상 문서의 수가 많을 때 토픽 모델링이 가능하다. 본 논문에서는 문서의 수가 적은 경우도, 키워드 및 키프레이즈를 이용한 군집화를 통해 토픽 모델링을 하고 감성분석을 통해 토픽에 대한 분석도 제시하였다. 이에 필요한 데이터 제작 및 키워드 추출, 키워드 기반 감성분석, 키워드 임베딩 및 군집화를 구현하였고, 결과를 정성적으로 보았을 때 유의미한 분석이 되는 것을 확인하였다.

  • PDF

토픽맵을 이용한 3D 건축물의 구조모델링 기법 연구 (Structure Modeling Techniques for the 3D Architecture using Topic Maps)

  • 김소영;임순범;우성호;최윤철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.223-226
    • /
    • 2006
  • 가상현실 기술은 3 차원 가상공간 및 물체를 시각화하는데 중점을 두고 있다. 이는 사용자가 3 차원으로 데이터를 충분히 활용하지 못하고, 시각자료로만 사용하게 되는 요인이 된다. 이를 보완하기 위해 시각 정보뿐만 아니라 구조 및 관계에 대한 정보까지도 효과적으로 활용 할 수 있는 연구가 필요하다. 따라서 본 연구에서는 외형뿐만 아니라 내부적인 구조와 관계에도 의미를 부여하기 위하여 3 차원 건축물에 XML 기반의 토픽맵을 적용하였다. 전통 건축물의 공포 부분을 모델링하고, 각각의 객체가 사용자에 의해 조작이 가능하도록 하였으며, 객체들의 구조와 연결관계를 분석하고, 정의된 구조 및 관계를 토대로 토픽맵을 작성하였다. 작성된 토픽맵은 모델링 데이터에 적용 가능하도록 DOM 을 이용하여 변환하였다. 이 연구를 통해 아무리 복잡한 구조물이라도 그에 대한 구조 정보를 쉽게 파악할 수 있었고, 계층적 연결 관계도 쉽게 파악 할 수 있었다.

  • PDF

언택트 연구의 지식구조에 대한 탐색적 분석 (A Exploratory Analysis on Knowledge Structure of Untact Research)

  • 김성묵;차현희
    • 문화기술의 융합
    • /
    • 제7권2호
    • /
    • pp.367-375
    • /
    • 2021
  • 본 연구는 텍스트 마이닝을 이용하여 언택트 연구의 지식구조를 파악하고 연구 방향 정립을 위한 함의를 찾고자 하였다. 2019년부터 2020년 10월까지 발표된 연구 문헌 171편의 서지정보를 네트워크 분석과 토픽 모델링 기법을 사용, 분석하였다. 사용, 서비스, 소비, 영향, 기술 키워드 등의 등장 빈도가 높았고, 등장논문의 수는 코로나19, 기술, 사용, 서비스의 순서였다. 중심성과 구조적 공백 분석 결과 서비스, 사용, 소비, 기술, 온라인 등의 키워드를 중심으로 연구가 이루어졌고, 더 연구가 필요함을 확인하였다. 토픽 모델링으로 코로나19와 사회기술변화, 교육콘텐츠 필요성 및 활용, 사용자 편의 기술 및 서비스, 제품 마케팅 및 판매, 기업의 서비스 디자인, 사용과 소비 영향요인 등 6개 토픽을 추출하였고 토픽을 잇는 키워드는 기술, 서비스, 사용, 소비, 필요, 요인 등이었다. 지식구조 분석은 언택트 연구와 정책 제안에 유용한 정보를 제공할 수 있다. 본 연구의 탐색적 성격을 넘어 양적 축적과 질적 다변화가 필요하다.

텍스트 분석을 이용한 코로나19 관련 국내논문의 토픽 및 감성연구 (Topic and Sentiment Analysis on COVID19 Research in Korea Using Text Analysis)

  • 허성민;양지연
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.329-331
    • /
    • 2021
  • 본 연구에서는 코로나19 관련 연구논문의 연구주제를 탐색하고 동향을 검토하고 있다. 또한 감성분석을 통해 부정적인 어조가 강한 경고가 되는 주제들을 알아본다. 잠재 디리슐레 할당(LDA)를 이용하여 총 8개의 토픽을 발견하 였고, 이를 구조적 토픽 모델링(STM)과 비교하여 비교적 안정적인 결과임을 확인하였다. 또한 k-means 군집 알고리즘을 통해 각 토픽별로 세부 연구주제를 발견하였고 주성분 분석을 이용하여 이를 시각적으로 표현하였다. 감성분석을 통해 각 토픽별 긍정적, 부정적인 단어들을 살펴보고 감성점수를 계산하여 연구논문의 주된 어조를 파악하였는데, 특히 생물 의학 관련, 국제적 역학관계, 심리적 영향과 관련된 연구에서 부정적인 어조가 강한 것으로 나타나 해당 부문에 대해서 주의와 관심이 요구된다. 향후 연구자들이 연구의 방향성을 탐색하고 정책결정자들이 연구지원 사업을 결정하는데 기초자료로 활용될 수 있을 것이다.

  • PDF

사회여론에 대한 법관의 인식: 법관 대상 FGI에 대한 근거이론 분석과 토픽 모델링 비교 (Judges' Perception of Public Opinion: Comparing Grounded Theory and Topic Modeling in Analyzing Focused Group Interview with Judges)

  • 강태경
    • 한국심리학회지:법
    • /
    • 제13권1호
    • /
    • pp.23-52
    • /
    • 2022
  • 본 연구에서는 현직 법관 24명을 대상으로 법관들이 재판과 관련하여 사회여론을 어떻게 개념화하는지와 사회여론에 대해 어떤 태도를 취하는지에 대한 초점 집단 면접(FGI)을 실시하고, 인터뷰 내용에 대한 근거이론적 분석과 구조적 토픽 모델링(STM)을 수행하였다. 근거이론적 분석 결과에 따르면, 연구 참여자들은 사회상규, 사회통념, 법감정, 국민정서를 여론과 개념적으로 구분하였고, 여론을 특정한 법적 쟁점이나 사건에 대한 일시적이고 감정적인 반응과 정책에 대한 지속적인 의견으로 구분하여 이해하였다. 그리고 사건의 종류나 법적 쟁점에 따라 여론이나 사회통념에 대해 다른 태도를 취하는 것으로 나타났다. 토픽 모델링 결과는 근거이론적 분석 결과와 상당한 유사성을 보였고, 특정 토픽의 발현 가능성은 연구 참여자들의 담당 사건 종류에 따라 통계적으로 유의미한 차이를 보였다.

키워드 네트워크 분석과 토픽모델링을 활용한 정보활용교육 연구 동향 분석 (Analysis of Research Trends in Information Literacy Education Using Keyword Network Analysis and Topic Modeling)

  • 임정훈
    • 정보관리학회지
    • /
    • 제39권4호
    • /
    • pp.23-48
    • /
    • 2022
  • 본 연구는 키워드 네트워크 분석과 토픽모델링을 활용하여 국내 정보활용교육 연구의 흐름을 살펴보고 향후 정보활용교육의 방향성을 모색하는데 목적이 있다. 이를 위하여 국내 문헌정보학 분야의 학술지에 게재된 정보활용교육과 관련된 논문 306편을 선정하고, 논문의 초록을 대상으로 전처리 과정을 거쳐 전체 키워드 출현 빈도, 시기별 키워드 출현 빈도, 키워드 동시출현 빈도분석을 수행하였다. 이어서 키워드 네트워크 분석을 통해 키워드의 연결중심성과 매개중심성, 위세중심성을 분석하였다. 또한 구조적 토픽모델링 분석을 활용하여 15개의 토픽(교육과정, 정보활용교육 효과, 정보활용교육 내용, 학교도서관 교육, 정보매체활용, 정보활용능력 평가 지표, 도서관 불안, 공공도서관 프로그램, 대학도서관 이용자교육, 건강정보 활용능력, 정보격차, 도서관활 용수업 개선, 연구 동향, 정보활용교육 모델, 교사 역할)을 도출하고, 토픽별로 비중의 변화를 확인하기 위해 연도별 토픽 추이를 분석하였다. 이러한 결과를 바탕으로 정보활용교육의 방향성과 후속 연구에 대한 제언을 제시하였다.

빅 데이터 처리를 위한 적응적 사용자 및 토픽 모델링 기반 자동 TV 프로그램 추천시스템 (Adaptive User and Topic Modeling based Automatic TV Recommender System for Big Data Processing)

  • 김은희;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2015년도 하계학술대회
    • /
    • pp.195-198
    • /
    • 2015
  • 최근 TV 서비스의 가입자 및 TV 프로그램 콘텐츠의 급격한 증가에 따라 빅데이터 처리에 적합한 추천 시스템의 필요성이 증가하고 있다. 본 논문은 사용자들의 간접 평가 데이터 기반의 추천 시스템 디자인 시, 누적된 사용자의 과거 이용내역 데이터를 저장하지 않고 새로 생성된 사용자 이용내역 데이터를 학습하는 효율적인 알고리즘이면서, 시간 흐름에 따라 사용자들의 선호도 변화 및 TV 프로그램 스케줄 변화의 추적이 가능한 토픽 모델링 기반의 알고리즘을 제안한다. 빅데이터 처리를 위해서는 분산처리 형태의 알고리즘을 피할 수 없는데, 기존의 연구들 중 토픽 모델링 기반의 추론 알고리즘의 병렬분산처리 과정 중에 핵심이 되는 부분은 많은 데이터를 여러 대의 기계에 나누어 병렬분산 학습하면서 전역변수 데이터를 동기화하는 부분이다. 그런데, 이러한 전역데이터 동기화 기술에 있어, 여러 대의 컴퓨터를 병렬분산처리하기위한 하둡 기반의 시스템 및 서버-클라이언트간의 중재, 고장 감내 시스템 등을 모두 고려한 알고리즘들이 제안되어 왔으나, 네트워크 대역폭 한계로 인해 데이터 증가에 따른 동기화 시간 지연은 피할 수 없는 부분이다. 이에, 본 논문에서는 빅데이터 처리를 위해 사용자들을 클러스터링하고, 클러스터별 제안 알고리즘으로 전역데이터 동기화를 수행한 것과 지역 데이터를 활용하여 추론 연산한 결과, 클러스터별 지역별 TV프로그램 시청 토큰 별 은닉토픽 할당 테이블을 유지할 때 추천 성능이 더욱 향상되어 나오는 결과를 확인하여, 제안된 구조의 추천 시스템 디자인의 효율성과 합리성을 확인할 수 있었다.

  • PDF

텍스트 분석을 이용한 코로나19 관련 국내 논문의 주제 및 감성에 관한 융합 연구 (A Convergence Study on the Topic and Sentiment of COVID19 Research in Korea Using Text Analysis)

  • 허성민;양지연
    • 한국융합학회논문지
    • /
    • 제12권4호
    • /
    • pp.31-42
    • /
    • 2021
  • 본 연구에서는 코로나19 관련 연구논문의 연구주제를 탐색하고 동향을 검토하고 있다. 또한 감성분석을 통해 부정적인 어조가 강한 경고가 되는 주제들을 알아본다. 잠재 디리슐레 할당(LDA)를 이용하여 총 8개의 토픽을 발견하였고, 이를 구조적 토픽 모델링(STM)과 비교하여 비교적 안정적인 결과임을 확인하였다. 또한 k-means 군집 알고리즘을 통해 각 토픽별로 세부 연구주제를 발견하였고 주성분 분석을 이용하여 이를 시각적으로 표현하였다. 감성분석을 통해 각 토픽별 긍정적, 부정적인 단어들을 살펴보고 감성점수를 계산하여 연구논문의 주된 어조를 파악하였는데, 특히 생물 의학 관련, 국제적 역학관계, 심리적 영향과 관련된 연구에서 부정적인 어조가 강한 것으로 나타나 해당 부문에 대해서 주의와 관심이 요구된다. 향후 연구자들이 연구의 방향성을 탐색하고 정책결정자들이 연구지원 사업을 결정하는데 기초자료로 활용될 수 있을 것이다.

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

토픽모델링과 네트워크분석을 활용한 헬스케어 분야의 핵심기술과 기술융합 분석 연구: 특허정보를 중심으로 (Analyzing Core Tehnology and Technological Convergence in Healthcare Using Topic Modeling and Network Analysis: Focus on Patent Information)

  • 김은정;최희진
    • 한국정보통신학회논문지
    • /
    • 제26권5호
    • /
    • pp.763-778
    • /
    • 2022
  • 본 연구는 융합산업으로 각광받고 있는 헬스케어 분야를 중심으로 기술융합을 이루는 요소기술과 핵심기술을 파악하여 기술융합 현상을 분석하고자 하였으며, 이를 위해 2011년부터 2020년까지의 국내 특허 중 헬스케어와 관련 있는 특허 총 376개를 수집하여 토픽모델링과 네트워크 분석을 수행하였다. 첫째, 토픽모델링 분석 결과 "데이터수집·분석", "생체신호측정", "건강관리", "디지털정보 수집 및 전송", "진단·치료", "측정 진단장치" 총 6개의 주요 토픽이 도출되었다. 둘째, 앞서 분석한 토픽별로 네트워크 분석을 수행하여 기술간 연결망 구조를 파악한 후 기술융합 특성을 확인하고, 중심성 지표를 통해 핵심기술을 도출하였다. 본 연구의 핵심인 국내 헬스케어의 핵심·요소기술동향 및 기술융합도 분석결과는, 기업의 신규 가치창출을 위한 제품·서비스개발 방향성을 수립하거나, 학계 및 정부의 헬스케어 산업을 육성·지원하기 위한 전략 및 정책적인 방향성을 수립하는데 기초자료로 활용될 수 있을 것이다.