• 제목/요약/키워드: 토픽 추출

검색결과 211건 처리시간 0.027초

격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링 (A Similarity-based Dialogue Modeling with Case Frame and Word Embedding)

  • 이호경;배경만;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드 임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

무선 단말기용 XML기반 맞춤 서비스 시스템 설계 (A Design of Personalization Service System for Wireless Devise based on XML)

  • 송민영;이기호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.142-144
    • /
    • 2001
  • 최근 E-Business가 활성화됨에 따라 고객의 특성을 파악해서 고객 개인의 관심에 부합되는 개인화 된 정보나 서비스를 제공할 것이 요구되고 있다. 무선 인터넷을 이용한 서비스가 증가하고 있지만 대부분의 서비스 시스템들은 사용자 개인의 성향은 고려하지 않고 모든 사용자에게 획일적인 서비스를 제공한다. 무선 환경일수록 이러한 무분별한 광고는 오히려 고객의 만족도를 감소시킬 수 있다. 따라서 각각의 고객에게 취향과 관심 분야에 따른 차별화 된 서비스가 필요하다. 기존의 e-mail 시스템들은 모든 사용자들에게 단지 질의한 응답만을 제공하거나 똑같은 광고성 메일을 전달한다. 즉, 개인의 성향은 고려하지 않은 응답 결과를 보여주었다. 이에 본 논문에서는 휴대하기 편리한 이동 단말기의 특성을 이용하여 시,공간적 제약을 극복하고 작은 단말기 액정화면을 통해 정보를 일일이 검색해야 하는 번거로움을 덜어줄 수 있는 XML 기반의 무선단말기용 맞춤 서비스 시스템을 설계하였다. 이를 위해 e-mail 헤더 정보를 이용하여 사용자별로 분류하였고 텍스트마이닝 기법을 적용해 추출된 토픽과 사용자 프로파일 정보를 통해 예측된 사용자의 관심분야에 따른 카테고리를 계산하여 템플릿에 매정함으로써 맞춤 서비스를 제공하는 시스템을 설계한다. 이로 인해 무선에서 제공하는 서비스의 질을 향상시키고 사용자에게 편리함과 흥미를 유발할 수 있다.

  • PDF

평점 기반 추천시스템을 위한 토픽 모델 협업필터링 (Collaborative Filtering Using Topic Models for Rating Based Recommender Systems)

  • 김광섭;정호경;이현종;김형준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.381-383
    • /
    • 2012
  • 협업필터링은 지금까지 많은 추천시스템 연구에서 비교대상이 되거나 더 좋은 추천시스템 방법론을 개발하기 위해서 응용되고 있다. 일반적으로 협업필터링 기법은 명시적으로 관찰된 사용자들의 행동을 기반하는 방법이다. 본 연구에서는 LDA(Latent Dirichlet Allocation)을 이용해 사용자와 추천 대상이 되는 아이템의 숨겨진 특성을 추출하고, 이를 협업필터링기법에 응용했다. 영화 추천시스템 구축을 위한 실험에서, 사용자의 선호도는 다양한 영화 장르를 선호하는 비율로 나타난다는 가정(사용자기반)과 영화 또한 장르의 비율로 표현이 된다는 가정(아이템기반)을 했다. 이러한 가정을 토대로 사용자 사이와 영화 사이 간의 유사도를 정의하고, 협업필터링에 적용했을 때, 전통적인 협업필터링 기법보다 뛰어난 결과를 얻을 수 있었다.

Topic Map 기반의 MARC 적용 방안 연구 (A Study on MARC Based Topic Map)

  • 장화수;고일주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2008년도 제38차 하계학술발표논문집 16권1호
    • /
    • pp.309-315
    • /
    • 2008
  • 문헌정보처리 표준화도구인 MARC는 포멧의 문제점과 다양한 웹자원 메타데이터 정보조직의 문제점으로 인하여 웹 기반의 XML표준 포멧의 도입을 시도하였고, MARCXML로 변환되어 시스템간 상호운용되고 있으나, MARCXML은 서지정보의 의미특성이나 메타데이터의 표현을 고려하지 않고 단순히 MARC 레코드의 표현을 XML 구조로 변환한 것일 뿐이다. 시맨틱의 핵심기술로 부각되고 있는 Topic Map은 XML기반의 표준기술언어인 ISO의 XTM을 이용해 정보와 지식의 분산 관리를 지원하는 기술이다. 학술정보자원에 대한 DB 구축 시 Topic Map언어인 XTM을 이용한다면 이미 개발된 여러 메타데이터 등을 한곳으로 통합하면서도 신축성과 확장성을 제공하는 것이 용이하게 된다. 하지만, 기존 시스템에서 새로운 Topic Map을 구축하는 것은 많은 비용과 시간이 소요되는 등 어려운 일이다. 본 연구에서는 기 구축된 학술DB로부터 Topic Map에서 재활용할 수 있는 요소들을 추출하기 위한 정보 소스로서 데이터베이스 스키마와 MARC에서 언급하는 메타데이터를 이용하는 것은, XML의 특징인 시스템간 상호운용성을 확보함과 동시에 기초 학문자료의 복잡한 관계의 개념구조, 자료유형 및 자료간의 의미적 상관관계 등을 표현에 있어 효율적인 개발방법임을 제안한다.

  • PDF

LDA 모델을 이용한 트위터 데이터 분석 시스템 (Twitter Data Analysis System using LDA model)

  • 이일섭;장정현;류관희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.389-390
    • /
    • 2017
  • 현재 많은 사용자들이 모바일 기기를 통해 소셜 네트워크 서비스(이하 SNS)를 이용하고 있으며, SNS를 통해 수많은 데이터가 생성되고 있다. SNS상의 정보는 다양하고 신속하게 다루어지기 때문에 시대의 주요 사건을 잘 표현한다. 본 논문은 2015년 1월부터 2017년 8월까지의 약 191만개의 트위터 데이터를 수집한 후, LDA 모델링을 통해 주요 키워드를 추출하고 시대별 주요 토픽과 단어를 파악할 수 있는 시스템을 제안한다.

격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링 (A Similarity-based Dialogue Modeling with Case Frame and Word Embedding)

  • 이호경;배경만;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.220-225
    • /
    • 2016
  • 본 논문에서는 격틀과 워드 임베딩을 활용한 유사도 기반 대화 모델링을 제안한다. 기존의 유사도 기반 대화 모델링 방법은 형태소, 형태소 표지, 개체명, 토픽 자질, 핵심단어 등을 대화 말뭉치에서 추출하여 BOW(Bag Of Words) 자질로 사용하였기 때문에 입력된 사용자 발화에 포함된 단어들의 주어, 목적어와 같은 문장성분들의 위치적 역할을 반영할 수 가 없다. 또한, 의미적으로 유사하지만 다른 형태소를 가지는 문장 성분들의 경우 유사도 계산에 반영되지 않는 형태소 불일치 문제가 존재한다. 이러한 문제점을 해결하기 위해서, 위치적 정보를 반영하기 위한 문장성분 기반의 격틀과 형태소 불일치 문제를 해결하기 위한 워드임베딩을 활용하여 개선된 유사도 기반 대화 모델링을 제안한다. 개선된 유사도 기반 대화 모델링은 MRR 성능 약 92%의 성능을 나타낸다.

  • PDF

토픽모델링을 활용한 SIAM Journal on Applied Mathematics의 연구 동향 분석 (Analysis of Research Trends in SIAM Journal on Applied Mathematics Using Topic Modeling)

  • 김성연
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.607-615
    • /
    • 2020
  • 본 연구는 텍스트 마이닝 기법을 이용하여 산업수학과 관련한 논문들의 연구 현황 및 동향을 파악하는데 목적이 있다. 이를 위해 R로 1970년부터 2019년까지 SIAM Journal on Applied Mathematics 총 4910편 논문의 제목, 초록, 주제어를 수집하였으며, LDA 알고리즘 기반의 토픽모델링 분석을 수행하였다. 수집된 자료에 대한 coherence score 분석 결과, 토픽의 최적 개수는 20개로 결정하였으며, 핵심 연구 주제들은 Gibbs 샘플링 방법을 기반으로 추출하였다. 주요 분석 결과는 다음과 같다. 첫째, 해석학과 대수학을 중심으로 계산수학, 기하학, 수학적 모델링, 위상수학, 이산수학, 확률 및 통계학 등 다양한 수학 분야에서 산업수학 관련 연구가 진행되었다. 둘째, 연대별 연구 주제의 동향을 분석한 결과, 상승하는 연구 주제는 수리생물학, 비선형편미분방정식, 이산수학, 통계학, 위상수학으로, 하강하는 연구 주제는 확률론만 나타났다. 셋째, 2015개정 수학교육과정에서 반영되지 않은 분야 중 고등학교 수학교육과정에서 다루어야 할 내용으로 기수법, 행렬, 공간벡터, 복소수가 도출되었다. 마지막으로 분석 결과를 바탕으로 우리나라의 산업수학 활성화 방안과 본 연구의 제한점 및 후속 연구를 제시하였다.

언어 네트워크 분석을 통한 IFLA의 학교도서관 가이드라인 비교·분석에 관한 연구 (A Comparative Analysis Study of IFLA School Library Guidelines Using Semantic Network Analysis)

  • 이병기
    • 한국도서관정보학회지
    • /
    • 제51권2호
    • /
    • pp.1-21
    • /
    • 2020
  • 본 연구는 언어 네트워크 분석을 통해 IFLA의 학교도서관 가이드라인의 언어적 의미를 파악하는데 목적이 있다. IFLA의 학교도서관 가이드라인은 2002년 초판과 2015년에 개정한 제2판이 있다. 본 연구는 학교도서관 가이드라인의 2002년판과 2015년판을 언어 네트워크의 관점에서 분석하고, 상호 비교하였다. 대상 테스트로부터 키워드들을 추출하고 동시출현관계를 바탕으로 언어 네트워크를 구성하였다. 동시출현 네트워크로부터 중심성(연결정도 중심성, 근접 중심성, 매개 중심성)을 분석하였다. 또한, 본 연구는 넷마이너4.0의 LDA 기능을 사용하여 토픽모델링 분석을 수행하였다. 본 연구의 주요 결과는 다음과 같다. 첫째, 중심성 차원에서 비교해 보면, 2015년판에서 'Program, Teaching, Reading, Inquiry, Literacy, Media' 등의 키워드가 2002년판에 비해 높게 나타나고 있다. 둘째, 2002년판의 중심성 상위 리스트에서 보이지 않던 'Inquiry'와 'Achievement' 키워드가 2015년판의 연결정도 중심성과 근접중심성에 새롭게 출현하고 있다. 셋째, 토픽 모델링의 분석 결과, 2002년판에 비해 2015년판은 학교도서관 서비스, 사서교사의 교수학습 활동, 미디어 및 정보활용교육, 교육과정 참여 등에 관한 토픽의 비중이 높아지고 있다.

국가핵심기술 관계망 구축을 통한 연관정보 분석연구: 디스플레이 기술을 중심으로 (A Study on the Analysis of Related Information through the Establishment of the National Core Technology Network: Focused on Display Technology)

  • 박세희;윤원석;장항배
    • 한국전자거래학회지
    • /
    • 제26권2호
    • /
    • pp.123-141
    • /
    • 2021
  • 경제 구조의 기술 의존성이 강해져 국가핵심기술의 중요성은 더욱 대두되고 있다. 하지만 기술 자체적 특성으로 인해 연관 범위가 추상적이고 국가핵심기술 고유의 특성상 정보공개가 제한적이기 때문에 보호대상이 될 기술의 범위를 정하는 것에 어려움이 있다. 이를 해결하기 위해 국가핵심기술과 연관성이 높은 중요 기술을 판별하는 데에 최적화 된 문헌 종류와 분석 기법을 제안하였다. 디스플레이 분야 국가핵심기술 키워드로 수집한 네 개 문헌종류(뉴스, 논문, 보고서, 특허) 데이터에 빅데이터 분석의 텍스트 마이닝 분석기법인 TF-IDF와 LDA 토픽 모델링을 적용하는 파일럿 테스트를 진행하였다. 그 결과로 특허 데이터에 LDA 토픽 모델링을 적용한 결과가 국가핵심기술과 연관성이 높은 중요기술을 추출하였다. OLED, 마이크로LED를 포함하여 디스플레이 전후방산업에 관련된 중요 기술을 판별 할 수 있었으며 이 결과를 관계망으로 시각화하여 국가핵심기술과 연관된 중요 기술의 범위를 명확히 하였다. 본 연구를 통해 기술이 가지는 연관범위의 모호성을 보다 명확히 하였으며, 국가핵심기술이 가지는 제한적인 정보공개 특성을 극복할 수 있다.

텍스트마이닝 기법을 활용한 교육관점에서의 메타버스 관련 이슈 탐색 - 뉴스 빅데이터를 중심으로 (Exploring Issues Related to the Metaverse from the Educational Perspective Using Text Mining Techniques - Focusing on News Big Data)

  • 박주연;정도헌
    • 산업융합연구
    • /
    • 제20권6호
    • /
    • pp.27-35
    • /
    • 2022
  • 본 연구는 뉴스 빅데이터에 나타난 메타버스 관련 이슈들을 교육관점에서 분석하여 그 특징을 탐색하고, 메타버스의 교육적 활용가능성 및 미래교육에 대한 시사점을 제공하는데 목적이 있다. 이를 위해 포털사이트에서 검색되는 메타버스 관련 뉴스 데이터를 41,366건 수집하였고, 대표적인 용어 가중치 모델인 TF-IDF를 이용하여 추출된 모든 키워드의 가중치 값을 계산하여 순위화한 후, 워드클라우드로 시각화 분석을 수행하였다. 또한 정교한 확률기반 텍스트마이닝 기법인 토픽모델링(LDA)을 활용하여 주요 토픽들을 분석하였다. 연구결과 교육관점에서 메타버스의 핵심 이슈로는 플랫폼 산업, 미래인재, 기술의 확산 등과 같은 주제가 도출되었다. 또한, 기술, 직업, 교육이라는 세 개의 핵심 주제로 2차 데이터 분석을 실시한 결과 미래교육에서 메타버스는 교육플랫폼의 혁신, 미래 직업의 혁신, 미래 역량의 혁신과 관련한 이슈를 갖는 것으로 나타났다. 본 연구는 방대한 양의 뉴스 빅데이터를 단계적으로 분석하여 교육관점에서 이슈를 도출하고 미래교육에 대한 시사점을 제공하였다는 데 의의가 있다.