• 제목/요약/키워드: 문서 주제

검색결과 329건 처리시간 0.02초

클릭 로그에 근거한 네이버 검색 질의의 형태 및 주제 분석 (An Analysis of Query Types and Topics Submitted to Navel)

  • 박소연;이준호;김지승
    • 한국문헌정보학회지
    • /
    • 제39권1호
    • /
    • pp.265-278
    • /
    • 2005
  • 웹 검색 분야의 대부분의 선행 연구들은 검색 질의를 살펴본 연구자의 판단에 근거하여 질의의 주제를 분석하였다. 그러나 웹 검색 질의의 주제 분야가 방대하고 다양하여서 이용자가 검색 결과에서 실제로 조회한 문서를 모르는 상태에서 연구자의 판단에 근거하여 질의의 주제를 분류하기에는 한계가 있다. 이에 본 연구에서는 1년 동안 네이버 이용자들이 입력한 질의를 기록한 질의로그와 질의에 대한 검색 결과에서 이용자가 조회한 문서를 기록한 클릭 로그에 근거하여 국내 웹 검색 질의의 형태 및 주제를 분석하였다. 질의를 형태별로 분류한 결과 사이트 검색 질의가 내용 검색 질의보다 많은 것으로 나타났다. 또한 이용자들이 전반적으로 가장 많이 검색한 주제는 컴퓨터/인터넷. 엔터테인먼트, 쇼핑, 게임. 교육 순으로 나타났다. 본 연구의 결과는 인터넷 포탈 업체들의 효과적인 컨텐츠 구축 및 효율적인 검색 시스템 개발에 기여할 것으로 기대된다.

온톨로지 기반의 문서 생성 시스템 (A Document Generation System Based on an Ontology)

  • 류재현;박성배
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.313-316
    • /
    • 2016
  • 온톨로지란 사물이나 개념의 속성이나 관계를 사람과 컴퓨터 모두 이해할 수 있는 형태로 표현한 모델로 정보검색, 인공지능, 소프트웨어 공학 등의 분야에서 많이 활용된다. 온톨로지에는 다양한 정보가 구조화되어 저장되어 있지만 일반적으로 온톨로지가 제공하는 그래프 형태의 데이터들은 사용자들이 직관적으로 이해하기가 힘들다. 따라서 본 논문에서는 온톨로지의 정보를 문장화하여 한국어 문서를 생성하는 시스템을 제안한다. 제안하는 시스템은 주제와 관련된 트리플을 추출하고 이를 문장정렬, 결합, 생성을 위한 정보가 담긴 템플릿을 생성한 뒤 한국어 문법에 맞게 문장을 생성한다. 또한 기존 연구에서 다루지 않았던 이벤트 온톨로지의 내용을 포함하여 문장을 생성한다. 두 온톨로지로부터 생성된 문장을 연결하여 주제어를 설명하는 하나의 문서를 작성한다.

  • PDF

온톨로지 기반의 문서 생성 시스템 (A Document Generation System Based on an Ontology)

  • 류재현;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-316
    • /
    • 2016
  • 온톨로지란 사물이나 개념의 속성이나 관계를 사람과 컴퓨터 모두 이해할 수 있는 형태로 표현한 모델로 정보검색, 인공지능, 소프트웨어 공학 등의 분야에서 많이 활용된다. 온톨로지에는 다양한 정보가 구조화되어 저장되어 있지만 일반적으로 온톨로지가 제공하는 그래프 형태의 데이터들은 사용자들이 직관적으로 이해하기가 힘들다. 따라서 본 논문에서는 온톨로지의 정보를 문장화하여 한국어 문서를 생성하는 시스템을 제안한다. 제안하는 시스템은 주제와 관련된 트리플을 추출하고 이를 문장정렬, 결합, 생성을 위한 정보가 담긴 템플릿을 생성한 뒤 한국어 문법에 맞게 문장을 생성한다. 또한 기존 연구에서 다루지 않았던 이벤트 온톨로지의 내용을 포함하여 문장을 생성한다. 두 온톨로지로부터 생성된 문장을 연결하여 주제어를 설명하는 하나의 문서를 작성한다.

  • PDF

뉴스 클러스터링 개선을 위한 문서 임베딩 및 이미지 분석 자질의 활용 (Document Embedding and Image Content Analysis for Improving News Clustering System)

  • 김시연;김상범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.104-108
    • /
    • 2015
  • 많은 양의 뉴스가 생성됨에 따라 이를 효과적으로 정리하는 기법이 최근 활발히 연구되어왔다. 그 중 뉴스클러스터링은 두 뉴스가 동일사건을 다루는지를 판정하는 분류기의 성능에 의존적인데, 대부분의 경우 BoW(Bag-of-Words)기반 벡터유사도를 사용하고 있다. 본 논문에서는 BoW기반의 벡터유사도 뿐 아니라 두 문서에 포함된 사진들의 유사성 및 주제의 관련성을 측정, 이를 분류기의 자질로 추가하여 두 뉴스가 동일사건을 다루는지 판정하는 분류기의 성능을 개선하는 방법을 제안한다. 사진들의 유사성 및 주제의 관련성은 최근 각광을 받는 딥러닝기반 CNN과 신경망기반 문서임베딩을 통해 측정하였다. 실험결과 기존의 BoW기반 벡터유사도에 의한 분류기의 성능에 비해 제안하는 두 자질을 사용하였을 경우 3.4%의 성능 향상을 보여주었다.

  • PDF

이용자 질의 기반 단락추출에 관한 연구 (A Study on Extracting Passage by Users' Query)

  • 최상희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.5-10
    • /
    • 2004
  • 단락은 문서의 세부 주제를 담고 있는 중요한 단위이다. 이 연구에서는 이용자 다양한 질의에 맞추어 동적으로 주제단락을 추출하여 이용자가 찾고자 하는 정보를 제공하는 방안을 고찰하였다. 추출된 단락의 질의응답성능을 분석, 평가한 결과 복수문서 환경에서 순차적 단락확장 기법으로 추출된 단락이 이용자 질의에 가장 적합한 정보를 추출하는 것으로 나타났다.

  • PDF

단어 분별도에 기반한 뉴스 검색 문서 요약 (Search Resulted News Summarization using Word Discriminability)

  • 이상건;이혜민;김기령;서덕호;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.175-178
    • /
    • 2014
  • 다양한 언론사로부터 기사를 제공받아 서비스하는 인터넷 포털의 뉴스에서는 수많은 중복 기사가 실시간으로 등록된다. 이로 인하여 인터넷 포털에서 관심 있는 주제의 기사를 검색하여 찾아보려는 경우 검색키워드를 포함한 기사의 수가 지나치게 많아 원하는 정보를 적절하게 얻기 어렵다. 본 논문에서는 이러한 문제점을 해결하기 위해서 검색 기사 중 유사한 문서를 군집화하고 군집에 대한 다중문서요약을 사용자에게 제시하여 검색된 기사를 효율적으로 활용할 수 있는 방법을 제시한다. 다중문서 요약에서는 뉴스 기사에 적합한 단어 가중치인 분별도(discriminability)를 제안하여 사용하여 군집화된 기사로부터 유사 문장을 군집한다. 시스템에서는 군집된 기사의 대표 문장 군집에서 대표 문장, 즉 키워드에 대한 주제별 기사의 요약문을 결과로 제시하여, 효율적인 뉴스 검색을 지원한다.

  • PDF

단일문서와 복수문서 자동요약의 특성에 따른 기능 분석 (Analysis on Automatic Summarization Functions of the Single Document and the Multi Documents)

  • 최상희
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2003년도 제10회 학술대회 논문집
    • /
    • pp.303-312
    • /
    • 2003
  • 요약은 원문의 주제를 파악하여 원문의 축약판을 만들어 이용자에게 제공하는 중요한 정보 생산 과정이다. 최근 이용자에게 제공되는 정보량이 급증하면서 자동 요약에 대한 필요성이 더욱 증가하고 있으며 단일문서의 내용을 파악하는 도구로써 활용되던 요약이 문서집합의 내용을 파악하는 도구 및 새로운 정보생성 수단으로 그 기능을 넓혀가고 있다. 본 논고에서는 자동요약의 기본 개념과 요약대상의 문서 수에 따른 요약 특성 및 기능을 고찰하였다.

  • PDF

특허 및 기술정보의 연계 검색에 관한 연구 (A Study on a Related IR Method in Patent & Technical Documents)

  • 강윤희;궁상환
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.180-183
    • /
    • 2001
  • 최근 정보통신을 비롯한 다양한 분야에서 새로운 기술과 아이디어를 이용한 기술개발이 활발하게 이루어짐에 따라 창의적 연구결과에 따른 특허 출원도 급격히 증가하고 있다. 본 논문에서는 사용자의 특허검색 과정에서 특허와 관련된 기술문서를 동시에 검색이 용이하도록 지원하는 방식을 개발하는 것을 목적으로 한다. 특허 및 기술점보 연계 시스템은 신규 특허 문서에 대한 분류를 위해 주제별 주요용어를 추출하고 특허 문서와 유사한 기술 문서를 코사인 유사도 기법을 사용하여 유사도에 따라 기술 문서를 사용자에게 제공할 수 있도록 설계하였다.

의견 문서의 단어 통계 분석을 통한 의견 검색 특성에 관한 연구 (A Study on the Characteristics of Opinion Retrieval Using Term Statistical Analysis in Opinion Documents)

  • 한경수
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권11호
    • /
    • pp.21-29
    • /
    • 2010
  • 문서에 표출된 사용자의 의견을 검색하는 의견 검색의 성능이 일반 사실을 검색하는 기존 주제 검색의 성능을 크게 향상시키지 못하고 있다. 이에 본 연구는 블로그를 대상으로 의견 문서와 비의견 문서의 단어 통계를 비교 분석함으로써 의견 검색에 활용할 수 있는 통계적 특성을 파악하고자 한다. TREC의 블로그 트랙에서 사용했던 Blogs06 컬렉션과 150개의 TREC 토픽을 실험 데이터로 사용하였다. JS divergence를 이용하여 의견 문서에서의 단어 확률 분포 간의 상이성을 비교 분석하였으며, TREC 토픽의 유형 및 주제 영역별로 의견 문서를 구분하여 확률 분포의 차이점을 살펴보았고, 의견 단어별 확률을 비교 분석하였다. 실험을 통해 토픽별 특성을 고려한 의견 탐지 방법의 필요성, 토픽별 긍/부정 의견 단어 추출의 효과성, 유형과 주제 영역의 상호 보완적인 특징, 긍정 의견 단어 사용의 유의점 등을 알아내었다.

베이지안 분류기를 이용한 문서 필터링 (A Study on Document Filtering Using Naive Bayesian Classifier)

  • 임수연;손기준
    • 한국콘텐츠학회논문지
    • /
    • 제5권3호
    • /
    • pp.227-235
    • /
    • 2005
  • 문서 필터링은 어떤 문서가 특정한 주제에 속하는지의 여부를 판별하는 문제이다. 인터넷과 웹이 널리 퍼지고 이메일로 전송되는 문서의 양이 폭발적으로 증가함에 따라 문서 여과의 중요성도 증가하고 있는 추세이다. 본 논문은 문서 필터링 문제를 이진 문서 분류 문제로 보고, 베이지안 분류기를 필터링 목적으로 사용하였다. 그리고 사용자가 관련성 있는 문서를 제대로 필터링 받기 위해서 학습 대상으로 삼아야 할 문서의 범위나 수, 최소한 체크해야 하는 관련성 있는 문서의 수에 대한 값을 구하는 실험을 수행하였다.

  • PDF