• 제목/요약/키워드: Document information retrieval

검색결과 410건 처리시간 0.024초

검색의도 파악을 위한 질의어 관계유형에 관한 사례연구 (A Case Study on the Types of Queries' Relations for Recognizing User intention)

  • 권순진;김원일;유성준
    • 한국지능시스템학회논문지
    • /
    • 제21권4호
    • /
    • pp.414-422
    • /
    • 2011
  • 본 연구는 정보 검색(Information Retrieval)과정에 있어 검색 기술의 적합성을 향상하기 위하여, 질의어 사이의 유용한 관계를 드러내도록 사례를 분석하고, 질의자의 의도를 파악할 수 있게끔 구체화하도록 연구한 것이다. 이를 위하여 먼저, 질의어가 가지는 어휘 의미적 연구 분야와 존재론적 연구 분야의 관련 연구들을 분석하였으며, 국내.외의 어휘 의미론적 네트워크 사례와 정보 검색 기술이 적용된 사이트의 실제 데이터를 분석하여 관계 유형을 추출하고 분석하였다. 다음으로는 일반적으로 검색자가 직면하는 검색 상황에서 자주 발생하는 문제를 중심으로 문제점을 정의하여 해결 방안을 모색하였다. 현행 검색 기술에서 색인어와 질의어를 단순 비교하여 결과를 쏟아주는 검색은 사용자를 혼란하게 하기 때문에 개선이 필요하고, 질의자의 의도에 맞는 질의 결과를 줄 수 있도록 지능적 검색으로 개선할 필요가 있다. 문제점 해결 방안에 있어서는, 두 질의어 사이의 관계를 드러냄으로써, 검색자의 의도를 인식하고 식별 및 처리할 수 있는 방안이 필요하였다. 질의어들에 관한 실제 사례를 분석하고 관계 유형을 9가지로 분류함으로써, 관계 유형을 디자인하는 방법을 적시하였으며, 관계 유형의 명칭 부여와 관계 역할의 명칭을 부여할 수 있는 방법과 제한점도 예시하였다.

경로정보의 중복을 제거한 XML 문서의 저장 및 질의처리 기법 (Storage and Retrieval of XML Documents Without Redundant Path Information)

  • 이혜자;정병수;김대호;이영구
    • 정보처리학회논문지D
    • /
    • 제12D권5호
    • /
    • pp.663-672
    • /
    • 2005
  • 본 논문에서는 대용량 XML 문서를 저장하고 그로부터 원하는 정보를 효율적으로 찾기 위한 방법으로, 경로정보의 중복을 제거하면서 역 인덱스를 함께 이용한 방법을 제안한다. XML 문서는 트리구조에 기반한 노드로 분해되어, 노드 타입에 따라, 루트에서 각 노드까지의 경로정보와 함께 관계형 테이블에 저장된다. 경로정보를 이용한 기존의 U 질의 기법들에서는 모든 엘리먼트 노드들에 대해 경로정보를 저장함에 따라 정보의 양이 증가하여 질의 처리의 성능을 저하시키는 요인이 되고 있다. 제안 방법에서는 경로정보 중 가장 긴 단말 엘리먼트 노드까지의 경로인 단말 엘리먼트 경로(leaf element path)만 저장하고 내부 엘리먼트 노드까지의 경로인 내부 엘리먼트 경로들(internal element paths)은 저장하지 않는다. 단말 엘리먼트 경로만을 대상으로 하여 역 인덱스를 구성함에 따라, 기존의 역 인덱스 이용 기법에 비해 키워드별 포스팅 리스트(posting lists)의 수를 줄이게 된다. 제안 방법에서는 U 문서의 저장과 질의를 위하여 XML 문서에 대한 스키마 정보가 없어도 되며, 관계형 데이터베이스의 어떤 확장도 요구하지 않는다. 실험을 통해 제안 방법은 실험 범위 내에서 기존 기법들에 비해 좋은 성능을 보인다.

그린 환경을 위한 웹기반 대용량 이미지 콘텐츠 검색 시스템 설계 및 구현 (Design and Implementation of Web-based Retrieval System for Massive Image Contents in Green Computing Environment)

  • 나문성;이재동
    • 한국산업정보학회논문지
    • /
    • 제14권5호
    • /
    • pp.113-123
    • /
    • 2009
  • 환경에 대한 문제가 대두됨에 따라, 에너지와 자원의 소비를 억제하고 탄소 배출을 줄이기 위한 노력들이 진행되고 있다. 그 중 다양한 형태의 문서들을 디지털로 변환하여 컴퓨터상에 파일로 보관하고, 이를 전자 문서 또는 전자 이미지 형태로 제공하여 에너지와 자원을 줄이기 위한 노력들이 진행되고 있다. 하지만, 디지털화 된 이미지 데이터들은 인터넷상에 표준화되지 못한 채 산재해 있어 이를 활용하기 위해서는 많은 시간과 노력이 필요하게 된다. 이에 따라 전력 소비 및 자원의 소비가 다시 증가하게 된다. 본 논문에서는 인터넷 상에 존재하는 디지털화된 이미지 데이터의 효율적인 관리와 제공을 통해 에너지와 자원의 소비를 줄이기 위한 시스템을 설계하고 구현한다. 웹상에 존재하는 대용량의 이미지 콘텐츠들을 보다 정확하게 분류하고 사용자가 원하는 이미지 콘텐츠를 정확하고 빠르게 제공해 줌으로써 이미지 데이터에 대한 에너지와 자원의 소비를 줄일 수 있다.

색인어 가중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석 (Latent Semantic Indexing Analysis of K-Means Document Clustering for Changing Index Terms Weighting)

  • 오형진;고지현;안동언;박순철
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.735-742
    • /
    • 2003
  • 정보검색 시스템에서 문서 클러스터링 기술은 사용자 질의에 대해 검색된 문서들을 문서간의 유사도를 기반으로 특정 주제에 따라 재배치하여 놓는 기술로써 사용자에게 검색의 편의성을 제공하고, 그 결과들을 시각적으로 보여줄 수 있다. 본 논문에서는 K-Means 알고리즘을 사용하여 문서를 클러스터링하며 문서를 대표하는 색인어에 가중치를 부여하는 기법에 대하여 논한다. 클러스터링 결과를 시각적으로 보여주기 위하여 문서와 클러스터 중심들을 2차원 공간으로 사상하기 위한 Latent Semantic Indexing 접근 방법을 적용하였다. 실험 결과 문서의 색인어에 대한 가중치 부여 방법을 동일하게 하거나 또는 유사한 수식을 적용한 사례보다는 로컬가중치, 글로벌가중치, 정규화 요소를 모두 부여한 사례에서 문서들이 2차원 벡터 공간에서 군집하여 분포하는 클러스터링 효과가 우수하였다. 특히 로컬 가중치와 글로벌 가중치에 logarithm을 적용하였을 때 문서 분포의 군집도는 현저하게 나타남을 알 수 있었다.

Chatbot Design Method Using Hybrid Word Vector Expression Model Based on Real Telemarketing Data

  • Zhang, Jie;Zhang, Jianing;Ma, Shuhao;Yang, Jie;Gui, Guan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권4호
    • /
    • pp.1400-1418
    • /
    • 2020
  • In the development of commercial promotion, chatbot is known as one of significant skill by application of natural language processing (NLP). Conventional design methods are using bag-of-words model (BOW) alone based on Google database and other online corpus. For one thing, in the bag-of-words model, the vectors are Irrelevant to one another. Even though this method is friendly to discrete features, it is not conducive to the machine to understand continuous statements due to the loss of the connection between words in the encoded word vector. For other thing, existing methods are used to test in state-of-the-art online corpus but it is hard to apply in real applications such as telemarketing data. In this paper, we propose an improved chatbot design way using hybrid bag-of-words model and skip-gram model based on the real telemarketing data. Specifically, we first collect the real data in the telemarketing field and perform data cleaning and data classification on the constructed corpus. Second, the word representation is adopted hybrid bag-of-words model and skip-gram model. The skip-gram model maps synonyms in the vicinity of vector space. The correlation between words is expressed, so the amount of information contained in the word vector is increased, making up for the shortcomings caused by using bag-of-words model alone. Third, we use the term frequency-inverse document frequency (TF-IDF) weighting method to improve the weight of key words, then output the final word expression. At last, the answer is produced using hybrid retrieval model and generate model. The retrieval model can accurately answer questions in the field. The generate model can supplement the question of answering the open domain, in which the answer to the final reply is completed by long-short term memory (LSTM) training and prediction. Experimental results show which the hybrid word vector expression model can improve the accuracy of the response and the whole system can communicate with humans.

질의응답시스템에서 정답 특징에 관한 실험적 분석 (Experimental Analysis of Correct Answer Characteristics in Question Answering Systems)

  • 한경수
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권5호
    • /
    • pp.927-933
    • /
    • 2018
  • 자연어 질문에 대해 답변을 찾아 제공하는 질의응답시스템의 오류에 가장 큰 영향을 미치는 요소 중 하나가 질문으로 정답을 포함하고 있을 만한 문서나 단락을 검색하는 단계이다. 검색의 성능 향상을 위해서는 정답 포함 문서 및 단락의 특징을 잘 이해해야 한다. 본 논문은 질문, 정답 포함 문서, 정답 미포함 문서로 구성된 말뭉치를 사용하여 정답 문서에는 질문 단어가 얼마나 많이 출현하는지, 출현 위치는 어떻게 분포하는지, 질문과 정답 문서의 주제는 얼마나 유사한지 등을 실험적으로 분석한다. 이를 통해 질의응답시스템을 위한 기존의 검색 연구 결과들에 대한 원인을 설명하고 효과적인 검색 단계의 필요 요소에 관해 논의한다.

SRR을 이용한 분산 도메인 문서 객체 관리 (A Distributed Domain Document Object Management using Semantic Reference Relationship)

  • 이종득
    • 디지털융복합연구
    • /
    • 제10권5호
    • /
    • pp.267-273
    • /
    • 2012
  • 시맨틱 관계성은 포맷되지 않은 많은 문서 객체들을 계층적으로 구조화한다. 그러나 분산 응용도메인에서 관련 데이터를 추출하여 구조화하기란 쉽지 않는 일이다. 이러한 문제를 해결하기 위하여 본 논문에서는 분산된 응용 도메인 객체들을 서비스할 수 있도록 시멘틱 참조 관련성을 이용한 새로운 객체 관리 기법을 제안하였다. 제안된 기법은 응용 도메인 객체들로부터 시멘틱 유사성을 추출하기 위하여 프로파일 구조를 이용하였으며, 추출된 객체들의 시멘틱 관계성을 결정하기 위하여 joint matrix를 이용하였다. 제안된 기법의 성능을 알아보기 위하여 시뮬레이션을 수행하였으며, 시뮬레이션 결과 제안된 기법이 기존의 텍스트 마이닝 기법과 정보추출기법에 비해서 검색 성능이 우수함을 알게 되었다.

PVR 시스템에서 효율적인 검색을 위한 XML 메타데이터 엔진설계 (A XML-based Metadata Engine Design for Effective Retrieval in PVR System)

  • 신은영;박성한
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.574-576
    • /
    • 2004
  • 디지털 방송과 함께 저장매체를 갖는 PVR과 셋탑박스가 출현하였지만 방대한 컨텐츠에 대한 선택의 어려움이 발생하였다. 이러한 문제를 해결하기 위해서 PVR에서는 TV-Anytime과 MPEG-7 표준을 기반으로 멀티미디어 데이터에 대한 메타데이터를 제공한다. 이 메타데이터는 멀티미디어 데이터를 표현하는 특징적인 정보를 포함하고 있어, 컨텐츠에 대한 선택과 검색을 돕는다. 그러나 메타데이터는 그 내용이 방대한 XML document로 구성되어 있어, 효율적이고 빠른 검색이 쉽지 않다. 본 논문은 이러한 XML 메타데이터의 특성을 기반으로 효율적인 검색을 위한 XML 메타데이터 엔진을 설계한다. 제안하는 XML 메타데이터 엔진은 메타데이터의 정보적 특성을 기반으로 인덱싱 구조를 설계하여 XML 메타데이터의 접근 시간을 최소화한다.

  • PDF

문서 클러스터링에 의한 효율적인 병렬 정보검색 시스템 (An Efficient Parallel Information Retrieval System using Document Clustering)

  • 강유경;류광렬;정상화
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권2호
    • /
    • pp.157-167
    • /
    • 2001
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으면서 가격대 성능비가 우수한 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 문서 라이브러리를 여러 개의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당함으로써 작업 단위를 적절한 규모로 하였을 뿐만 아니라, 문서의 점수 계산 시 프로세서 간 통신이 전혀 필요치 않게 하였다. 검색은 1차로 클러스터 레벨에서 관련 클러스터들을 찾는 것으로 시작하여 2차로 관련 클러스터 내에서 실제 문서를 찾는 방식으로 이루어진다. 이러한 계층적인 검색 구조로 인하여 1차 검색 후 여과가 가능하므로 전체적인 검색의 부하를 줄일 수 있다. 또한 문서의 클러스터가 가능한 한 유사한 문서군이 되도록 함으로써 불필요한 클러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 다중 트랜스퓨터 시스템에서 구현되었으며, 실험 결과 무작위적으로 클러스터링한 경우에 비해 유사 문서군으로 클러스터링한 접근 방법이 우수함을 확인하였다.

  • PDF

Selection of Cluster Topic Words in Hierarchical Clustering using K-Means Algorithm

  • Lee Shin Won;Yi Sang Seon;An Dong Un;Chung Sung Jong
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2004년도 학술대회지
    • /
    • pp.885-889
    • /
    • 2004
  • Fast and high-quality document clustering algorithms play an important role in providing data exploration by organizing large amounts of information into a small number of meaningful clusters. Hierarchical clustering improves the performance of retrieval and makes that users can understand easily. For outperforming of clustering, we implemented hierarchical structure with variety and readability, by careful selection of cluster topic words and deciding the number of clusters dynamically. It is important to select topic words because hierarchical clustering structure is summarizes result of searching. We made choice of noun word as a cluster topic word. The quality of topic words is increased $33\%$ as follows. As the topic word of each cluster, the only noun word is extracted for the top-level cluster and the used topic words for the children clusters were not reused.

  • PDF