• 제목/요약/키워드: Document Retrieval

검색결과 448건 처리시간 0.025초

효율적인 XML검색을 위한 상대 위치 좌표 기반의 BitmapInvert Index 기법 (An Efficient BitmapInvert Index based on Relative Position Coordinate for Retrieval of XML documents)

  • 김택곤;김우생
    • 전자공학회논문지CI
    • /
    • 제43권1호
    • /
    • pp.35-44
    • /
    • 2006
  • 최근 XML 문서의 저장 및 관리에 대한 연구가 활발히 이루어지고 있다. XML 문서를 위한 현재까지 연구된 대부분의 색인기법의 경우 절대좌표를 이용하여 표현하는 방법을 사용하므로 갱신연산이 커다란 부담으로 받아들여지고 있다. 본 논문에서는 이를 개선하기 위하여 상대위치좌표에 기반한 BitmapInvert 색인 기법을 제안하였다. 상대위치좌표는 부모 노드와 좌, 우 형제 노드들 간의 관계만을 표현하므로 갱신연산지 자주 발생하더라도 좋은 성능을 보인다. BitmapInvert 색인 기법은 bitwise 연산을 지원하는 텍스트 검색을 지원하고, PostUpdate 알고리즘을 적용하여 갱신에 따른 성능 저하를 줄이도록 하였다. 따라서, 제안하는 기법은 검색이나 갱신에 대해서 접근하는 노드를 줄임으로써 전체적인 성능을 향상시킬 수 있다.

도메인 질의응답 시스템 (Domain Question Answering System)

  • 윤승현;임은희;김덕호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권2호
    • /
    • pp.144-147
    • /
    • 2015
  • Question Answering (QA) 서비스는 사용자의 자연어 질의에 대응하는 정확한 답변을 제공하는 시스템이다. 본 연구는 특정 도메인에 관련한 사용자들의 질문에 대해 QA 서비스가 자동으로 대응하는 방법에 관한 연구이다. 이를 수행하기 위하여 사용자의 자연어 질문을 이해하고, 정형 데이터 및 비정형 데이터로부터 사용자 질문에 적합한 답변을 도출하여 제공하는 방법을 제시한다. 실험 결과 top 1 accuracy 68%, top 5 accuracy 77% 결과를 얻었다. 또한 본 논문은 QA 시스템 내부 모듈이 전체 accuracy에 미치는 영향에 대해서도 기술하였다.

FRAD 개념 모형 기반의 학술논문 전거데이터 구조에 관한 연구 (A Study on the based on FRAD Conceptual Model based Authority Data Scheme for Academic Papers)

  • 이석형;곽승진
    • 한국문헌정보학회지
    • /
    • 제45권3호
    • /
    • pp.235-257
    • /
    • 2011
  • 본 연구의 목적은 국내 학술논문에 나타나는 저자명, 단체명, 학술지명 전거데이터 구조를 FRAD 개념 모형을 적용하여 설계하는데 있다. 학술정보에는 정보의 접근점이 되는 저자, 소속기관, 발행기관, 학술지 및 회의명과 같은 개체를 포함하고 있을 뿐만 아니라 이들 개체들간 여러 관계들이 존재하고 있다. FRAD 개념 모형에 따른 학술정보 전거데이터의 표현을 통해 학술정보의 체계적인 관리 및 정확한 정보 검색, 그리고 다양한 형태의 지식 표현이 가능할 것으로 판단된다. 본 연구에서 설계된 개체-관계형 학술정보 전거데이터는 학술문서와 연계되며, 개체 식별을 위한 여러 속성 정보 및 관계 정보를 포함한다.

SDI System의 사적연구(史的硏究)(1) (The Historical Study of SDI System)

  • 김종회
    • 정보관리학회지
    • /
    • 제1권1호
    • /
    • pp.146-161
    • /
    • 1984
  • 오늘날 정보검색(情報檢索)시스팀의 대표적(代表的)인 한 유형(類型)으로서 널리 보급(普及)되어 운영(運營)되고 있는 SDI(Selective Dissemination of Information)시스팀에 관(關)하여 기술(記述)하였다. 이것은 컴퓨터기술(技術)의 정보검색(情報檢索)에의 응용(應用)으로서 이용자(利用者)의 요구(要求) 주제(主題) 부합(符合)되는 문헌(文獻)을 검색(檢索)하기 위하여 색인어(索引語)와 일치(一致)(match)되는 문헌(文獻)을 탐색(探索)하는데 이용(利用)되는 시스팀을 설명(說明)하기 위해 자주 쓰여지는 용어(用語)이다. SDI시스팀을 개발(開發)한 "Luhn"이 최초(最初)로 그 개념(槪念)을 발표(發表)한 이래(以來) 지금까지 개발(開發)되어온 각종(各種)의 SDI시스팀들을 조사(調査) 비교(比較)하고, 이 시스팀들의 발전단계(發展段階), 구성(構成) 및 특성(特性)과 시스팀설계(設計)에 관(關)한 제문제점등(諸問提點等)에 대(對)해서도 분석(分析) 조사(調査)하였다.

  • PDF

Speaker Tracking Using Eigendecomposition and an Index Tree of Reference Models

  • Moattar, Mohammad Hossein;Homayounpour, Mohammad Mehdi
    • ETRI Journal
    • /
    • 제33권5호
    • /
    • pp.741-751
    • /
    • 2011
  • This paper focuses on online speaker tracking for telephone conversations and broadcast news. Since the online applicability imposes some limitations on the tracking strategy, such as data insufficiency, a reliable approach should be applied to compensate for this shortage. In this framework, a set of reference speaker models are used as side information to facilitate online tracking. To improve the indexing accuracy, adaptation approaches in eigenvoice decomposition space are proposed in this paper. We believe that the eigenvoice adaptation techniques would help to embed the speaker space in the models and hence enrich the generality of the selected speaker models. Also, an index structure of the reference models is proposed to speed up the search in the model space. The proposed framework is evaluated on 2002 Rich Transcription Broadcast News and Conversational Telephone Speech corpus as well as a synthetic dataset. The indexing errors of the proposed framework on telephone conversations, broadcast news, and synthetic dataset are 8.77%, 9.36%, and 12.4%, respectively. Using the index tree structure approach, the run time of the proposed framework is improved by 22%.

교량 구조계산서 XML 문서변환 및 3차원 모델에서의 문서정보 검색 (XML Translation of Structural Calculation Document and Information Retrieval in 3-D View of Bridge Information Model)

  • 김봉근;박상일;김세진;엄인수;이상호
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2010년도 정기 학술대회
    • /
    • pp.375-378
    • /
    • 2010
  • 본 논문은 엔지니어링 문서정보를 준구조화된 XML 문서로 변환하고 이를 3차원 교량 모델과 연계하는 방법을 제시한다. 이를 위해 먼저 구조계산서의 세부 목차에 따른 문서구조를 추출하는 기법을 이용하여 3차원 교량모델을 구성하는 각 부재와 매핑되는 구조계산서 문서의 일부를 프로그램 상에서 자동으로 추출하기 위한 모듈을 개발하였다. 또한 3차원 교량모델의 정보를 운영하기 위해 IFC 기반의 교량정보모델을 개발하였다. 개발된 정보모델은 교량요소들의 논리적 구성체계를 공간적 요소, 물리적 요소 및 그룹 요소별로 표현할 수 있도록 지원한다. 이와 같이 개발된 기술을 이용하여 3차원 교량모델 뷰어에서 구조계산서의 정보를 검색하기 위한 시범 툴을 개발하였으며, 4개의 단위 교량으로 구성된 복합형식의 교량에 대한 3차원 모델을 구축하고 각 교량에 대한 구조계산서 또한 XML 문서로 변환하였다. 이와 같이 구축된 두 정보체계에서 사용자가 선택한 임의의 구성요소에 관한 세부 문서정보의 조회가 가능함을 보임으로써 제시된 방법의 적합성을 검증하였다.

  • PDF

색인어 말뭉치 처리를 기반으로 한 웹 정보검색 시스템의 설계 (Design of WWW IR System Based on Keyword Clustering Architecture)

  • 송점동;이정현;최준혁
    • 정보학연구
    • /
    • 제1권1호
    • /
    • pp.13-26
    • /
    • 1998
  • 대부분의 정보검색시스템들은 부적절한 색인어들에 의해 가끔 사용자의 의도에 맞지 않는 전혀 다른 검색 결과가 나타난다. 그것은 시스템이 색인어들을 검색하기 위해 그 의미가 아닌, 단지 용어로서만 고려하기 때문이다. 검색 정확도의 증진을 위해 색인어는 연관된 용어 사용 빈도와 역 빈도 사용으로 검색되고 동시 발생어는 원시 문서로부터 추출된다. 결과적으로 색인어는 계산된 상호 정보들을 사용함으로써 그들의 세맨틱에 의해 클러스팅된다. 이 논문은 재현율의 감소없이 클라이언트 사용자 모듈로부터 피드백에 따라 세분된 세맨틱 정보를 사용하여 부적절한 검색 결과를 거절함으로써 검색 효율을 높일 수 있도록 설계하였다.

  • PDF

인쇄 문서 영상의 단어 단위 속성 인식 (Recognition of Word-level Attributed in Machine-printed Document Images)

  • 곽희규;김수형
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권5호
    • /
    • pp.412-421
    • /
    • 2001
  • 본 논문은 문서 영상에 존재하는 개별 단어들에 대한 속성정보 추출 방법을 제안한다. 단어 단위의 속성 인식은 단어 영상 매칭의 정확도 및 속도 개선, OCR 시스템에서 인식률 향상, 문서의 재생산 등 다양한 응용 가치를 찾을 수 있으며, 메타정보(meta-information) 추출을 통해 영상 검색(image retrieval)이나 요약(summary) 생성 등에 활용할 수 있다. 제안하는 시스템에서 고려하는 단어 영상의 속성은 언어의 종류(한글, 영문), 스타일(볼드, 이탤릭, 보통, 밑줄), 문자 크기(10, 12, 14 포인트), 문자 개수 (한글: 2, 3, 4, 5, 영문: 4, 5, 6, 7, 8, 9, 10), 서체(명조, 고딕)의 다섯 가지 정보이다. 속성 인식을 위한 특징은, 언어 종류 인식에 2개, 스타일 인식에 3개, 문자 크기와 개수는 각각 1개, 한글 서체 인식은 1개, 영문 서체 인식은 2개를 사용한다. 분류기는 신경망, 2차형 판별함수(QDF), 선형 판별함수(LDF)를 계층적으로 구성한다. 다섯 가지 속성이 조합된 26,400개의 단어 영상을 사용한 실험을 통해, 제안된 방법이 소수의 특징만으로도 우수한 속성 인식 성능을 보임을 입증하였다.

  • PDF

바-코드 시스템을 이용한 창고관리의 자동화 (Automating Warehouse Management Using a Bar-Code System)

  • 이성열
    • 한국산업정보학회논문지
    • /
    • 제4권1호
    • /
    • pp.20-27
    • /
    • 1999
  • 본 연구에서는 비-코드를 이용한 창고관리 시스템의 자동화를 구현하였다. 개발된 시스템은 판매관리, 생산관리, 자재관리, 자료관리를 통합한 통합생산관리시스템에 연계되어 운영되도록 설계되었다. 이제 창고에서 입출고 활동이 발생될 때마다 그 처리는 5자리의 위치코드를 포함하는 13자리의 비-코드와 자재수량 입력에 의해 신속하고 정확하게 수행된다. 결론적으로 통합생산관리시스템과 연계된 자동창고관리시스템은 창고에서의 실제수량과 장부상의 수량를 자동적으로 일치시켜 주게 되었으며, 이것은 또한 실시간으로 자재수량의 파악을 가능하게 해 주었다.

  • PDF

Design and Implementation of Web Crawler utilizing Unstructured data

  • Tanvir, Ahmed Md.;Chung, Mokdong
    • 한국멀티미디어학회논문지
    • /
    • 제22권3호
    • /
    • pp.374-385
    • /
    • 2019
  • A Web Crawler is a program, which is commonly used by search engines to find the new brainchild on the internet. The use of crawlers has made the web easier for users. In this paper, we have used unstructured data by structuralization to collect data from the web pages. Our system is able to choose the word near our keyword in more than one document using unstructured way. Neighbor data were collected on the keyword through word2vec. The system goal is filtered at the data acquisition level and for a large taxonomy. The main problem in text taxonomy is how to improve the classification accuracy. In order to improve the accuracy, we propose a new weighting method of TF-IDF. In this paper, we modified TF-algorithm to calculate the accuracy of unstructured data. Finally, our system proposes a competent web pages search crawling algorithm, which is derived from TF-IDF and RL Web search algorithm to enhance the searching efficiency of the relevant information. In this paper, an attempt has been made to research and examine the work nature of crawlers and crawling algorithms in search engines for efficient information retrieval.