• 제목/요약/키워드: 검색기

검색결과 1,064건 처리시간 0.034초

XML 문서를 위한 구조정보 추출기의 설계 및 구현 (Design and Implementation of a Structure Information Extractor for XML Documents)

  • 민영수;강승헌;강형일;유재수;이하욱;최한석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.81-83
    • /
    • 1999
  • XML 문서의 구조검색을 위한 기존 구조정보 표현방법들은 특정 엘리먼트의 조상, 자손, 형제에 대한 구조검색을 효율적으로 지원하지 못한다. 본 논문에서는 XML 문서의 효율적인 관리와 구조검색을 위해 DTD(Document Type Definition)의 논리적 구조를 따르는 XML 문서의 구조정보 표현을 고안하고 구조정보 추출기를 설계하고 구현한다. 이를 통하여 특정 엘리먼트에 접근이 가능하도록 하고, 다양한 구조적 질의를 효과적으로 처리할 수 있도록 한다.

  • PDF

색인어 추출기 비교 및 분석 (Indexing System comparison and analysis)

  • 최임천;박순철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.429-432
    • /
    • 2007
  • 정보화 시대에 범람하는 정보들 중 원하는 정보를 빠르고 정확하게 검색할 수 있도록 도와주는 정보검색 시스템의 중요성이 대두 되고 있다. 정보 검색 시스템의 한 축을 담당하는 색인어 추출기는 보통 형태소 분석을 통하여 작성이 되지만 색인어 추출만을 위하여선 불필요한 작업들이 있는 것이 사실이다. 그래서 이 논문에서는 미리 정의된 색인어 리스트를 가진 사전을 이용한 색인어 추출 시스템을 제안하고 그에 맞는 데이터 구조들을 분석하여 성능 비교를 하였다.

다중 레벨 양자화 기법 기반의 음악 검색기 구현 (Music retrieval system implementation based on multi-level quantization scheme)

  • 송원식;박만수;김회린
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1182-1187
    • /
    • 2006
  • 본 논문은 필립스의 오디오 핑거프린트 추출 방식을 기반으로 기존의 방식이 주파수 영역을 너무 조밀하게 분석하는 특징을 지적하고 개선 방안으로 양자화를 통해 필터 뱅크의 에너지 변화율을 오디오 핑거프린트 추출시 반영하는 방법을 제안하였다. 또한 제안된 알고리즘을 사용하여 PDA 로 실제 어플리케이션을 구현하는 것을 목적으로 하고 있다. 제안된 방식은 필립스 방식과 동일한 메모리 크기를 유지하기 위하여 필터 뱅크의 개수를 33 개에서 17 개로 줄이고 필터 뱅크의 변화량을 2 비트로 할당하는 방식을 사용하였다. 변화량을 비트에 할당하기 위하여 음악 데이터 베이스로부터 추출된 각 밴드의 pmf를 통해 음악의 고유성을 최대로 증진 시킬 수 있는 임계치를 찾아내고 이것을 바탕으로 필터 뱅크의 변화량을 2 비트로 할당하였다. 이 같이 추출된 오디오 핑거프린트를 기반으로 PDA 와 음악 검색기 서버와의 통신을 이용하여 사용자가 요청한 쿼리 음악에 관련된 정보를 제공하는 시스템을 구현했다. 제안된 방식은 다양한 주변 잡음 환경에서 평가되어 기존의 필립스 방식 보다 성능 향상 물론 검색 속도 또한 개선되는 특징을 확인할 수 있었다.

  • PDF

웹 출판 프레임워크를 지원하는 XQL기반 XML 문서 검색 시스템 설계 및 구현 (A Design and Implementation of XML Document Retrieval System Based on XQL supporting Web Publishing Framework)

  • 문종환;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1095-1098
    • /
    • 2001
  • 정보의 구조적 표현 가능하고 인터넷을 기반으로 하는 정보교환의 매개체로써 다양한 응용분야에 확산되고 있는 XML(extensible Markup Language)은 차세대 인터넷 전자문서 표준으로 주목받고 있다. 최근들어 기존 문서를 XML로 변환하거나 신규 문서를 XML로 작성하는 사례가 늘면서 대량의 XML문서가 생성되고 있으며 이에 따라 대량의 XML 문서를 효율적으로 검색하기 위한 XML 검색 시스템이 요구되어지고 있다. 본 논문에서는 내용기반, 구조기반, 속성기반 검색을 지원하는 XML 문서의 질의언어로 제안되어진 XQL과 XML 문서를 분석하는 문서 구조 처리기, 사용자 입력 질의를 실행하기 위한 질의 언어 처리기를 가지는 XML 문서검거 시스템을 제시하고 검색된 문서의 견과를 웹 출판 프레임워크(Web Publishing Framework) 인 Cocoon을 적용하여 다른 포맷의 문서로 전환 가능한 시스템을 설계 및 구현하였다.

  • PDF

보조 자료와 음성 전사를 사용한 강의 검색 시스템 (A LECTURE SEARCH SYSTEM USING RELEVANT INFORMATION AND SPEECH TRANSCRIPTION)

  • 이동현;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.140-144
    • /
    • 2008
  • 음성 오디오 검색 시스템을 구축하기 위해서는 몇 가지 과정이 필요하다. 첫 번째 과정이 음성 인식기를 이용하여 음성 오디오를 텍스트 형태로 표현하는 것이다. 하지만, 음성 인식기에서 수반되는 음성 인식 오류를 피할 수는 없다. 음성 인식 오류를 최소화하기 위해서 음성 인식 출력의 lattice를 색인(index)해야 하는데, 보다 효과적인 처리를 위하여 압축된 형태를 사용한다. 본 연구에서는 특별히 한국어 강의를 대상으로 검색 시스템을 구축했다. 강의에서는 특별히 관련된 자료를 쉽게 구할 수 있는 데, 이런 자료를 언어 모델에 이용하여 음성 인식 성능을 향상 시킬 수 있다. 또한, 강의 자료를 이용한 추가 색인 테이블(index table)을 생성하여 검색 성능 향상에 도움을 준다. 실험에서 고등학교 과정 수학 강의 동영상을 이용하여 자동화된 강의 검색 시스템을 구축하고, 보조 자료를 이용해 성능을 향상 시키는 것을 보인다.

  • PDF

정보검색 성능 향상을 위한 단어 중의성 해소 모형에 관한 연구 (Improving the Retrieval Effectiveness by Incorporating Word Sense Disambiguation Process)

  • 정영미;이용구
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.125-145
    • /
    • 2005
  • 이 연구에서는 문헌 및 질의의 내용을 대표하는 주제어의 중의성 해소를 위해 대표적인 지도학습 모형인 나이브 베이즈 분류기와 비지도학습 모형인 EM 알고리즘을 각각 적용하여 검색 실험을 수행한 다음 주제어의 중의성 해소를 통해 검색 성능의 향상을 가져올 수 있는지를 평가하였다. 실험문헌 집단은 약 12만 건에 달하는 한국어 신문기사로 구성하였으며, 중의성 해소 대상 단어로는 한국어 동형이의어 9개를 선정하였다. 검색 실험에는 각 중의성 단어를 포함하는 18개의 질의를 사용하였다. 중의성 해소 실험 결과 나이브 베이즈 분류기는 최적의 조건에서 평균 $92\%$의 정확률을 보였으며, EM 알고리즘은 최적의 조건에서 평균 $67\%$ 수준의 클러스터링 성능을 보였다. 중의성 해소 알고리즘을 통합한 의미기반 검색에서는 나이브 베이즈 분류기 통합 검색이 약 $39.6\%$의 정확률을 보였고, EM 알고리즘 통합 검색이 약 $36\%$의 정확률을 보였다. 중의성 해소 모형을 적용하지 않은 베이스라인 검색의 정확률 $37\%$와 비교하면 나이브 베이즈 통합 검색은 약 $7.4\%$의 성능 향상률을 보인 반면 EM 알고리즘 통합 검색은 약 $3\%$의 성능 저하율을 보였다.

정보검색에서 질의 용어 확장/한정을 위한 자동 질의 용어 정련기의 설계 및 구현 (The Design and Implementation of Automatic Query Term Refiner for Term Expansion/Restriction in Information Retrieval)

  • 강현수;강현규;이용석;김영섬
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-72
    • /
    • 1998
  • 인터넷 정보 검색에서 이용자들이 주로 사용하는 질의는 2-3개의 용어로 이루어진 짧은 질의이다. 또만 동음이의어를 갖는 용어를 사용하기도 한다. 짧은 질의를 처리하는 일반적인 방법은 시소러스[8]나 Wordnet[1]을 이용한 질의 확장이다. 그러나 시소러스나 Wordnet과 같은 지식 베이스는 구축하기가 용이하지 않으며, 도메인 종속적인 면과 단어의 회귀(sparseness) 문제를 극복하기 어려운 단점이 있다. 또한 동음이의어 용어로 인하여 검색의 정확성이 털어지는 문제점이 있다. 한편, 사용자의 질의를 주의 깊게 살펴보면, 질의로부터 관련 용어 분류 정보를 추출할 수 있다. 본 논문은 사용자의 질의가 관련 용어 분류 정보에 의해 유기적으로 관계를 가지고 있다는 사실에 기인하여 관련 용어 분류 정보에 따라 자동으로 용어 확장 및 한정을 수행하며 적절한 용어 가중치를 부여하는 자동 질의 용어 정련기를 제안한다. 자동 질의 용어 정련기는 용어의 확장, 한정 및 가중치 부여를 통하여 사용자의 정보 검색 요구를 명확히 하여 검색의 정확성을 향상시킨다.

  • PDF

대용량 멀티미디어 데이터 저장 및 검색을 위한 데이터 관리 시스템 (Multimedia Data Management System for the Store arid Retrieval of Large-scale Data)

  • 복중효;김광종;이연식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.739-742
    • /
    • 2000
  • 본 논문에서는 객체지향 데이터베이스 시스템을 이용하여 대용량 멀티미디어 데이터를 저장 및 검색하는 멀티미디어 데이터 관리 시스템(Multimedia Data Management System : MDMS)을 설계 구현한다. 따라서, 사용자, 응용 및 데이터베이스 각 계층에 객체지향 설계 방법을 적용시켜 일관된 인터페이스와 다양한 응용 분야의 확장을 유도하고 기존의 파일 단위의 관리 방법과 데이터베이스 저장 관리 방법을 선택 또는 동시 이용 할 수 있도록 하여 관리자 요구 수용의 폭을 넓힌다. 또한, 질의에 대한 효율적인 검색을 위하여 질의 분석기, 객체 질의기, 객체 추출기와 데이터베이스 연산전, 후의 데이터 일관성 유지를 위한 객체 관리기를 구현한다. 향후에는 제안된 시스템을 기반으로 내용 기반 질의 처리 및 웹 연동 통합 관리 시스템의 개발이 요구된다.

  • PDF

음절에 기반한 한국어 형태소 분석기 (Syllable-Based Korean Morphological Analyzer)

  • 장동수;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.331-339
    • /
    • 1993
  • 본 논문에서는 한국어의 음절 특성을 이용한 한국어 형태소 분석기를 제시하였다. 이 형태소 분석기는 품사별 음절 정보, 불규칙 음절 정보, 활용어절 음절 정보, 선어말 어미 음절 정보 등을 이용하여 음절 단위로 형태소 분석을 한다. 음절 단위의 형태소 분석 방법은 음소 단위의 방법보다 형태소 분석시에 생성될 수 있는 잘못된 중간 분석 결과를 크게 감소시켜, 사전 탐색 부담을 최소화한다. 시스템의 사전은 품사별 결합 특성과 사전 표제어의 길이별 분포 특성을 이용하여 구성하였으며, 그 규모는 약 16만 어휘이다. 이러한 사전 구성은 효율적인 사전검색을 제공하며, 특히 철자 검색기와 자동 인덱싱 등의 다양한 응용 시스템 요구를 곧바로 수용할 수 있는 유연성과 효율성을 갖고 있다.

  • PDF

NTIS 시스템에서 딥러닝과 형태소 분석 기반의 대화형 검색 서비스 설계 및 구현 (Design and Implementation of Interactive Search Service based on Deep Learning and Morpheme Analysis in NTIS System)

  • 이종원;김태현;최광남
    • 융합정보논문지
    • /
    • 제10권12호
    • /
    • pp.9-14
    • /
    • 2020
  • 현재 NTIS(National Technology Information Service)는 인공지능 기술을 기반으로 대화형 검색 서비스를 구축하고 있다. 이용자의 검색 의도를 파악하고 과제정보를 제공하기 위해 딥러닝 모델과 형태소 분석기를 기반으로 대화형 검색 서비스를 구축한다. 딥러닝 모델은 NTIS와 대화형 검색 서비스를 활용할 때 적재되는 로그 데이터를 기반으로 학습을 진행하고 이용자의 검색 의도를 파악한다. 그리고 단계별 검색을 통해 과제정보를 제공한다. 검색 의도 파악은 예외처리를 용이하게 해주며 단계별 검색은 통합검색보다 쉽고 빠르게 원하는 정보를 얻을 수 있도록 한다. 향후연구로는 인공지능 기술이 접목된 성장형 대화형 검색 서비스로써 이용자에게 제공하는 정보의 범위를 확대해야 한다.