• 제목/요약/키워드: 질의어 패턴

검색결과 38건 처리시간 0.035초

한글 검색 질의어 오타 패턴 분석과 사용자 로그를 이용한 질의어 오타 교정 시스템 구축 (Analyzing of Hangul Search Query Spelling Error Patterns and Developing Query Spelling Correction System Based on User Logs)

  • 전희원;다니엘 흥;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-21
    • /
    • 2010
  • 본 논문은 검색 서비스 기능 중에 빼놓을 수 없는 기능인 한글 검색 질의어(query) 교정 시스템을 '야후!'에서 구축하며 분석한 한글 오타 패턴 그리고 사용자 로그를 기반으로 설계한 질의어 교정 서비스에 대한 설명을 하고 있다. 이 교정 서비스는 현재 '야후! 코리아'에 적용되어 있으며, 한글을 고려한 키스트 로크를 기반으로 한 설계 방식 그리고 동적으로 에러모델을 구축하는 방법을 소개하고 있으며 또한 구축된 모델의 성능을 다른 검색 서비스와 비교한 결과를 소개한다.

  • PDF

정보검색에서 사용자 검색 패턴을 이용한 질의 확장 (Query Expansion Using User Search Pattern in Information Retrieval)

  • 천우관;김영도;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 춘계학술발표논문집 (하)
    • /
    • pp.771-774
    • /
    • 2001
  • 정보검색에서 가장 많이 사용되는 불리언(Boolean)검색에서는 키워드 일치에 의해서만 검색하는 단점을 가지고 있다. 이를 보완하기 위해 다양한 정보원에서 추출한 관련 용어들을 원질의어에 첨가하여 검색의 효율을 높이기 위한 질의 확장 방법들이 모색되어 왔다. 본 논문에서는 질의 확장을 위하여 사용자가 검색에 사용하였던 질의어들의 연속성을 찾아내어 첨가할 용어를 선택하고 질의 확장을 하는 방법을 제시한다. 사용자가 입력한 질의어의 연속성을 찾아내는 방법으로는 데이터 마이닝 기법중 연관 규칙 탐사 방법을 이용한다. 실험은 현재 구축된 정보통신 기술기준 정도시스템에서 사용자들이 검색한 키워드 정보를 이용하였으며 사용자 검색 패턴(USP) 정보를 이용함으로써 사용자가 검색하고자 하는 질의어와 좀더 연관성 있는 용어로 확장하여 사용자 중심적 결과를 얻을 수 있다.

  • PDF

검색 편의성 향상을 위한 패턴 분석 기반 질의어 확장 (Pattern Analysis-Based Query Expansion for Enhancing Search Convenience)

  • 전서인;박건우;남광우;류근호
    • 한국산업정보학회논문지
    • /
    • 제17권2호
    • /
    • pp.65-72
    • /
    • 2012
  • 21세기 정보화시대에 정보자원의 양은 증대되고 있으며 필요한 정보를 손쉽게 취득하게 해주는 정보검색 시스템의 역할이 중요해지고 있다. 일반적으로 사용자가 원활한 검색을 하기 위해서는 검색하고자 하는 정보에 대한 충분한 사전 파악이 필요하며, 키워드를 식별하는 능력 또한 뛰어나야 한다. 하지만 대부분의 사용자들이 충분한 지식을 갖추고 검색을 수행하지 않으며 질의어에 적합한 효율적인 키워드를 연상하는데 많은 시간을 소비한다. 또한 여러 검색엔진에서 연관검색어 서비스를 제공하고 있지만 이는 검색어와 유사한 의미 내용이 대부분이며 사용자에게 맞는 확장/연관검색어를 제공하여 주지 못한다. 본 논문은 질의어 패턴 분석 기반의 사용자 확장 검색어 추출 및 추천을 통해 사용자의 검색 편의성을 제공하기 위한 시스템을 제안한다.

질의어 패턴 자동분석을 통한 커뮤니티 기반 개인화 검색 (Personalized Search based on Community through the Automatic Analysis of Query Pattern)

  • 박건우;정재학;이상훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (A)
    • /
    • pp.37-38
    • /
    • 2008
  • 기존의 웹 검색 엔진들은 사용자의 검색 의도를 충분히 반영하지 못하기 때문에 개인이 원하는 정보를 보다 정확하게 제공 할 수 없는 단점을 가지고 있다. 따라서 개인의 특성을 이해하고 검색에 반영함으로써 보다 정확한 개인화 검색 서비스를 제공하기 위한 많은 연구들이 진행되고 있다. 이러한 개인화된 검색 서비스를 통해, 사용자는 방대한 웹상의 정보를 보다 효율적으로 검색하여 자신에게 적합한 정보를 편리하게 획득 할 수 있으며 짧은 시간에 정확한 정보 획득을 보장 받을 수 있다. 본 논문에서는 개인의 질의어 패턴을 자동으로 분석하고 상위에 순위화 된 질의어 유형에 따라 주요 관심사 별 커뮤니티를 형성하여 검색에 반영함으로써 개인의 정보요구에 보다 큰 접한 개인화 검색 방안을 제안한다.

  • PDF

패턴 매칭과 통계 모델링을 이용한 대화 인터페이스 시스템의 구현 (Implementation of a Dialogue Interface System Using Pattern Matching and Statistical Modeling)

  • 김학수
    • 컴퓨터교육학회논문지
    • /
    • 제10권3호
    • /
    • pp.67-73
    • /
    • 2007
  • 본 논문에서는 대화 인터페이스 시스템을 구성하는 필수 요소들을 알아보고, 각각에 대한 실용적인 구현 방법을 제안한다. 구현 시스템은 담화 관리자, 의도 분석기, 개체명 인식기, SQL 질의어 생성기, 응답 생성기로 구성된다. 구현 과정에서 비교적 영역 의존성이 낮은 의도 분석 모듈은 통계 기반의 최대 엔트로피 모델을 이용한다. 그리고 높은 영역 이식성을 필요로 하는 개체명 인식기, SQL 질의어 생성기, 응답 생성기는 단순 패턴 매칭 방법을 이용한다. 일정 관리 영역에서의 실험에서 구현 시스템은 88.1%의 의도 분석 정확률과 83.4%의 SQL 질의어 생성 성공률을 보였다.

  • PDF

패턴정보에 의한 OQL 질의 처리 기법 (A Study on OQL Query Processing Techniques by Pattern Information)

  • 김효진;이준상
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 추계산학기술 심포지엄 및 학술대회 발표논문집
    • /
    • pp.224-229
    • /
    • 2001
  • 컴퓨터나 데이터베이스에 대한 지식이 없는 사용자들도 데이터베이스에 저장되어 있는 정보를 쉽게 얻을 수 있도록 도와줄 수 있도록 하는 것이 데이터베이스 시스템을 위한 자연어 인터페이스이다. 이 논문은 이 자연어 인터페이스를 고려한 차세대 데이타베이스, 객체 지향 데이타베이스를 바탕으로 질의어 처리를 OQL(Object Query Language)명령문으로 구축 기법을 연구하고자 한다. 여기서 질의어 처리는 한국어 인터페이스를 바탕으로 하며, 질의를 패턴별로 분해, 프레임 변환, 객체 지향 데이타베이스를 위한 OQL 명령문으로 구축한다. 질의의 효과적인 변환을 위해 프레임 기반 질의 분해 기법을 제안하였으며, 이 기법은 분해된 질의구 별로 변환과정을 수행하여, 질의 처리의 성능을 향상시킨다. 질의 프레임을 생성하기 위해 변환규칙을 사용하여 규칙 베이스를 구축하는 기법을 연구하였다.

검색엔진에서 일간질의 어분포의 정상성에 관한 연구 (On Regularity of Daily Distribution of Queries in Search Engine)

  • 박상규;이찬규;윤경현;김성희;이준호
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.255-265
    • /
    • 2007
  • 하루에도 수백만 건 이상의 방대한 질의어가 입력되는 검색엔진을 통해 인터넷 검색 패턴을 분석하는데 활용될 수 있는 질의어 분포의 정상성을, Pareto 분포와 Zipf 모형을 이용해 검토하였다. 실제2주일간의 일간 검색어 분포를 Pareto 모형으로 적합 시킨 결과, 그 기울기가 1.33에서 1.34 정도로 일관되게 측정되고 있어 Pareto 분포를 이용해 일간질의어 분포의 정상성을 평가할수 있음을 제시하였다. 이런 연구결과는 사회적 관심사와 그 변동 흐름을 해석하는데 보다 객관적이며, 효율적인 자료를 제공해 줄 수 있을 것이다.

지식기반 의미 메타 검색엔진 (Knowledge-based Semantic Meta-Search Engine)

  • 이인근;손세호;권순학
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.737-744
    • /
    • 2004
  • 웹으로부터 사용자가 원하는 정보에 잘 부응하는 정보를 추출하는 것은 검색엔진이 갖추어야 할 기본적 요소라 할 수 있다. 그러나 질의어와의 패턴 매칭 방식에 의존하는 기존의 대부분의 검색엔진은 질의어가 갖는 애매성으로 인하여 사용자의 요구에 부합하는 검색결과를 제공하기가 쉽지 않다는 단점을 지니고 있다. 이를 극복하기 위하여 본 논문에서는 다음과 같은 5가지 과정, 즉, (i) 질의어 형성, (ii) 질의어 확장, (iii) 검색, (iv) 순위 재생성 및 (v) 지식베이스로 구성되는 지식기반 의미 메타 검색엔진의 기본 구조를 제안한다 영어로 구현된 웹 문서에 대한 모의실험을 통하여 본 논문에서 제안된 지식기반 의미 메타 검색엔진이 기존의 검색엔진(구글)을 사용하여 얻은 결과보다 좋은 결과를 보임을 확인할 수 있었다.

시소러스 및 요약화일을 이용한 문서 검색시스템 (The development of a document retrieval system using thesaurus and signature file)

  • 정상철;신동욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.400-408
    • /
    • 1994
  • 본 논문에서는 요약화일을 이용하여 복합명사를 효율적으로 처리하며 시소러스를 이용하여 검색하는 한글문서 검색시스템을 제안한다. 본 한글문서 검색 시스템은 한글문서를 대상으로 색인하는 자동색인기와 사용자의 질의를 받아 관련된 문서를 검색하는 검색기로 구성된다. 자동색인기는 우선 한글문서를 대상으로 최장일치 방법으로 명사들을 출출한 후 복합명사의 패턴을 분석하여 복합명사의 가능성이 높은 것들을 복합명사화한다. 두번째로 이들 복합명사들을 1+2SP 방식으로 코딩한 후 요약화일 방법을 이용하여 요약화일을 작성한다. 검색기는 사용자 질의어를 받아 명사들을 추출한 후 시소러스를 이용하여 질의어를 확장한다. 다음 확장된 질의어를 1+2SP 방식으로 코딩한 후 관련된 문서를 검색한다. 본 논문에서는 한국통신에서 만든 코퍼스를 이용하여 제안된 방법의 성능을 평가하였는데 복합명사 처리 및 시소러스 이용방식이 효율적임이 입증되었다. 또한 KAIST에서 개발한 문서검색 시스템보다 동일한 코퍼스로 실험하였을 경우 재현률 및 정확률이 $7{\sim}8%$ 정도 앞서 기존의 시스템보다도 성능이 우수하다는 것이 밝혀졌다.

  • PDF

한국어 서술어 구조의 확률적 정보 (Probabilistic Evidences for Korean Predicate Structures)

  • 이승욱;한영석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.145-150
    • /
    • 2004
  • 본 논문에서는 질의 응답 시스템에서 정답 추출을 위해 사용되는 표층 텍스트 패턴을 장거리 의존 문제에도 적용 가능하도록 확장하는 방법을 제안한다. 기존의 패턴 추출 시스템들의 패턴을 구성하고 있는 단어들간의 연속성과 불연속성에 대한 정보를 나타내도록 패턴 형태를 확장함으로써 장거리 의존 문제를 해결한다. 본 논문에서 제안한 형태의 패턴을 TREC-10의 질의를 이용해서 웹 데이터로 실험하여 정확도와 TREC의 평가 기준인 MRR을 사용해서 기존 시스템들과 성능을 비교했다.

  • PDF