• 제목/요약/키워드: 단어 검색

검색결과 560건 처리시간 0.038초

한국어 정보 검색에서 의미적 용어 불일치 완화 방안 (Alleviating Semantic Term Mismatches in Korean Information Retrieval)

  • 윤보현;박성진;강현규
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3874-3884
    • /
    • 2000
  • 정보검색시스템은 색인어와 질의어가 정확히 일치하지 않더라도 사용자 질의에 적합한 문서를 검색할 수 있어야 한다. 그러나, 색인어와 질의어간의 용어 불일치는 검색성능의 개선에 심각한 장애요소로 작용해 왔다. 따라서, 본 논문에서는 문서 코퍼스의 단어들간에 자동 용어 정규화를 수행하고, 용어 정규화의 산물을 한국어 정보검색 시스템에 적용하는 방안을 제시한다. 용어 불일치를 완화하기 위해 두가지 용어 정규화, 동치부류와 공기단어 클러스터를 수행한다. 첫째, 음역어, 절차오류, 그리고 동의어를 위해 문맥 유사도를 이용하여 동치부류로 구축하는 작업이다. 둘째, 상호정보와 단어 문맥의 조합을 이용하여 단어 유사도를 계산하고 문맥 기반 용어를 정규화한다. 그런 다음, K-means 알고리즘을 이용하여 자율 클러스터링을 수행하고 공기단어 클러스터를 구축한다. 본 논문에서는 이러한 용어 정규화의 산물들을 용어 불일치를 완화하기 위해 질의어 확장과정에서 사용한다. 다시 말해서 동치부류와 공기단어 클러스터는 새로운 용어로 질의를 확장하는 자원으로서 사용된다. 이러한 질의확장으로 사용자는 질의어에 음역어를 추가하여 질의어를 포괄적으로 만들거나 특정어를 추가하여 질의어를 세밀하게 만들 수 있다. 질의어 확장을 위해 두 가지 상호보완적인 방법인 용어 제시와 용어 적합성 피드백을 이용한다. 실험 결과는 제안된 시스템이 의미적 용어 불일치를 완화할 수 있고, 적절한 유사도 값을 제공할 수 있음을 보여준다. 결과적으로 제안한 시스템이 정보 검색 시스템의 검색 효율을 향상시킬 수 있음을 알 수 있다.

  • PDF

중국어 정보검색을 위한 확장된 바이그램 분할기법 (An Extended Bigram Segmentation Method for Chinese Information Retrieval)

  • 김운;강지훈;맹성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.490-492
    • /
    • 2003
  • 중국어 문장은 영어와 한국어와 달리 단어에 대한 명확한 한계가 없기 때문에 중국어 정보검색 시스템에서는 중국어 문장에 대한 색인 작업을 각각의 글자를 기본단위로 자르는 방법을 사용하거나 또는 단어의 한계에 관한 정보가 이미 제공된 단어 사전을 이용하여 색인하는 방법을 사용하고 있다. 하지만 이 두 가지 방법은 모두 장단점이 있다. 본 논문에서는 이 두 가지 방법의 장점을 취하고 단점을 보안하는 방법으로 확장한 바이그램 분할기법을 제안하려 한다. 이 방법은 실용성이 있으며, 검색성능 향상을 도모하였다.

  • PDF

논문 검색 결과의 효과적인 브라우징을 위한 단어 군집화 기반의 결과 내 군집화 기법 (A Search-Result Clustering Method based on Word Clustering for Effective Browsing of the Paper Retrieval Results)

  • 배경만;황재원;고영중;김종훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권3호
    • /
    • pp.214-221
    • /
    • 2010
  • 검색 결과 내 군집화(search-result clustering)는 검색 엔진으로부터 검색된 결과 내에서 비슷한 문서를 자동으로 군집화하는 기법이다. 본 논문에서는 논문 검색 서비스에 전문화된 새로운 결과 내 군집화 기법을 제안한다. 제안하는 시스템은 '범주체계생성기(Category Hierarchy Generation System)'와 '논문군집기(Paper Clustering System)'로 구성되어있다. '범주체계생생기'는 KOSEF의 연구 범주 체계를 이용하여 분야 시소러스라 불리는 범주 체계를 생성하고, K-means 알고리즘을 이용한 단어 군집화 알고리즘을 사용하여 분야 시소러스의 키워드 집합을 확장한다. '논문군집기'는 top-down 방식과 bottom-up 방식을 이용하여 각 논문의 범주를 결정한다. 제안하는 시스템은 논문 검색 서비스와 같은 전문 분야에 대한 검색 서비스에 유용하게 사용될 수 있을 것이다.

특허 정보 검색을 위한 대체어 후보 추출 방법 (Extracting Alternative Word Candidates for Patent Information Search)

  • 백종범;김성민;이수원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권4호
    • /
    • pp.299-303
    • /
    • 2009
  • 특허 정보 검색은 연구 및 기술 개발에 앞서 선행연구의 존재 여부를 확인하기 위한 사전 조사 목적으로 주로 사용된다. 이러한 특히 정보 검색에서 원하는 정보를 얻지 못하는 원인은 다양하다. 그 중에서 본 연구는 키워드 불일치에 의한 정보 누락을 최소화하기 위한 대체어 후보 추출 방법을 제안한다. 본 연구에서 제안하는 대체어 후보 추출 방법은 문장 내에서 함께 쓰이는 단어들이 비슷한 두 단어는 서로 비슷한 의미를 지닐 것이다라는 직관적 가설을 전제로 한다. 이와 같은 가설을 만족하는 대체어를 추출하기 위해서 본 연구에서는 분류별 집중도, 신뢰도를 이용한 연관단어뭉치, 연관단어 뭉치간 코사인 유사도 및 순위 보정 기법을 제안한다. 본 연구에서 제안한 대체어 후보 추출 방법의 성능은 대체어 유형별로 작성된 평가지표를 이용하여 재현율을 측정함으로써 평가하였으며, 제안 방법이 문서 벡터공간 모델의 성능보다 더 우수한 것으로 나타났다.

웹과 GIS를 통합한 ″Kyonggi21Search″ 구현 : 색인어간 연관도 생성 및 최적화 (Implementation of ″Kyonggi21Search″ combining GIS with The Web : Optimization of Index Association)

  • 장정훈;이룡;상임미언;권용진
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.79-81
    • /
    • 2003
  • Kyonggi21Search시스템은 GIS와 웹을 통합한 지역정보 검색 시스템이다. 웹과 GIS를 연동하여 지리정보를 검색하기 위해 웹 문서에서 지역관련 색인어를 추출하고, 색인어간의 관련성을 계산한다. "Kyonggi21Search"시스템에서는 웹 문서에 많이 나타나는 일반적인 단어보다는, 많은 문서에 나타나지 않는 지리적 문화적인 단어들 간의 관련성을 찾는 것이 더 중요한데, 본 연구에서는 단어들 간의 관련성을 찾는데 연관규칙과 연관클러스터를 이용하여 연관도를 계산한다. 그리고 이런 단어들의 관련성을 찾는데는 연관 클러스터를 이용하는 것이 더 적합하다는 것을 보여준다. 한편 웹 문서와 색인어를 이용하여 만든 행렬은 희소행렬이라는 점을 이용하여 연관 클러스터 방법의 단점인 높은 계산량을 줄이는 최적화 방법을 제안한다.

  • PDF

WordNet과 텍스트 코퍼스에 기반한 의미 관계를 활용한 웹 텍스트 조사 기법 (A Web Text Mining Technique using Semantic Relations based on WordNet and Text Corpus)

  • 이호석;김영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.181-184
    • /
    • 2007
  • 본 논문은 문장 분석에 의하여 의미 관계를 생성하고 의미 네트워크에 의하여 유사한 의미 관계를 고려하는 의미 중심의 웹 텍스트 검색 기법에 대하여 논의한다. 기존의 웹 텍스트 검색은 단어만을 혹은 의미 관계만을 고려한 검색이었다고 할 수 있다. 그러나 문장 분석에 의한 의미 관계의 생성과 의미 네트워크에 의한 유사한 의미 관계의 고려는 기존의 단어 중심 혹은 의미 관계 중심의 검색 한계를 넘어서 유사한 의미 관계를 고려한 좀 더 포괄적이고 계층적인 검색을 가능하게 할 것으로 생각된다.

  • PDF

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

키팩트 색인텀에 기반한 정보검색 시스템 (An Information Retrieval System Based on Keyfact Index Term)

  • 박의규;나동열;변성찬;정경택;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.245-251
    • /
    • 2000
  • 지금까지의 정보검색 시스템은 소위 키워드 기반 정보검색 시스템으로서 색인이 단일 단어(single word) 즉 키워드의 집합으로 나타내어 진다. 그러나 이 방법은 문서의 내용을 정확히 표현하는 데 한계가 있다. 따라서 최근에는 단어 이상의 구문 단위인 구(phrase)를 이용하여 색인과 검색을 하도록 하는 시스템을 개발하고자 하는 추세에 있다. 따라서, 본 논문에서는 키워드보다는 의미를 좀더 잘 나타내고 일반적인 구보다는 정형화된 형태의 색인 단위인 키팩트를 색인어로 하는 정보검색시스템을 개발하고 이의 성능을 살펴보았다.

  • PDF

이용자 중심의 이미지 접근과 이용 분석을 통한 차세대 멀티미디어 검색 패러다임 요소에 관한 연구 (Towards Next Generation Multimedia Information Retrieval by Analyzing User-centered Image Access and Use)

  • 정은경
    • 한국문헌정보학회지
    • /
    • 제51권4호
    • /
    • pp.121-138
    • /
    • 2017
  • 멀티미디어 정보환경의 발전과 다양한 요구를 지닌 정보이용자는 멀티미디어의 접근과 이용에 있어서 기존 정보검색 패러다임에서 중요시하지 않았던 요소를 사용하는 추세이다. 특히 이미지를 포함한 멀티미디어의 감정 접근과 이용은 다양한 정보환경에서 이루어지고 있다. 따라서 효율적으로 추상적 개념인 감정을 이용자에게 접근점으로 제공할 필요성이 증가한다. 본 연구는 감정으로 접근이 가능한 게티 이미지 뱅크의 이미지를 5가지 기본 감정으로 검색하여 부여된 색인어 총 22,675건을 추출하였다. 추출된 색인어는 전체감정, 긍정감정, 부정감정의 세 가지 데이터셋으로 구분하여 분석되었다. 분석을 위해서는 동시출현단어행렬로 작성되어 가중 네트워크와 군집화기법으로 시각화되었다. 분석결과를 살펴보면, 전체감정은 대분류로써 긍정감정, 부정감정, 가족의 3개 군집과 하위 20개의 군집으로 나타났다. 긍정감정은 10개의 군집이며, 부정감정은 10개의 군집으로 구성되었다. 이와 같은 가중 네트워크와 군집구성 분석을 통해, 세 가지 중요한 차세대 멀티미디어 검색을 위한 요소로 논의하였다. 첫째는 이미지 감정 표현을 위한 인물 색인어 특성이다. 둘째는 명시적 단어와 감정을 표현하는 함축적 단어와의 네트워크 구성을 통해서 상대적으로 색인이 용이한 명시적 단어만으로도 함축적 단어 추론 가능성이다. 셋째는 감정으로 표현하는 함축적 단어의 유사어/동의어로의 확장은 이용자 중심의 접근을 제공하는 측면에서 중요하다는 점이다.

분류와 사용자 질의어 정보에 기반한 개인화 검색 시스템 (A Personalized Retrieval System Based on Classification and User Query)

  • 김광영;심강섭;곽승진
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.163-180
    • /
    • 2009
  • 본 논문은 사용자가 검색에 사용한 질의어를 기반으로 개인의 성향정보를 분석하고자 한다. 이를 위하여 사용자가 검색을 하기 위해서 입력한 질의어를 문서분류기를 이용하여 범주를 부여한다. 본 연구에서는 각 레코드에 미리 부여된 DDC 분류코드를 분류정보로 활용하였다. 이러한 방식을 사용하여 사용자의 질의어를 기반으로 개인의 특징을 분석한다. 분석된 개인의 성향정보를 검색 결과에 반영하고 개인의 의도에 맞는 문서를 재순위화시키는 개인화 검색시스템을 개발하였다. 또한 개인의 성향정보를 이용하여 단어의 중의성 문제를 해결할 수 있었다. 본 논문에서는 한국과학기술정보연구원이 운영 중인 과학기술학회마을 데이터베이스를 이용하여 개인화와 단어중의성 해소에 관한 실험을 수행하였다. 실험과 사용자 평가를 통해서 개인화 검색 및 단어중의성 해소 성능을 제시하였다.