• Title/Summary/Keyword: 단어 검색

Search Result 558, Processing Time 0.063 seconds

The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval (MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장)

  • You, Sukjin
    • Journal of Korean Library and Information Science Society
    • /
    • v.52 no.1
    • /
    • pp.79-108
    • /
    • 2021
  • Information retrieval in the health field has several challenges. Health information terminology is difficult for consumers (laypeople) to understand. Formulating a query with professional terms is not easy for consumers because health-related terms are more familiar to health professionals. If health terms related to a query are automatically added, it would help consumers to find relevant information. The proposed query expansion (QE) models show how to expand a query using MeSH terms. The documents were represented by MeSH terms (i.e. Bag-of-MeSH), found in the full-text articles. And then the MeSH terms were used to generate LDA (Latent Dirichlet Analysis) topic models. A query and the top k retrieved documents were used to find MeSH terms as topic words related to the query. LDA topic words were filtered by threshold values of topic probability (TP) and word probability (WP). Threshold values were effective in an LDA model with a specific number of topics to increase IR performance in terms of infAP (inferred Average Precision) and infNDCG (inferred Normalized Discounted Cumulative Gain), which are common IR metrics for large data collections with incomplete judgments. The top k words were chosen by the word score based on (TP *WP) and retrieved document ranking in an LDA model with specific thresholds. The QE model with specific thresholds for TP and WP showed improved mean infAP and infNDCG scores in an LDA model, comparing with the baseline result.

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • 김수민;백대호;김상범;임해창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자여어질의를 입력 받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주 정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분서단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보중에서 정답을 추출하기 위해 각 후보단어의 질의단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용하는 것이 성능의 향상을 보였다.

  • PDF

Core Document Selecting Method Using Core Query Term and Proximity (핵심 질의 어휘와 근접도를 이용한 핵심 문서 선택 기법)

  • Jang, Gye-Hun;Kim, Seol-Young;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.463-466
    • /
    • 2010
  • 길이가 긴 질의에는 검색에 불필요한 단어가 포함되어 있어서 사용자가 원하지 않는 문서가 검색결과에 포함된다. 질의에서 불필요한 단어를 제거하고 핵심 단어만 선택한다면 검색에 효율을 높일 수 있다. 본 논문에서는 질의 조합을 기반한 클러스터를 이용해 핵심 단어를 찾고 핵심 단어와의 근접도를 이용해 상위 문서의 정확율을 향상시키는 기법을 제안한다. 실험은 뉴스 집합인 TREC AP 문서를 검색한 결과를 제안한 알고리즘으로 재순위화하여 초기 검색 결과의 상위 문서의 정확율을 비교함으로써 제안된 알고리즘의 유효성을 검증한다.

Korean Approximate String Searching System by Hierarchical Metric Space Structure (계층적 메트릭 공간(metric space) 구조의 한글 근사 단어 검색 시스템)

  • Yoon, Taijin;Cho, Hwan-Gue
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.397-400
    • /
    • 2010
  • 우리는 지난 연구에서 변형 비속어 필터링 시스템을 위하여 근사 문자열 검색 시스템을 적용하여 서열 정렬 횟수를 비약적으로 줄일 수 있었다. 다차원 데이터 구조를 이용한 한글 근사 검색 시스템은 기준축인 Base-Pivot의 숫자에 따라 검색 결과의 정확도를 높일 수 있으나 BP이 증가한 만큼 질의 단어의 좌표를 계산하기 위한 시간이 오래 걸린다. 소규모 데이터 검색에는 문제가 되지 않으나 60,000단어 이상의 데이터가 수록되는 국어사전과 같은 대규모 데이터를 검색하게 될 경우 요구되는 BP의 숫자도 증가하여 많은 연산시간을 필요로 한다. 본 논문에서는 기존의 근사 단어 검색 시스템을 계층구조화 하여 요구되는 BP 숫자를 감소 시켜 성능을 향상 시키는 방법을 제안하고자 한다. 그리고 실험을 통하여 본 아이디어의 실효성을 증명하였다. 본 아이디어는 기존의 6000개의 비속어에 대하여 약 20%정도의 성능향상을 보였다.

Inference Network-Based Retrieval Model for Web Search Environment (웹 검색 환경에 적용할 추론 망 기반 검색모델)

  • 최익규;김민구
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.19-21
    • /
    • 2001
  • 대다수의 사용자는 웹 검색에서 자신이 찾고자 하는 것을 표현할 때, 평균 2, 3개의 단어를 사용하고 있다. 벡터 모델이나 추론 망 모델에서 이런 질의 정보를 이용하여 좋은 결과를 얻기에는 몇 가지 어려움이 있다. 특히 추론 망 모델에서 많이 사용되는 유사도 계산식인 weighted-sum방법은 질의에 나타나는 단어의 수가 적고 많은 문서들이 이 단어들을 모두 가지고 있을 경우에 좋지 않은 검색결과를 보여주고 있다. 본 논문은 추론 망 모델에 적용되는 유사도 계산식인 weighted-sum방법을 개선하였고, 이를 기반으로 Web Trec 9의 자료를 검색하여 좋은 결과를 얻었다.

  • PDF

Hangul Document Retrieval Using Character Recognition (문자 인식을 이용한 한글 문서 검색)

  • 안재철;오일석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

Design and Implementation of Korean Language Regulation Retrieval System (어문 규정 검색 통합 시스템의 설계 및 구현)

  • Choi, Yoo-Kyung;Hwang, Ho-Jeon;An, Dong-Un;Chung, Sung-Jong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2001.04b
    • /
    • pp.1117-1120
    • /
    • 2001
  • 본 논문에서는 한국어를 사용하는 사람들에게 올바른 국어 지식을 보급하여 올바른 국어 생활을 영위하도록 하고, 국어 정보화에 기여하고자 '어문 규정 검색 통합 시스템'을 설계하고 구현한다. '어문 규정 검색 통합 시스템'은 '한글 맞춤법 검색 시스템', '표준어 규정 검색 시스템', 외래어 표기법 검색 시스템'으로 구성되어 있다. '어문 규정 검색 통합 시스템'은 실생활에서 사용되고 있는 단어들이 맞춤법이나 표준어 규정, 외래어 표기법에 맞는지를 확인할 수 있도록 하며, 틀린 경우에 올바른 단어와 그에 해당하는 어문 규정을 알 수 있도록 하였다. '어문 규정 검색 통합 시스템'은 세부 검색 시스템들을 하나의 인터페이스에서 접근할 수 있도록 통합하였으며 '규정', 검색', '전체 검색', '게임', '통계'의 세부 메뉴로 구성되어 있다. 한국 어문 규정은 폴더 형식으로 장과 절을 체계적으로 검색할 수 있도록 구현하였다. 검색에서는 하나의 단어 입력으로 동시에 여러 세부 시스템에서 검색 결과를 찾도록 하였다.

  • PDF

Retrieving English Words with a Spoken Work Transliteration (입말 표기를 이용한 영어 단어 검색)

  • Kim Ji-Seoung;Kim Kwang-Hyun;Lee Joon-Ho
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.39 no.3
    • /
    • pp.93-103
    • /
    • 2005
  • Users of searching Internet English dictionary sometimes do not know the correct spelling of the word in mind, but remember only its pronunciation. In order to help these users, we propose a method to retrieve English words effectively with a spoken word transliteration that is a Korean transliteration of English word pronunciation. We develop KONIX codes and transform a spoken word transliteration and English words into them. We then calculate the phonetic similarity between KONIX codes using edit distance and 2-gram methods. Experimental results show that the proposed method is very effective for retrieving English words with a spoken word transliteration.

Design of environmental technology search system using synonym dictionary (유의어 사전 기반 환경기술 검색 시스템 설계)

  • XIANGHUA, PIAO;HELIN, YIN;Gu, Yeong Hyeon;Yoo, Seong Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.582-586
    • /
    • 2020
  • 국가기후기술정보시스템은 국내 환경기술과 국외의 수요기술 정보를 제공하는 검색 시스템이다. 그러나 기존의 시스템은 유사한 뜻을 가진 단일 단어와 복수 단어들을 모두 식별하지 못하기에 유의어를 입력했을 경우 검색 결과가 다르다. 이런 문제점을 해결하기 위해 본 연구에서는 유의어 사전을 기반으로한 환경기술 검색 시스템을 제안한다. 이 시스템은 Word2vec 모델과 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Application with Noise) 알고리즘을 이용해 유의어 사전을 구축한다. Word2vec 모델을 이용해 한국어와 영어 위키백과 코퍼스에 대해 형태소 분석을 진행한 후 단일 단어와 복수 단어를 포함한 단어를 추출하고 벡터화를 진행한다. 그 다음 HDBSCAN 알고리즘을 이용해 벡터화된 단어를 군집화 해주고 유의어를 추출한다. 기존의 Word2vec 모델이 모든 단어 간의 거리를 계산하고 유의어를 추출하는 과정과 대비하면 시간이 단축되는 역할을 한다. 추출한 유의어를 통합해 유의어 사전을 구축한다. 국가기후기술정보시스템에서 제공하는 국내외 기술정보, 기술정보 키워드와 구축한 유의어 사전을 Multi-filter를 제공하는 Elasticsearch에 적용해 최종적으로 유의어를 식별할 수 있는 환경기술 검색 시스템을 제안한다.

  • PDF

Performance Evaluation of Search Engine for Speech Recognition Based Map Information Retrieval System (음성인식기능을 이용한 지도정보검색시스템을 위한 검색엔진의 성능 평가)

  • 김태수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.39-42
    • /
    • 1998
  • 음성인식기능을 이용한 지도정보 검색 시스템의 실용화를 위하여 독자적인 지도검색 알고리즘을 구현하여 기존의 GIS 용 검색툴을 이용함으로서 소요되는 비용을 최저화하면서도 어느 정도의 검색속도를 유지할 수 있는 음성구동지도검색시스템 구현을 위해 개발한 검색엔진의 성능 평가 실험을 통하여 그 유효성을 확인하고자 한다. 지도정보 검색시스템은 크게 음성인식부, 지도검색부로 나눌 수 있으며, 음성인식부에서는 유한상태오토마타에 의한 구문 제어를 통하여 OPDP 법으로 대상 단어의 인식을 수행하고, 지도검색부에서는 기존의 시스템에 사용된 OLE 기법에 기저한 Mapinfo 툴을 이용하지 않고, Visual C++를 이용한 독자적인 알고리즘을 구성하여 지도자료를 읽어 들이도록 구성하였다. 평가결과, 사무실 환경하에서 지도검색용 68단어를 대상으로 실시한 on-line test에서 검색 대상 단어인식률은 98.02%를 얻었으며, 이 때 해당지도를 화면에 나타내는데 걸리는 시간은 평균 18.2초가 소요되었다.

  • PDF