• Title/Summary/Keyword: 단어 검색

Search Result 558, Processing Time 0.024 seconds

Estimation of Document Similarity using Semantic Kernel Derived from Helmholtz Machines (헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정)

  • 장정호;김유섭;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.440-442
    • /
    • 2003
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어수준 이상의 개념 수준에서의 운서 비교를 가능하게 한다. 본 논문에서는 은닉변수모델을 이용하여 문서 집합으로부터 단어들 간의 의미관계를 자동적으로 추출하고 이를 통해 문서간 유사도 측정을 효과적으로 하기 위한 방안을 제시한다. 은닉변수 모델로는 다중요인모델의 학습이 용이한 헬름홀츠 머신을 활용하묘 이의 학습 결과에 기반하여, 문서간 비교를 한 의미 커널(semantic kernel)을 구축한다. 2개의 문서 집합 HEDLINE과 CACM 데이터에 대한 검색 실험에서, 제안된 기법을 적응함으로써 기본 VSM(Vector Space Model) 에 비해 20% 이상의 평균 정확도 향상을 이를 수 있었다.

  • PDF

Development of a Thesaurus Management System based on the Object-Oriented Technique (객체지향 기법을 이용한 시소러스 관리 시스템의 개발에 관한 연구)

  • 박계숙
    • Journal of the Korean Society for information Management
    • /
    • v.13 no.2
    • /
    • pp.5-18
    • /
    • 1996
  • For the construction of thesaurus, a thesaurus management system is needed which can process dynamic variations fast and exactly such as input. correction and deletion of words, and definition of new relationship between words. In this paper, I developed a thesaurus management system based on the object-oriented technique and GUI(graphic user interface) screen, and to enhance the effectiveness of information retrieval. I put emphasis on the expansion of synonym, English and Korean words containing the same concept.

  • PDF

Word Embedding Analysis for Biomedical Articles (생의학 문헌에 대한 워드 임베딩 적용 및 분석)

  • Choi, Yunsoo;Jeon, Sunhee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.04a
    • /
    • pp.394-395
    • /
    • 2016
  • 워드 임베딩(word embedding)은 정보검색이나 기계학습에서 단어를 표현하기 위하여 사용되던 기존의 one-hot 벡터 방식의 희소공간 및 단어들 간의 관계정보를 유지할 수 없는 문제를 해결하기 위한 방법이다. 워드 임베딩의 한 방법으로 word2vec은 최근 빠른 학습시간과 높은 효과를 얻을 수 있는 모델로 주목을 받고 있다. word2vec은 수행 시 주어지는 옵션인 벡터차원과 문맥크기에 의해 그 결과 품질이 상이하다. Mikolov는 구글 뉴스 문헌 집합에 대하여 word2vec을 실험하고, 적합한 옵션을 제시하였다. 본 논문에서는 구글 뉴스 문헌 같은 일반 문서가 아닌 생의학 분야에 특화된 문헌에 대하여 word2vec에 대한 다양한 옵션을 실험하고, 생의학 문헌에 적합한 최적의 조건을 분석한다.

Document Content Similarity Detection Algorithm Using Word Cooccurrence Statistical Information Based Keyword Extraction (단어 공기 통계 정보 기반 색인어 추출을 활용한 문서 유사도 검사 알고리즘)

  • Kim, Jinkyu;Yi, Seungchul;Park, Kibong;Haing, Huhduck
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2016.01a
    • /
    • pp.111-113
    • /
    • 2016
  • 빠른 속도로 쏟아지고 있는 각종 발행물, 논문들에 대한 표절 검토는 표절 검출 알고리즘을 통해 직접적인 복제, 짜깁기, 말 바꾸어 쓰기 등을 검토하거나 표절 검토자가 직접 해당 문서의 키워드를 검색하여 확인하는 방식으로 이루어지고 있다. 하지만 점점 더 늘어나는 방대한 양의 문서들에 대한 표절 검토 작업은 더욱 정교한 검토 방법론을 필요로 하고 있으며, 이를 돕기 위해 문서의 직접적인 단어나 복제 비교에서 더 나아가 문서의 내용을 비교하여 비슷한 내용의 문서들을 필터링 및 검출할 수 있는 방법을 제안한다. 문서의 내용을 비교하기 위해 키워드 추출 알고리즘을 선행하며, 이를 통해 문서의 핵심 내용을 비교할 수 있는 기반을 마련하여 표절 검토자의 작업의 정확성과 속도를 향상시키고자 한다.

  • PDF

A Compilation of Maritime English Corpus for English for Specific Purposes Education (특수목적영어 교육을 위한 해사영어코퍼스 구축)

  • Lee, Sung-Min;Kim, Jae-Hoon;Jhang, Se-Eun
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.163-164
    • /
    • 2015
  • 본 연구는 특수목적영어분인 해사영어코퍼스의 구축을 목적으로 한다. 구축과정에서 코퍼스 구축에 필요한 대표성과 균형성을 고려하여 네 가지 장르인 학술, 뉴스, 법, 책으로 나누고 각 하위코퍼스를 백만 단어씩 구축하였다. 코퍼스 구축과정에서 웹사이트와 PDF형태의 자료에서 텍스트만을 수집하고 정제하기 위하여 파이썬(Python) 프로그래밍 코딩을 하였고 무료 공개 프로그램도 병행하였다. 앞으로 해사영어코퍼스는 해사영어어휘교육에 필요한 단어목록제공이나 예문 검색 등을 통한 자료중심학습법에 활용될 수 있을 것이다. 또한 본 연구의 코퍼스구축 과정은 다른 분야의 ESP코퍼스 구축에도 응용 될 수 있을 것이다.

  • PDF

Efficient Synonym Detection Method through Keyword Extension (키워드 확장을 통한 효율적인 유의어 검출 방법)

  • Ji, Ki Yong;Park, JiSu;Shon, Jin Gon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.767-770
    • /
    • 2018
  • 인공지능의 발달로 사람이 사용하는 자연어 형태의 문장을 통해 정보를 주고받는 질의응답 시스템이 주목받고 있다. 이러한 질의응답 시스템은 자연어로 구성된 사용자의 질의문에서 의도를 정확하게 파악해야 한다. 단순히 질의어의 키워드에 의존한 검색은 단어의 중의성을 고려하지 않아 질의문의 의도를 정확히 파악하는 데 문제가 있다. 이런 문제점을 해결하기 위해 질의문의 의미와 맥락에 따른 연관성을 이용하여 유의어를 확장하는 방법이 연구되고 있다. 본 논문에서는 워드 임베딩을 통해 생성된 단어 유사도를 이용하여 질의문에서 추출된 키워드를 확장하는 방법을 제안한다.

An Algorithm for extracting English-Korean Transliteration pairs using Automatic I-K Transliteration (자동 음차표기를 이용한 영-한 음차표기 대역쌍의 자동 추출)

  • 오종훈;배선미;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.928-930
    • /
    • 2004
  • 지금까지 기계번역과 교차언어 정보검색 등과 같은 자연언어응용에서 사용되는 번역지식을 자동으로 구축하는 연구가 활발히 진행되어 왔다. 번역지식을 자동으로 구축하는 연구는 대역사전에 등재되어 있지 않은 미등록어에 대한 대역정보를 문서에서 자동으로 획득하는 것을 목표로 한다. 최근에는 이러한 미등록어 중 음차표기 번역지식에 대한 연구가 활발히 진행되고 있다. 음차표기는 주로 영어 단어를 발음에 기반하여 비영어권의 언어로 표기하는 것을 의미한다. 음차표기된 단어들은 새로운 개념을 나타내는 신조어가 많기 때문에 사전에 등재되어 있지 않온 경우가 많다. 따라서 효과적인 번역지식 구축을 위해서는 이러한 음차표기 번역지식을 자동으로 획득하는 것은 매우 중요하다. 본 논문에서는 영-한 음차표기 대역쌍을 문서에서 자동으로 추출하는 알고리즘을 제안한다. 본 논문의 기법은 한국어 음차표기의 인식, 영-한 자동음차표기, 한국어 음차표기와 자동음차표기된 영어단어간의 음성적 유사도 비교를 통하여 음차표기 대역쌍을 추출한다. 본 논문의 기법은 약 93%의 정확률과 68%의 재현율을 나타내었다.

  • PDF

Automatic Keyword Extraction in News Articles for Trend Tracking (키워드 가중치를 이용한 뉴스 기사에서의 이슈 키워드 자동 추출 시스템)

  • Kim, Miji;Lee, Jaewon;Jang, Dalwon;Lee, JongSeol
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.11a
    • /
    • pp.150-152
    • /
    • 2018
  • 본 논문에서는 포털 사이트에 게재된 뉴스 기사 집합에서 이슈가 된 키워드들을 자동으로 추출하는 시스템을 소개한다. 포털 사이트에서 사용하는 기존의 키워드 추출 시스템은 검색 횟수를 기반으로 하고 있으며, 뉴스 기사에서 단어 간의 상대적 중요성을 반영하지 못하고, 외부로부터 영향을 받아 순위 조작과 같은 문제점을 수반할 수 있다. 제안하는 시스템에선 TF-IDF 모델을 사용하여 단어 간의 상대적인 중요성에 기반하고, 추출된 키워드들의 시각적 변화를 반영하여 이슈 키워드를 추출한다. 제안한 시스템의 효용성 확인을 위해 58,996 개의 정치 뉴스 기사를 수집하였으며, TF-IDF 기반의 제안 방식과 TF 기반의 기존 방식을 비교하였다. 제안한 시스템이 기존 방식보다 시간에 따른 정치 뉴스의 이슈 변화를 분석하는 데 효과적인 것을 확인하였다.

  • PDF

A Study on the Search Interface of Archival Databases in Korea: With a Focus on Search Functions (고서목록 데이터베이스의 검색 인터페이스에 관한 연구 - 검색 기능을 중심으로 -)

  • Yoon, Cheong-Ok
    • Journal of Korean Library and Information Science Society
    • /
    • v.42 no.2
    • /
    • pp.257-276
    • /
    • 2011
  • The purpose of this study is to compare and analyze the functions and characteristics of search interfaces of Korean Old and Rare Collection Information System(KORCIS) and Korean History Online. The checklist of OPAC functionalities proposed by Breeding was used to examine eleven functions of these systems. Both system provide the following functions: Search by keywords; Boolean operators in queries; Order results chronologically; Modify search without re-keying the initial terms ; Search within result sets ; and Ability to limit results to an individual library or education. They do not provide such functions as Browse by author, title, subject and View and recall the search history for the current session. Adoption of standard OPAC and next-generation catalog functionalities, in-depth understanding of user needs and information seeking behaviors, and the improvement of subject access to these systems are suggested in this study.

Question Analysis and Expansion based on Semantics (의미 기반의 질의 분석 및 확장)

  • Shin, Seung-Eun;Park, Hee-Guen;Seo, Young-Hoon
    • The Journal of the Korea Contents Association
    • /
    • v.7 no.7
    • /
    • pp.50-59
    • /
    • 2007
  • This paper describes a question analysis and expansion based on semantics for on efficient information retrieval. Results of all information retrieval systems include many non-relevant documents because the index cannot naturally reflect the contents of documents and because queries used in information retrieval systems cannot represent enough information in user's question. To solve this problem, we analyze user's question semantically, determine the answer type, and extract semantic features. And then we expand user's question using them and syntactic structures which are used to represent the answer. Our similarity is to rank documents which include expanded queries in high position. Especially, we found that an efficient document retrieval is possible by a question analysis and expansion based on semantics on natural language questions which are comparatively short but fully expressing the information demand of users.