• Title/Summary/Keyword: 표제어

Search Result 102, Processing Time 0.026 seconds

Restoring an Elided title for Encyclopedia QA System (백과사전 질의응답을 위한 생략된 표제어 복원에 관한 연구)

  • Lim Soojong;Lee Changi;Jang Myoung-Gil
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.541-543
    • /
    • 2005
  • 백과사전에서 정답을 찾기 위해 문장의 구조를 분석하는데 한국어 백과사전은 표제어에 대한 정보를 문장에서 생략한다. 그러나 표제어는 문장에서 주어나 목적어 역할을 하기 때문에 생략된 정보를 복원하지 못 하면 질의에 대한 정답을 제시할 수 없다. 생략된 표제어에 대한 정보를 복원하기 위해서 본 연구에서는 표제어의 의미범주 정보, 격틀, Maximum Entropy 모델을 이용하여 표제어 주어, 표제어 목적어 복원, 미복원 3가지로 인식한다. 표제어 의미범주는 의미 범주에 대해 일정 수준의 복원 성향을 보일 경우 Maximum Entropy 정보를 창조하였고 격틀을 이용하여 복원 여부를 결정한다. 만약 표제어의 의미범주 정보, 격틀을 이용하여도 복원 여부를 결정하지 못할 경우에는 Maximum Entropy 모델에 기반한 통계 기법을 적용하여 복원 여부를 결정한다. 그리고 각각 방법의 단점을 보완하기 위해서 규칙에 해당하는 표제어 의미범주 정보와 격틀 정보에는 통계 모델인 ME 모델을 보완하여 사용한다.

  • PDF

Restoring Encyclopedia Title Words Using a Zero Anaphora Resolution Technique (무형대용어 해결 기술을 이용한 백과사전 표제어 복원)

  • Hwang, Min-Kook;Kim, Young-Tae;Ra, Dongyul;Lim, Soojong
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.65-69
    • /
    • 2014
  • 한국어 문장의 경우 문맥상 추론이 가능하다면 용언의 격이 생략되는 현상 즉 무형대용어 (zero anaphora) 현상이 흔히 발생한다. 무형대용어를 채울 수 있는 선행어 (명사구)를 찾는 문제는 대용어 해결 (anaphora resolution) 문제와 같은 성격의 문제이다. 이러한 생략현상은 백과사전이나 위키피디아 등 백과사전류 문서에서도 자주 발생한다. 특히 선행어로 표제어가 가능한 경우 무형대용어 현상이 빈번히 발생한다. 백과사전류 문서는 질의응답 (QA) 시스템의 정답 추출 정보원으로 많이 이용되는데 생략된 표제어의 복원이 없다면 유용한 정보를 제공하기 어렵다. 본 논문에서는 생략된 표제어 복원을 위해 무형대용어의 해결을 기반으로 하는 시스템을 제안한다.

  • PDF

A Study on the Entry Description Format of Glossaries (전문용어사전 표제어 기술형식에 대한 연구)

  • 강정미
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 1999.08a
    • /
    • pp.39-42
    • /
    • 1999
  • 우리나라에서 학문분야별로 출판된 전문용어사전의 표제어 기술형식은 매우 상이하다. 이러한 특징은 여러 분야의 전문용어사전을 참조해야 하는 이용자에게 많은 불편을 초래할 뿐만 아니라 표준화된 전자사전에 대한 요구를 충족시키지도 어렵다. 본 연구에서는 전자사전 표준화의 일환인 전문용어사전의 표제어 기술형식 표준화를 위한 기초작업의 일부로서 현재까지 우리나라기서 출판된 전문 용어사전을 대상으로 표제어의 기술형식에 대하여 기술요소, 기술요소의 순서, 띄어쓰기, 다의성을 갖는 용어의 구분, 배열 등에 대하여 조사 분석하였다.

  • PDF

Knowledge Structure and Terminology of Archival Appraisal: Focusing on the Entries of "Encyclopedia of Archival Science" (기록평가의 지식구조와 용어 분석 : 『Encyclopedia of Archival Science』 표제어를 중심으로)

  • Moon-Won Seol
    • Journal of Korean Society of Archives and Records Management
    • /
    • v.23 no.1
    • /
    • pp.81-99
    • /
    • 2023
  • Archival appraisal is a key area of archival science. This study aims to identify the knowledge structure of archival appraisal and propose appropriate translation terms. To this end, 34 entry terms related to archival appraisal were first extracted from 146 entries in the Encyclopedia of Archival Science, a leading encyclopedia in the field, and terminologies were categorized based on content analysis. Second, the contents described in the entries were assessed for each category, and the main concepts and flow of discussions were also examined. Third and last, suitable translations for each entry term were presented, and considerations were suggested for the translations, such as the application of appropriate principles of equivalence. Specifically, terms such as "records appraisal" and "archival appraisal" were recommended to be used separately.

Morphological Processing in an Expanded Dictionary Environment (확장 사전 환경에서의 한국어 형태소 해석과 생성)

  • Cho, Young-Hwan;Cha, Hee-Joon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.355-368
    • /
    • 1993
  • 형태소 처리의 기본 원칙은 사전의 표제어를 형태소 수준으로 함으로써 사전의 크기를 줄이고, 중복되는 정보의 양을 최소화하는 것이다. 본 논문에서는 형태소 처리를 위한 여러 환경 요소들 중에서 특별히 확장된 사전 표제어를 기본으로 하는 환경을 제안한다. 확장 사전 환경은 어휘에 대한 사전 표제어와 사전 정보의 분리를 기본으로 한다. 기본 사전 표제어에 대하여 어휘의 활용형을 사전 작성의 후처리인 사전 표제어에 대한 색인구조 구성시에 자동으로 확장함으로써 용언의 불규칙 활용과 음운 축약 현상에 대처한다. 확장 사전 환경의 장점은 형태소 해석과 생성시에 필요한 불규칙 활용에 대한 처리를 사전 확장 시간으로 앞당기고, 어절의 부분문자열과 사전 표제어간의 직접 대응성을 제공하여 여러 응용에 쉽게 적용이 가능하다는 것이다.

  • PDF

A method for similar-word retrival based on BTI dictionary indexing mechanism (BTI 사전 색인을 이용한 유사단어 검색)

  • 정연수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1994.06c
    • /
    • pp.291-296
    • /
    • 1994
  • 유사단어의 추정에 있어서 사전 검색에 드는 비용, 즉 사전탐색 횟수는 효율성의 문제와 직결된다. 본 논문에서는 BTI 사전 색인을 이용하여 한 글자의 변형요소가 있는 유사단어들을 효율적으로 거색하는 방법을 제안한다. BTI 방식은 정방향, 역방향 표제어를 모두 저장하는 방법이다. BTI 방식으로 사전 표제어를 색인하여 표제어에 대한 사전 탐색 도중에 사전에 존재하는 prefix와 postifix를 모두 검색할 수 있다. 이러한 정보를 이용하면 유사 단어에 대한 정확한 변형 위치를 결정할 수 있다. BTI 사전 색인은 사전 표제어에 대한 정보없이 유사단어를 추정한 후에 사전 검색을 통하여 확인하는 방법보다 사전 검색에 드는 비용이 적다. 추가적으로 유사단어 후보들에 대한 우선 순위를 정하기 위하여 corpus에서 추출한 각 표제어의 발견 빈도를 이용하였다.

  • PDF

말뭉치를 이용한 형태소 분석 단계에서의 중의성 해결에 관한 연구

  • Kim, Gyeong-Seo;Kim, Dae-Cheol;Jeong, Gang-Seok;Song, Man-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.36-43
    • /
    • 1991
  • 자연 언어 처리의 효율성은 대량의 정보를 담고 있는 사전을 잘 구성하는 데 있다. 사전을 잘 이용하기 위해서는 입력 어절에 대한 정확한 표제어(원형)를 효과적으로 찾아야한다. 입력 어절에 대한 표제어를 찾는 역할을 하는 형태소 분석기는 한 어절의 정보만 이용하기 때문에 입력 어절을 두 가지 이상의 표제어로 해석할 수 있다. 연세 대학교 사전편찬실이 갖고 있는 연세 말뭉치 I 에 대해 10% 이상의 어절이 두가지 이상으로 분석되는 중의성을 가진다. 이렇게 중의성을 가지는 어절이 그대로 구문 구조 분석기에 전달되면 중의성올 해결하기 위해 구운 구조 분석기의 처리 과정이 복잡해진다. 본 논문은 표제어의 중의성을 보이는 어절을 구문 구조 분석기에게 전달하기 전에 형태소 분석기와 구문 구조 분석기 사이에서 정확한 표제어를 찾는 방법을 제안한다.

  • PDF

A Structure of Korean Electronic Dictionary using the Finite State Transducer (Finite State Transducer를 이용한 한국어 전자 사전의 구조)

  • Baek, Dae-Ho;Lee, Ho;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.181-187
    • /
    • 1995
  • 한국어 형태소 해석기와 같은 한국어 정보 치리 시스템은 많은 전자 사진 검색 작업을 요구하기 때문에 전자 사전의 성능은 전체 시스템의 성능에 많은 영향을 미친다. 이에 본 논문은 적은 기억 장소를 차지하면서 탐색 속도가 빠른 Finite State Transducer(FST)를 이용한 전자 사전 구조를 제안한다. 제안된 전자 사진은 Deterministic Finite State Automata(DFA)로 표제어를 표현하고 DFA 상태수 최소화 알고리즘으로 모든 위치에 존재하는 중복된 상태를 제거하여 필요한 기억 장소가 적으며, FST를 일차원 배열에 매핑하고 탐색시 이 배열내에서의 상태 전이만으로 탐색을 하기 때문에 탐색 속도가 매우 빠르다. 또한 TRIE 구조에서와 같이 한번의 탐색으로 입력된 단어로 가능한 모든 표제어들을 찾아 줄 수 있다. 실험 결과 표제어 수가 증가하여도 FST를 이용한 전자 사전의 크기는 표제어 수에 비례하여 커지지 않고, 전자 사전 탐색 시간은 표제어 수에 영향을 받지 않으며, 약 237만 단어를 검색하는 실험에서 TRIE나 $B^+-Tree$구조를 사용한 전자 사전보다 빠름을 알 수 있었다.

  • PDF

Examining the interdisciplinary structure of Korean cognitive science through analyzing author affiliations and title words (연구자 소속과 표제어 분석을 통한 국내 인지과학 분야의 학제적 구조 파악)

  • Lee Jae-Yun;Jung Ju-Hee
    • Proceedings of the Korean Society for Information Management Conference
    • /
    • 2006.08a
    • /
    • pp.127-134
    • /
    • 2006
  • 이 연구에서는 국내 인지과학 분야의 연구자 소속 정보와 논문의 표제어 분석을 통해 학제적 구조 파악을 시도해 보았다. 연구 결과 국내 인지과학 분야에서 대표되는 학문 영역은 컴퓨터과학, 심리학, 언어학, 인지과학, 철학, 교육학, 의학, 경영학이었다. 두 시기(1기: 1989-1998, 2기: 1999-2003)로 구분하여 분석한 결과 국내 인지과학 분야는 1기에서는 컴퓨터과학, 심리학, 언어학 순으로 우세한 학문분야가 나타났다. 이와 달리 2기에서는 심리학, 컴퓨터과학, 인지과학, 언어학의 순이었다. 이 같은 결과는 컴퓨터과학의 비중이 초기에 가장 높다가 감소했다는 점에서 외국의 사례와 유사하지만, 외국에 비해서 언어학 분야 연구자의 비중이 다소 높은 것이 국내 인지과학 연구의 특징인 것으로 나타났다. 연구자가 사용한 표제어를 분석한 결과 두 시기에서 모두 컴퓨터과학과 심리학은 인지과학분야에서 융합되기 보다는 독자적인 연구영역을 형성하였다. 또한 시기별 표제어 분석을 통해서 컴퓨터과학이나 심리학 소속 인지과학 연구자들의 관심사가 1기에서 2기로 넘어가면서 변화한 부분을 확인할 수 있었다.

  • PDF

중국 코퍼스 및 인터넷을 이용한 중한사전의 표제어 연구 - gu~guang을 중심으로

  • Park, Yeong-Jong
    • 중국학논총
    • /
    • no.67
    • /
    • pp.25-41
    • /
    • 2020
  • 当我们翻开中韩词典时, 就不难发现令人莫名其妙的词汇不在少数, 而且在部分词汇的解释上也存在着不少问题。本文主要探讨了这些词汇被收录于词典是否合适和词语释义是否正确的问题。为此, 先从中韩词典里筛选出在中国教育部语言文字应用研究所和北京大学中国语言学研究中心所提供的现代汉语语料库中出现频率较低的词汇。若考虑到这两个语料库为全方位收集现代汉语而做了巨大的努力, 而且肯定这一学术成果的话, 就能推测此文里筛选出的这些词汇很可能不太正规或现在不怎幺使用等事实。为了使这种推测能得到更准确的印证, 作者在百度网上又检索了是否出现它们的用例, 且对词语释义和实际用例是否一致做了详细的比较, 就发现不少词汇确实存在各种问题, 根本不适合被收录到词典, 或必须修改释义内容。