• Title/Summary/Keyword: 표제어

Search Result 102, Processing Time 0.044 seconds

중국 코퍼스 및 인터넷을 이용한 중한사전의 표제어 연구 - huan~hui일부를 중심으로

  • Park, Yeong-Jong
    • 중국학논총
    • /
    • no.70
    • /
    • pp.39-60
    • /
    • 2021
  • 当我们翻开中韩词典时, 就不难发现令人莫名其妙的词汇不在少数, 而且在部分词汇的解释上也存在着不少问题。本文主要探讨了这些词汇被收录于词典是否合适和词语释义是否正确的问题。为此, 先从中韩词典里筛选出在中国教育部语言文字应用研究所和北京大学中国语言学研究中心所提供的现代汉语语料库中出现频率较低的词汇。若考虑到这两个语料库为全方位收集现代汉语而做了巨大的努力, 而且肯定这一学术成果的话, 就能推测此文里筛选出的这些词汇很可能不太正规或现在不怎幺使用等事实。为了使这种推测能得到更准确的印证, 作者在百度网上又检索了是否出现它们的用例, 且对词语释义和实际用例是否一致做了详细的比较, 就发现不少词汇确实存在各种问题, 根本不适合被收录到词典, 或必须修改释义内容。

중국 코퍼스 및 인터넷을 이용한 중한사전 표제어의 적합성 연구 - 'ge~gou'를 중심으로

  • Park, Yeong-Jong
    • 중국학논총
    • /
    • no.61
    • /
    • pp.1-18
    • /
    • 2019
  • 当我们翻开中韩词典时, 就不难发现令人莫名其妙的词汇不在少数, 而且在部分词汇的解释上也存在着不少问题. 本文主要探讨了这些词汇被收录于词典是否合适和词语释义是否正确的问题. 为此, 先从中韩词典里筛选出在中国教育部语言文字应用研究所和北京大学中国语言学研究中心所提供的现代汉语语料库中出现频率较低的词汇. 若考虑到这两个语料库为全方位收集现代汉语而做了巨大的努力, 而且肯定这一学术成果的话, 就能推测此文里筛选出的这些词汇很可能不太正规或现在不怎幺使用等事实. 为了使这种推测能得到更准确的印证, 作者在百度网上又检索了是否出现它们的用例, 且对词语释义和实际用例是否一致做了详细的比较, 就发现不少词汇确实存在各种问题, 根本不适合被收录到词典, 或必须修改释义内容.

Hanja Information in the Entries of Korean Unabridged Dictionary (국어대사전의 표제어에 나타나는 한자 정보)

  • Kim, Cheol-Su
    • The Journal of the Korea Contents Association
    • /
    • v.10 no.4
    • /
    • pp.438-446
    • /
    • 2010
  • For language information processing that includes both Hangul and Hanja, an electronic dictionary supporting Hangul and Hanja simultaneously is necessary. This paper examined statistical information on Hanja entries of Korean Unabridged Dictionary such as the number of entries that include Hanja based on the KSC-5601 character set, the frequency of the pronunciation and meaning of each character of Hanja included in the entries, the frequency per part of speech of Hanja in entries and the average number of Hanja characters per entry. At least one or more of Hanja characters appear in 303,951 entries out of 440,594, accounting for 68.99% of the total. 858,595 characters of Hanja are included in the 440,594 entries, which is 1.95 Hanja characters per entry. As the average syllable length of the entries is 3.56 and the average count of the Hanja characters per entry is 1.96, it can be said that 54.7% of all the characters of the entries are in Hanja. Among 4,888 Hanja character codes, 4,660 are used once or more, whereas 228 Hanja codes never appear in any entry. There were 5 characters which appear more than 4,000 times. A total of 858,595 Hanja characters used in all the entries correspond to 471 Hangeul codes.

Headword Finding System Using Document Expansion (문서 확장을 이용한 표제어 검색시스템)

  • Kim, Jae-Hoon;Kim, Hyung-Chul
    • Journal of Information Management
    • /
    • v.42 no.4
    • /
    • pp.137-154
    • /
    • 2011
  • A headword finding system is defined as an information retrieval system using a word gloss as a query. We use the gloss as a document in order to implement such a system. Generally the gloss is very short in length and then makes very difficult to find the most proper headword for a given query. To alleviate this problem, we expand the document using the concept of query expansion in information retrieval. In this paper, we use 2 document expansion methods : gloss expansion and similar word expansion. The former is the process of inserting glosses of words, which include in the document, into a seed document. The latter is also the process of inserting similar words into a seed document. We use a featureless clustering algorithm for getting the similar words. The performance (r-inclusion rate) amounts to almost 100% when the queries are word glosses and r is 16, and to 66.9% when the queries are written in person by users. Through several experiments, we have observed that the document expansions are very useful for the headword finding system. In the future, new measures including the r-inclusion rate of our proposed measure are required for performance evaluation of headword finding systems and new evaluation sets are also needed for objective assessment.

A Study on Generalization of Semantic Error Detection Rules in a Grammar Checker for Korean Using Korean WordNet 『KorLex』 (한국어 어휘의미망을 활용한 의미 오류 검사 규칙 일반화 연구)

  • So, Gil-Ja;Kwon, Hyuk-chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.640-643
    • /
    • 2010
  • 영어권에서는 통계적 기반 의미 오류 검사기에 대한 연구가 활발하게 진행되었으나 한국어에서는 자주 나타나는 오류를 중심으로 오류 단어를 검사할 문맥이나 공기정보를 갖는 규칙 기반의 연구가 이루어져왔다. 본 논문에서는 표제어나 사전 기반 범주화 정보로 표현되고 있는 기존 문법 검사기의 성능을 개선하는 방안으로 한국어 명사 어휘 의미망인 KorLex를 활용하는 방법을 연구한다. 특히, 용언은 목적어나 주어에 사용되는 명사의 표제어가 의미 제약 조건으로 사용되는 예가 많다. 본 논문에서는 용언의 의미 제약 조건을 명사 표제어 단위에서 명사 의미 그룹(class) 단위로 확대하여 문법 검사기의 의미 오류 검사 규칙의 의미 오류 제약 조건을 일반화 하는 방안을 연구한다.

Implementation of Compressing a Korean Lexicon (한국어 사전의 압축 구현)

  • 임한규;박상호
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 1997.11a
    • /
    • pp.395-403
    • /
    • 1997
  • 한국어 처리의 기본이 되는 형태소 분석을 위한 사전의 효율적인 구성을 위해 각 표제어의 반복 음절수에 의한 방식으로 이를 압축하고 복원하는 알고리즘을 보였다. 사전의 크기에 있어서 25% 줄일 수 있었으며 표제어를 검색할 때 횟수를 36 % 줄일 수 있었다. 아울러 빠른 검색을 위한 이진 사전을 오프셋에 의해 구성하였다.

  • PDF

중국 코퍼스와 인터넷을 이용한 중한사전 표제어의 오류 연구 - F2-1을 중심으로

  • Baek, Jong-In
    • 중국학논총
    • /
    • no.63
    • /
    • pp.47-64
    • /
    • 2019
  • 当今在韩国流通的中韩词典收词颇多, 但词典里翻开哪已叶不难发现令人莫名其妙的词汇, 而且这些词汇当中有的甚至连汉语大词典里都找不到. 我们发现这些词汇里往往出现解释有误的问题. 本文主要探讨了这些解释有误词汇. 为此, 先从中韩词典里筛选出在现代汉语语料库中出现的次数少于十次的词汇. 我们认为此文里筛选出的这些词汇很可能不太正规或现在不怎幺使用. 为了使这种推测能得到更准确的印证, 作者在百度网上又检索了是否出现它们的用例, 之后, 就发现这些词汇确实存在各种问题, 需要校正这些解释有误的词汇. 本文以F2-1部分一千五百个词条为研究对象进行了适当性调查. 通过这次研究发现F2-1部分低频率词条有348个词, 其中45个词有各种问题. 值得探讨的是在汉韩词典里对这些低频率词条的说明出现不少错误, 许多词汇根本不适合被收录到词典里. 我们把这些带错误的词汇分成三各部分 : 1. 词汇解释有误, 2. 漏意味项, 3. 其他错误, 进行讨论. 我们将要继续研究其他项目的词条. 希望这些研究对中韩词典的编辑有所帮助.

Pronunciation Dictionary For Continuous Speech Recognition (한국어 연속음성인식을 위한 발음사전 구축)

  • 이경님;정민화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.197-199
    • /
    • 2000
  • 연속음성인식을 수행하기 위해서는 발음사전과 언어모델이 필요하다. 이 둘 사이에는 디코딩 단위가 일치하여야 하므로 발음사전 구축시 디코딩 단위로 표제어 단위를 선정하며 표제어 사이의 음운변화 현상을 반영한 발음사전을 구축하여야 한다. 한국어에 부합하는 음운변화현상을 분석하여 학습용 자동 발음열을 생성하고, 이를 통하여 발음사전을 구축한다. 전처리 단계로 기호, 단위, 숫자 등 전처리 과정 및 형태소 분석 과정을 수행하며, 디코딩 단위인 의사 형태소 단위를 생성하기 위해 규칙을 이용한 태깅 과정을 거친다. 이를 통해 나온 결과를 발음열 생성기 입력으로 하며, 결과는 학습용 발음열 또는 발음사전 구성을 위한 형태로 출력한다. 표제어간 음운변화 현상이 반영된 상태의 표제어 단위이므로 실제 음운변화가 반영되지 않은 상태의 표제어와는 그 형태가 상이하다. 이는 연속 발음시 생기는 현상으로 실제 인식에는 이 음운변화 현상이 반영된 사전이 필요하게 된다. 생성된 발음사전의 효용성을 확인하기 위해 다음과 같은 실험을 통해 성능을 평가하였다. 음향학습을 위하여 PBS(Phonetically Balanced Sentence) 낭독체 17200문장을 녹음하고 그 전사파일을 사용하여 학습을 수행하였고, 발음사전의 평가를 위하여 이 중 각각 3100문장을 사용하여 다음과 같은 실험을 수행하였다. 형태소 태그정보를 이용하여 표제어간 음운변화 현상을 반영한 최적의 발음사전과 다중 발음사전, 언어학적 기준에 의한 수작업으로 생성한 표준 발음사전, 그리고 표제어간의 음운변화 현상을 고려하지 않고 독립된 단어로 생성한 발음사전과의 비교 실험을 수행하였다. 실험결과 표제어간 음운변화 현상을 반영하지 않은 경우 단어 인식률이 43.21%인 반면 표제어간 음운변화 현상을 반영한 1-Best 사전의 경우 48.99%, Multi 사전의 경우 50.19%로 인식률이 5~6%정도 향상되었음을 볼 수 있었고, 수작업에 의한 표준발음사전의 단어 인식률 45.90% 보다도 약 3~4% 좋은 성능을 보였다.

  • PDF

Document Clustering Using Reference Titles (인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구)

  • Choi, Sang-Hee
    • Journal of the Korean Society for information Management
    • /
    • v.27 no.2
    • /
    • pp.241-252
    • /
    • 2010
  • Titles have been regarded as having effective clustering features, but they sometimes fail to represent the topic of a document and result in poorly generated document clusters. This study aims to improve the performance of document clustering with titles by suggesting titles in the citation bibliography as a clustering feature. Titles of original literature, titles in the citation bibliography, and an aggregation of both titles were adapted to measure the performance of clustering. Each feature was combined with three hierarchical clustering methods, within group average linkage, complete linkage, and Ward's method in the clustering experiment. The best practice case of this experiment was clustering document with features from both titles by within-groups average method.

Design and Implementation of Detecting Tool for New Word in Korean Journal Articles (언론 기사에 나타난 신(조)어 조사 도구의 설계 및 구현)

  • Song, In-sung;Jeong, Hee-seok;Lee, Samuel Sangkon;Lee, Raeho
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.114-117
    • /
    • 2009
  • 신조어 조사용 프로그램은 웹에 실시간으로 등록되는 언론 기사를 수집하는 웹 에이전트를 개발하여 텍스트를 추출하고, 간단한 어휘 분석을 통하여 국어사전에 등록된 표제어와 이미 연구자가 발견한 기존의 신조어를 제외하고 새롭게 생성된 신조어를 추출하는 작업을 하는 도구이다. 인터넷의 언론 사이트에서 규칙적인 URL 패턴을 발견하고 뉴스 기사를 수집한다. HTML 소스 분석을 통하여 언론 기사만을 추출하고 이 기사에서 사전의 표제어와 기존에 조사된 신어를 제외하여 국어 전공자가 신어를 찾아내는 작업을 하는데 사용하는 시스템을 설계하고 구현하였다.