• Title/Summary/Keyword: 형태소 빈도

Search Result 72, Processing Time 0.021 seconds

Effects of orthographic and morphological frequency of a syllable in Korean word recognition (한국어 음절의 표기빈도와 형태소빈도가 단어인지에 미치는 효과)

  • Yi, Kwang-Oh;Bae, Sung-Bong
    • Korean Journal of Cognitive Science
    • /
    • v.20 no.3
    • /
    • pp.309-333
    • /
    • 2009
  • Two experiments were conducted to examine the role of Kulja and morpheme in processing two-syllable Sino-Korean words. In Experiment 1, the effects of morphemic frequency were not significant at the initial and final positions of a word while Kulja frequency and Kulja-morpheme correspondence at both positions in a word had a significant impact on the processing of nonwords. Lexical decision times were longer for nonwords with high frequency Kulja and for nonwords with ambiguous Kulja-morpheme correspondence whose Kulja can go with many different morphemes. In Experiment 2 Kulja-morpheme correspondence was examined for words as well as nonwords. Lexical decisions were slower for stimuli with ambiguous Kulja-morpheme correspondence. The effect was more stable for nonwords, which replicated the result of Experiment 1. In sum, the results of this study suggest that words with ambiguous Kulja-morpheme correspondence activate many different morphemes and competition among these morphemic candidates slows down the lexical selection process. Kulja frequency, Kulja neighborhood, morphemic frequency, morphological neighborhood, and Kulja-morpheme correspondence in Korean word recognition were also discussed.

  • PDF

Automatic Generation of Concatenate Morphemes for Korean LVCSR (대어휘 연속음성 인식을 위한 결합형태소 자동생성)

  • 박영희;정민화
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.4
    • /
    • pp.407-414
    • /
    • 2002
  • In this paper, we present a method that automatically generates concatenate morpheme based language models to improve the performance of Korean large vocabulary continuous speech recognition. The focus was brought into improvement against recognition errors of monosyllable morphemes that occupy 54% of the training text corpus and more frequently mis-recognized. Knowledge-based method using POS patterns has disadvantages such as the difficulty in making rules and producing many low frequency concatenate morphemes. Proposed method automatically selects morpheme-pairs from training text data based on measures such as frequency, mutual information, and unigram log likelihood. Experiment was performed using 7M-morpheme text corpus and 20K-morpheme lexicon. The frequency measure with constraint on the number of morphemes used for concatenation produces the best result of reducing monosyllables from 54% to 30%, bigram perplexity from 117.9 to 97.3. and MER from 21.3% to 17.6%.

Encoding of Morphological Analysis Result and Eojeol Dictionary Construction (형태소 분석 결과의 인코딩 기법과 어절 사전 구축)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.112-117
    • /
    • 2004
  • 형태소 분석에서 사용되는 사전은 형태소와 품사 정보를 수록하고 있다. 단어가 한 개의 형태소로 구성되는 굴절어는 대부분의 단어가 어휘형태소의 기본형과 일치되기 때문에 형태소 분석 알고리즘은 사전 탐색과 형태론적 변형을 통해 입력 단어와 어휘형태소를 일치시키는 과정으로 기술된다. 이에 비해, 교착어는 입력 어절이 형태소 사전의 어휘형태소와 일치하지 않기 때문에 어절 자체가 형태소 사전에 포함되지 않아서 굴절어에 비해 상대적으로 형태소 분석 알고리즘의 복잡도가 높고 분석 시간이 오래 걸리는 단점이 있다. 본 논문에서는 고빈도 어절에 대한 기분석 어절 사전을 구축하여 형태소 분석 속도를 개선하고, 사용자가 어절 사전에 새로운 어절을 추가하거나 어절 사전에 수록된 분석 결과를 수정할 수 있는 어절 사전에 의한 형태소 분석 방법을 제안한다. 구체적인 방법론으로써 형태소 분석 결과를 저장하는 기분석 어절 사전의 크기를 최소화하기 위해 분석 결과를 생성하는데 필요한 최소한의 정보만을 인코딩하는 방법을 사용한다.

  • PDF

Authorship Attribution in Korean Using Frequency Profiles (빈도 정보를 이용한 한국어 저자 판별)

  • Han, Na-Rae
    • Korean Journal of Cognitive Science
    • /
    • v.20 no.2
    • /
    • pp.225-241
    • /
    • 2009
  • This paper presents an authorship attribution study in Korean conducted on a corpus of newspaper column texts. Based on the data set consisting of a total of 160 columns written by four columnists of Chosun Daily, the approach utilizes relative frequencies of various lexical units in Korean such as fully inflected words, morphemes, syllables and their bigrams in an attempt to establish authorship of a blind text selected from the set. Among these various lexical units, "the morpheme" is found to be most effective in predicting who among the four potential candidates authored a text, reporting accuracies of over 93%. The results indicate that quantitative and statistical techniques in authorship attribution and computational stylistics can be successfully applied to Korean texts.

  • PDF

Another Choice for Parsing : Using Syntactic Morpheme (파싱을 위한 선택 : 구문 형태소의 이용)

  • Hwang, Y.G.;Song, Y.J.;Lee, H.Y.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.249-254
    • /
    • 1999
  • 자연어 분석에서 발생하는 가장 큰 문제점은 분석의 각 단계에서 필요 이상의 모호성이 발생하는 것이다. 이러한 모호성은 각각의 분석 단계에서는 반드시 필요한 결과일 수 있지만 다음 단계의 관점에서는 불필요하게 과생성된 자료로 볼 수 있다. 특히 한국어 형태소 분석 단계는 주어진 문장에 대해 최소의 의미를 가지는 형태소로 분석하기 때문에 과생성된 결과를 많이 만들어 내는데, 이들 대부분이 보조용언이나 의존 명사를 포함하는 형태소열에서 발생한다. 품사 태깅된 코퍼스에서 높은 빈도를 나타내는 형태소들을 분석해 보면 주위의 형태소와 강한 결합 관계를 가지는 것을 발견할 수 있다. 이러한 형태소는 대부분 자립성이 없는 기능형태소로서, 개개의 형태소가 가지는 의미의 합으로 표현되기보다는 문장내에서 하나의 구문 단위로 표현될 수 있다. 본 논문에서는 이 형태소 열을 구문 형태소로 정의하고, 필요한 경우 일반 형태소 해석의 결과를 구문 형태소 단위로 결합하고 이를 바탕으로 구문 해석을 하는 방법을 제안한다. 구문 형태소 단위를 이용하여 구문해석을 수행함으로써, 형태소 해석 결과의 축소를 통해 불필요한 구문 해석 곁과를 배제할 수 있다.

  • PDF

Authorship Attribution in Korean Using Chosun Ilbo Column Texts (빈도 정보를 이용한 저자 판별: 조선일보 4인 칼럼을 대상으로)

  • Han, Na-Rae
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.29-34
    • /
    • 2008
  • 본고에서는 빈도 정보를 이용한 저자 판별 (authorship attribution) 기법을 한국어에 적용한 연구를 소개한다. 그 대상으로는 정형화된 장르인 신문 칼럼을, 구체적으로는 조선일보에 연재 중인 4인 칼럼니스트들의 각 40개 칼럼, 총 160개 칼럼 텍스트를 선정하였다. 이들에 대하여 어절, 음절, 형태소, 각 단위 2연쇄 등의 다양한 언어 단위들의 빈도 정보들을 이용한 저자 판별을 시도한 결과, 형태소 빈도를 기반으로 하여 최고 93%를 넘는 높은 예측 정확도를 얻을 수 있었다. 또한, 저자 개인 문체간의 거리도 빈도 정보로써 계량적 표상이 가능함을 보일 수 있었다. 이로써 빈도 분석과 같은 통계적, 계량적 방법을 통하여 한국어 텍스트에 대한 성공적인 저자 판별과 개인 문체의 정량화가 가능하다는 결론을 내릴 수 있다.

  • PDF

A Method of Function-word Recognition by Relative Frequency (상대빈도를 이용한 문법형태소의 인식 방법)

  • 강승식
    • Korean Journal of Cognitive Science
    • /
    • v.10 no.2
    • /
    • pp.11-16
    • /
    • 1999
  • It is expected that some Josa/Eomi's are frequently used and others are not in the Korean documents. In this paper. we confirm it through the experiment and show that such information is very useful for Korean language processing. In case of Josa. most frequent 9 Josa's occupied 70% of total Josa's and 20. 32. 69 Josa's occupied 90%. 95%. and 99% respectively. Similarly, most frequent 10 numbers of Eomi's occupied 70% of total Eomi's and 33. 54. 117 Eomi's occupied 90%. 95%. and 99% respectively. We propose a dictionary construction method for Josa/Eomi dictionary that is classified by the frequency information. Furthermore. Josa/Eomi frequency results are very useful for the identification of unregistered morphemes and the disambiguation of lexical ambiguities.

  • PDF

Key Expressions in Editorial Texts: Determining the Unithood and Termhood of Word Sequences based on a 2009 Newspaper Corpus (신문 사설의 특징적 표현들에 대한 연구)

  • Kim, Hye-Young;Kang, Beom-Mo
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.185-190
    • /
    • 2012
  • 본 논문은 동아, 조선, 중앙, 한겨레 신문의 2009년 신문 사설의 제목과 본문에서 나타나는 n-gram에 대한 논의이다. 구체적으로 자주 출현하는 단어들의 연속 단위 3~6개의 형태소를 추출하여 신문 사설에서 나타난 고빈도 형태소 연속체를 살펴본다. 또한 이들을 기사문에서 추출한 패턴과 로그공산비로 비교하여 신문 사설에서 더 특징적인 의미로 사용되는 어휘들을 살펴본다. 그 결과, 사설 본문에서는 3-gram은 '아야 한다'. 4-gram은 'ㄹ 것이다', 5-gram은 'ㄹ 수밖에 없다', 6-gram은 '아야 할 것이다' 등이, 사설 제목은 '것인가, 안 된다'가 하나의 용어처럼 사용되고 있었다. 이러한 형태소 연속체를 살펴봄으로써, 신문사설의 텍스트 특징과 정형적인 표현에 대해서 살펴볼 수 있다.

  • PDF

Hemispheric Asymmetry in Processing Semantic Relationship Shown in Normals and Aphasic (형태소 공유 어휘의 심성 어휘집 표상 양식)

  • Jung, Jae-Bum;Lee, Hong-Jae;Moon, Young-Sun;Kim, Dong-Hyu;Pyun, Sung-Bum;Nam, Ki-Chun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.359-367
    • /
    • 1999
  • 형태소를 공유하고 있는 어휘가 심성 어휘집(mental lexicon)에 어떻게 저장되어 있고 어떻게 어휘 접근되는지에 관하여 여러 설명이 제기되었다 첫 번째 가설은 형태소 공유 어휘는 심성 어휘집에 모두 같은 어근 혹은 어간을 중심으로 저장되어 있다는 것이다. 두 번째 가설은 어간이나 어근으로의 분석을 통해 활용된 단어를 이해하는 것이 아니라 일단 활용된 형태의 어휘를 심성 어휘집에서 찾고, 만일 해당되는 것이 발견되면, 그 활용된 어절의 이해가 끝나게 되고, 만일에 해당되는 것이 심성 어휘집에 존재하지 않는 경우에만 부수적인 과정으로 구성 형태소로의 분석이 이루어진다는 것이다. 세 번째 가설은 어휘의 품사, 어휘의 빈도, 형태소 활용의 규칙성 등에 따라 구성 형태소로의 분석을 통해 활용된 단어를 이해하거나 아니면 활용된 어휘의 직접적인 접근을 통해 활용된 단어를 이해한다는 것이다. 본 연구에서는 이 세 종류의 가설 중에 어느 가설이 옳은 것인지를 조사하기 위해, "먹은" 흑은 "쥐어"와 같은 한국어 어절을 이용하여 형태소 표상 양식과 이해 과정을 다루었다. 본 연구의 목적을 위해 점화 어휘 판단 과제(primed-lexical decision task)를 사용하였다. 실험 1은 "먹은"처럼 동사 "먹다"로도 해석이 가능하고 명사 "먹"으로도 가능한 중의적 어절을 점화 문자열로 제시하고 이 문자열이 두 의미와 관련된 목표 단어 재인에 어떤 영향을 끼치는지를 조사하였다. 만일에 "먹"이라는 어근 혹은 어간으로의 분석을 통해 이 어절을 이해한다면 두 종류의 의미와 관련된 조건 모두에서 촉진적 점화 효과(facilitatory priming effect)가 나타날 것이고, 어절 전체로의 어휘 접근 과정이 일어난다면 사용빈도에서 높은 동사 뜻과 관련된 조건에서만 촉진적 점화 효과가 나타날 것이다. 실험 1의 결과는 두 종류의 의미가 모두 활성화되는 것을 보여 주었다. 즉, "먹은"과 간은 어절 이해는 구성 형태소로의 분석과 구성 형태소 어휘 접근을 통해 어절 이해가 이루어진다는 가설을 지지하고 있다. 실험 2에서는 실험 1과 다르게 한 뜻으로만 안일 수밖에 없는 "쥐어"와 같은 어절을 사용하여 이런 경우에도(즉, 어절의 문맥이 특정 뜻으로 한정하는 경우) 구성 형태소로의 분석 과정이 일어나는지를 조사하였다. 실험 2의 결과는 실험 1의 결과와는 다르게 어간의 한가지 의미와 관련된 조건만 촉진적 점화 효과가 나타나는 것을 보여주었다. 특히, 실험 2에서 SOA가 1000msec일 경우, 두 의미의 활성화가 나타나는 것을 보여주었는데, 이 같은 결과는 어절 문맥이 특정한 의미로 한정시킬 경우는 심성어휘집에 활용형태로 들어있다는 것이다. 또한 명칭성 실어증 환자의 경우에는 즉시적 점화과제에서는 일반인과 같은 형태소 처리과정을 보였으나, 그이후의 처리과정이 일반인과 다른 형태를 보였다. 실험 1과 실험 2의 결과는 한국어 어절 분석이 구문분석 또는 활용형태를 통해 어휘 접근되는 가설을 지지하고 있다. 또 명칭성 실어증 환자의 경우에는 지연된 점화과제에서 형태소 처리가 일반인과 다르다는 것이 밝혀졌다. 이 결과가 옳다면 한국의 심성 어휘집은 어절 문맥에 따라서 어간이나 어근 또는 활용형 그 자체로 이루어져 있을 것이다.

  • PDF

A Construction of Josa/Eomi Dictionary using Relative Frequency (상대적 출현 빈도를 이용한 조사/어미 사전의 구성)

  • Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.188-194
    • /
    • 1995
  • 한글 문서에서는 일부 조사와 일부 어미가 자주 출현하며 그 외의 조사/어미는 출현 빈도가 낮을 것으로 추측되고 있다. 본 연구에서는 실험에 통해서 이러한 사실을 확인하고 자주 출현하는 통합형 조사와 어미의 빈도를 구하기 위하여 한국어 말뭉치에서 통합형 조사와 통합형 어미의 상대적 출현 빈도를 조사하였다. 통합형 조사의 상대적 출현 빈도를 조사한 결과 말뭉치의 분야에 따라 약간의 차이가 있으나 평균 상위 9개의 통합형 조사가 전체 조사의 70%를 차지하고 있으며 상위 20개, 32개, 69개의 통합형 조사가 각각 90%, 95%, 99%를 차지하고 있음을 확인하였다. 통합형 어말어미의 경우에는 상위 10개의 통합형 어말어미가 전체 어말어미의 70%를 차지하고 상위 33개, 54개, 117개의 통합형 어미가 각각 90%, 95%, 99%를 차지하고 있다. 본 논문에서는 조사, 어미의 상대적 출현 빈도에 따라 계층적으로 조사/어미 사진을 구성함으로써 형태소 분석 효율을 높이고 형태소 분석기가 다양한 응용 분야에 쉽게 적응할 수 있도록 하는 방법을 제안한다. 또한 통합형 조사, 어미의 상대적 출현 빈도는 미등록어 추정을 용이하게 하거나 형태론적 모호성을 해결할 때에도 유용하게 활용될 수 있음을 보인다.

  • PDF