• 제목/요약/키워드: 어절

Search Result 471, Processing Time 0.032 seconds

A PZrosodic Characteristics of Korean Read Sentences in Discourse Context (한국어 낭독체 담화문의 운율적 특징)

  • 성철재
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.08a
    • /
    • pp.209-213
    • /
    • 1998
  • 50개의 담화단독 문장과 연속발성 문장을 대상으로 무장의 첫 어절과 마지막 어절에서의 첫 음절과 마지막 음절의 운율특징을 조사하였다. 이를 체계적으로 살펴 보기 위하여 각 어절에서의 마지막 음절의 음향변수에 대한 첫 음절의 음향변수의 비율을 얻은 뒤 이를 대상으로 하여 평균값과 분포를 구하였다. 지속시간의 경우 두 스타일 간에 주목할 만한 큰 차이점은 없었으나 담화 연속 문장의 문두에서 화자의 조음시간 프로그래밍이 약간 조화롭지 못함을 알 수 있었다. Fo는 마지막 어절 부분의 비율값이 두 스타일간 통계적으로 유의한 차이를 보였으며 운율자질로 기능할 수 있는 가능성을 보였다. 에너지는 Fo와 유사한 분포경향을 보인다. 문미 어절의 마지막 음절이 첫 음절의 약 85% 정도의 힘으로 발성됨을 알 수 있고, 담화 연속 발화의 마지막 어절에서 단독 발화문보다 상대적으로 강하게 조음되었음을 알 수 있었다.

  • PDF

Effects of Spacing Words on Reading Adnominal Eojeol (띄어쓰기가 관형어절 이해에 미치는 영향)

  • Kim, Jihye;Nam, Kichun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.251-254
    • /
    • 2009
  • 띄어쓰기는 한글 맞춤법에 명시되어 있는 규정에 따르면 되지만, 근본적으로 명확한 정의가 내려있지 않으며 복잡하고 애매모호한 기준들이 얽혀 사용자들이 혼란을 겪는 등 많은 오류를 일으키고 있다. 이에 맞춤법 오류에 대한 원인을 찾아 체계적인 교육이 이루어지거나, 맞춤법을 수정 및 보완할 필요성이 있다 하겠다. 본 연구는 사용자들의 편의성을 우선시하여 맞춤법에 있어 논리적 근거를 마련하고 한국어 정보처리의 양상을 살펴보는 것에 의의가 있다. 이에 비교적 띄어쓰기 기준이 명확한 관형어절에 초점을 두어 띄어쓰기가 읽기에 어떤 영향을 미치는지 알아보고자 실시하였다. '관형사 + 명사' 구조와 '~적 + 명사' 구조의 관형어절이 포함된 104개의 문장을 가지고 2개의 목록을 만들었다. 목록 간에는 띄어쓰기 여부가 반대이며 피험자는 목록 중 하나를 경험하였다. 하나의 문장을 끊어서 제시하여 피험자는 읽는 데로 space bar key를 누르는 자기 읽기 조절 과제를 시행하였고, 이어서 문장에 대한 질문을 통해 이해도 검사를 실시하였다. 관형어절을 읽는 평균 속도를 분석한 결과 미세한 차이가 있었으나, 유의미하지는 않았다. 이는 관형어절에 있어서 띄어쓰기의 영향이 크지 않음을 의미한다고 볼 수 있겠다.

  • PDF

Construction of Partial Word Morpheme Dictionary based on Tagged Corpus and Korean Morphological Analysis (말뭉치 기반 부분 어절 기분석 사전의 구축과 형태소 분석)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.67-72
    • /
    • 2011
  • 기존의 말뭉치 기반 한국어 형태소 분석 방법은 대용량의 어절 기분석 사전을 사용하여 분석하고, 그 사전에 없는 어절은 코드 변환, 형태소 분리, 원형 복원 규칙 적용 등을 거치는 복잡한 분석 방법을 통해 후보들을 생성했다. 이 복잡한 분석 방법은 제작과 유지보수, 실행 관점 모두에서 효율적이지 못하며 정확률을 낮추고 속도를 느리게 하는 요인이 된다. 이런 문제를 해결하기 위해 부분 어절의 기분석 사전을 구축하여 사용하는 방법이 연구되었다. 본 논문에서는 대용량의 분석 말뭉치를 통해 부분 어절의 기분석 사전을 구축하고 형태소 분석에 사용하는 방법을 제안한다. 세종 말뭉치로 실험한 결과 재현율이 99.05%였으며, 품사 및 동형이의어 태깅 정확률은 96.76%였다.

  • PDF

An Automatic Korean Lexical Acquisition System (한국어 어휘자동획득 시스템)

  • Lim, Heui-Seok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.8 no.5
    • /
    • pp.1087-1091
    • /
    • 2007
  • This paper proposes a automatic korean lexical acquisition system which reflects the characteristics of human language acquisition. The proposed system automatically builds two kinds of lexicon, full-form lexicon and decomposition using Korean corpus as its input. As the experimental results using Korean Sejeong corpus of which size is 10 million Eojeols, the system acquired 2,097 full-form Eojeols and 3,488 morphemes. The accumulated frequency of the acquired full-form Eojeols covers the 38.63% of the input corpus and accuracy of morpheme acquisition is 99.87%.

  • PDF

Construction of an Efficient Pre-analyzed Dictionary for Korean Morphological Analysis (한국어 형태소 분석을 위한 효율적 기분석 사전의 구성 방법)

  • Kwak, Sujeong;Kim, Bogyum;Lee, Jae Sung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.2 no.12
    • /
    • pp.881-888
    • /
    • 2013
  • A pre-analyzed dictionary is used to increase the speed and the accuracy of morphological analyzers and to decrease the over-generation. However, if the dictionary includes 'Insufficiently-analyzed word-phrases', which do not include all the possible analysis of the word-phrase, it may cause the decrease of the analysis accuracy. In this paper, we measure the accuracy changes according to the number of word-phrase frequency and the size changes of corpus by Sejong corpus. And performance of integrate system(SMA with pre-dictionary) is highest when sufficient analysis rate of pre-dictionary is more than 99.82%. Also pre-dictionary is constructed with word-phrase that frequency more than 32(64) when size of corpus is 1,600,000(6,300,000) word-phrase.

Statistical Survey of Vocabulary in Korean Textbook for Elementary School 6th-Grade (초등학교 6학년 국어교과서의 어휘 통계조사)

  • Kim, Jong-Young;Kim, Cheol-Su
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.5
    • /
    • pp.515-524
    • /
    • 2012
  • This paper studied the statistics such as the total number of syllables, the kinds of syllables, the frequency of syllables, the number of eojeols(word phrases unique in Korean language), the kinds of eojeols, average length of eojeols, the frequency of eojeols and the parts of speech in four different Korean textbooks for 6th-grade students(6-1 Korean Reading, 6-1 Korean Speaking Listening Writing, 6-2 Korean Reading and 6-2 Korean Speaking Listening Writing). The results of the statistical survey are as follows: the number of Hangul syllables was 194,683; the kinds of syllables were 1,290; the average frequency of syllables was 150.9; the number of eojeol was 70,185; the kinds of eojeol were 22,647; the average frequency of eojeol was 3.1; the average length of eojeols was 2.8 syllables, the longest one consist of 10 syllables. In parts of speech, nouns are used more in the Korean Reading textbook, and verbs are used more in Korean Speaking Listening Writing.

Korean Part-of-Speech Tagging System Using Resolution Rules for Individual Ambiguous Word (어절별 중의성 해소 규칙을 이용한 혼합형 한국어 품사 태깅 시스템)

  • Park, Hee-Geun;Ahn, Young-Min;Seo, Young-Hoon
    • Journal of KIISE:Computing Practices and Letters
    • /
    • v.13 no.6
    • /
    • pp.427-431
    • /
    • 2007
  • In this paper we describe a Korean part-of-speech tagging approach using resolution rules for individual ambiguous word and statistical information. Our tagging approach resolves lexical ambiguities by common rules, rules for individual ambiguous word, and statistical approach. Common rules are ones for idioms and phrases of common use including phrases composed of main and auxiliary verbs. We built resolution rules for each word which has several distinct morphological analysis results to enhance tagging accuracy. Each rule may have morphemes, morphological tags, and/or word senses of not only an ambiguous word itself but also words around it. Statistical approach based on HMM is then applied for ambiguous words which are not resolved by rules. Experiment shows that the part-of-speech tagging approach has high accuracy and broad coverage.

Tagging Error Correction Using Lexical Morpheme Context (형태소 어휘 문맥에 기반한 태깅 오류 정정)

  • Kim, Young-Kil;Yang, Sung-Il;Hong, Mun-Pyo;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.63-68
    • /
    • 2003
  • 본 논문에서는 형태소 분석 대상 어절의 좌우 어절내의 대표 형태소 어휘 문맥 정보에 기반한 형태소 오류 정정 방안을 제안한다. 현재까지 주변의 품사열 문맥 정보에만 의존하는 기존의 품사 태깅 모델과 달리 주변 어휘를 반영할 수 있는 좌우 어절 문맥을 이용해 형태소 태거의 성능을 향상시킬 수 있는 방법들이 제시되었다. 그러나 이러한 어절 문맥에 의한 지속적인 성능 향상을 위해서는 대량의 품사 태킹 문맥 정보를 필요로 한다. 따라서 본 논문에서는 이러한 자료 부족 문제를 해결하기 위하여 기존의 분석 대상 어절 좌우의 어절 단위의 어휘 문맥 정보가 아닌 좌우 어절내의 대표 형태소 단위의 형태소 어휘 문맥을 이용한 품사 태깅 오류 정정 방안을 제안한다. 실험을 통해, 형태소 어휘 단위의 문맥 정보의 적용성(Coverage)의 높고 기존의 품사 문맥 정보 기반의 형태소 분석기의 태깅 오류를 정정하여 그 정확성을 크게 향상시킬 수 있음을 보인다.

  • PDF

Improvement of Transformation Rule-Based Korean Part-Of-Speech Tagger (변형 규칙 기반 한국어 품사 태거의 개선)

  • Lim, Heui-Seok;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.216-221
    • /
    • 1996
  • 변형 규칙 기반 품사 태거는 태깅 규칙을 코퍼스로부터 자동 학습할 수 있고, 견고하며 태깅 결과를 이해하고 분석하기가 쉽다는 장점을 갖는다. 이에 최근 한국어 특성을 고려한 변형 규칙 기반 한국어 품사 태거가 개발되었다. 하지만 이 시스템은 오류 어절의 어휘 정보를 사용하지 않으므로 수정 가능 오류에 대한 변형 규칙이 제대로 학습되지 못하며, 변형 규칙 적용 과정에 새로운 오류를 발생시킨다는 문제점이 있다. 이에 본 논문은 오류 어절의 어휘 정보를 참조할 수 있는 세부변형 규칙 추출을 이용한 변형 규칙 기반 한국어 품사 태거의 개선 방안을 제안한다. 어휘 정보를 참조할 수 있는 세부 변형 규칙의 형태는 특정 문맥 C에서 어절 W의 어절 태그 ${\alpha}$를 어절 태그 ${\beta}$로 변형한다와 같다. 제안된 방법은 약 10만 어절 크기의 학습 코퍼스에서 57개의 세부 규칙을 학습하였고, 2만 어절 크기의 실험코퍼스에 적용한 결과 95.6%의 정확도를 보임으로써 기존의 변형 규칙 기반 품사 태거의 정확도를 약 15.4% 향상시켰다.

  • PDF

POS-Tagging Model Combining Rules and Word Probability (규칙과 어절 확률을 이용한 혼합 품사 태깅 모델)

  • Hwang, Myeong-Jin;Kang, Mi-Young;Kwon, Hyuk-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.11-15
    • /
    • 2006
  • 본 논문은, 긍정적 가중치와 부정적 가중치를 통해 표현되는 규칙에 기반을 둔 품사 태깅 모델과, 형태 소 unigram 정보와 어절 내의 카테고리 패턴에 기반하여 어절 확률을 추정하는 품사 태깅 모델의 장점을 취하고 단점을 보완할 수 있는 혼합 품사 태깅 모델을 제안한다. 이 혼합 모델은 먼저, 규칙에 기반한 품사 태깅을 적용한 후, 규칙이 해결하지 못한 결과에 대해서 통계적인 기법을 사용하여 품사 태깅을 한다. 본 연구는 어절 내 카테고리 패턴정보에 따른 파라미터 set과 형태소 unigram만을 이용해 어절 확률을 계산해 내므로 다른 통계기반 접근방법에서와는 달리 작은 크기의 통계사전만을 필요로 하며, 카테고리 패턴 정보를 사용함으로써 통계기반 접근 방법의 가장 큰 문제점인 data sparseness 문제 또한 줄일 수 있다는 이점이 있다. 특히, 본 논문에서 사용할 통계 모델은 어절 확률에 기반을 두고 있기 때문에 한국어의 특성을 잘 반영할 수 있다. 본 논문에서 제안한 혼합 모델은 규칙이 적용된 후에도 후보열이 둘 이상 남아 오류로 반환되었던 어절 중 24%를 개선한다.

  • PDF