• 제목/요약/키워드: Morphological Errors

검색결과 54건 처리시간 0.023초

기계학습에 기반한 한국어 미등록 형태소 인식 및 품사 태깅 (Part-Of-Speech Tagging and the Recognition of the Korean Unknown-words Based on Machine Learning)

  • 최맹식;김학수
    • 정보처리학회논문지B
    • /
    • 제18B권1호
    • /
    • pp.45-50
    • /
    • 2011
  • 한국어 형태소 분석에서 미등록 형태소 오류들은 2가지 유형으로 나뉜다. 첫 번째 오류 유형은 형태소 분석기가 어떤 형태소열도 찾아내지 못하는 것이고, 두 번째 오류 유형은 등록 형태소들의 잘못된 조합을 찾아내는 것이다. 지금까지 대부분의 기존 미등록 형태소 추정 기술들은 단지 첫 번째 오류 유형에만 초점을 맞추어 왔다. 본 논문에서는 2가지 유형의 오류들의 모두 다룰 수 있는 미등록 형태소 추정 방법을 제안한다. 제안 방법은 SVM(Support Vector Machine)을 이용하여 미등록 형태소 오류들을 포함할 가능성이 있는 어절들을 검출한다. 그리고 CRFs(Conditional Random Fields)를 이용하여 검출된 어절들의 형태소 분리와 품사 태깅을 수행한다. 실험에서 제안 방법은 기능어 최장 일치 기반의 전형적인 방법보다 뛰어난 성능을 보였다. 실험 결과에 기초하여 미등록 형태소 오류의 두 번째 유형이 한국어 형태소 분석의 성능을 올리기 위해서 꼭 다루어져야 한다는 것을 알 수 있었다.

한-영 기계번역 결과물의 오류 유형 및 원인 분석: 형태적·구문적 오류를 중심으로 (Analyzing the Types and Causes of Korean-to-English Machine Translation Errors: Focused on Morphological and Syntactical Errors)

  • 백지연;구혜경
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.199-204
    • /
    • 2022
  • 본 연구의 목적은 기계번역을 활용한 대학교 영어쓰기 수업에서 한-영 기계번역 결과물에 나타난 형태적 및 구문적 오류 유형과 그에 대한 원인을 분석하기 위한 것이다. 한국의 EFL 대학생 7명이 연구에 참여하였으며, 그들은 한 학기동안 총 3회의 영어쓰기 과제를 수행하였다. 본 연구에서는 학생들이 제출한 영어쓰기 결과물 중 기계번역 결과물에 나타난 형태적 및 구문적 오류의 유형을 분석하였으며, 우리말 초고와 비교 분석을 통하여 그 원인을 찾아보고자 하였다. 분석결과, 기계번역 결과물에서 가장 많이 발생한 오류는 문장구조와 표기법 관련 오류였으며, 기계번역 결과물에서 발생한 대부분의 오류는 한국어 원문의 오류로 인하여 발생한 것으로 파악되었다.

문서내 단어간 비교를 통한 철자오류 검출 (Detecting Spelling Errors by Comparison of Words within a Document)

  • 김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.83-92
    • /
    • 2011
  • 일반 출판물과는 달리 문서 편집기를 사용하여 작성중에 있는 문서에는 사용자의 실수에 의한 오타 오류가 자주 발생한다. 이와 같은 온라인 문서에서 맞춤법 오류의 다수를 차지하는 사용자의 오타 오류는 대부분 자판을 입력할 때 주위 문자를 잘못 입력하는 경우이다. 통상적인 철자 검사기는 이러한 오류들을 형태소 분석기를 이용하여 검출하고 교정하게 된다. 즉, 입력된 어절에 대해 형태소 분석을 시도하고 분석되지 않은 어절을 철자 오류로 간주하게 된다. 그러나 오타 입력된 어절임에도 불구하고 형태소 분석에 성공한 경우에는 이와 같은 방법으로는 검출이 불가능하다. 본 논문에서는 기존 방법들이 검출하지 못했던 철자 오류들을 검출해 낼 수 있는 방법을 제시한다. 이 방법은 문서 작성자의 오타 입력은 반복하여 입력되지 않는 경향이 있으므로 저빈도로 발생한다는 특성에 기반하여 제안되었다. 저빈도의 어절의 자소 대치를 통해 문서의 특정 구간 내의 다른 단어와 비교하여 오타일 확률이 적은 단어인 자주 나오는 단어와 매칭이 된다면 일단 오류 후보로 가정하는 것이다. 여기에는 몇 가지 경험적인 제약이 추가되어야 한다. 이러한 단어간 비교에 의한 추정은 기존에 발견하지 못했던 구문오류뿐만 아니라 일부 의미오류까지 검출할 수 있으며, 교정 후보 선정시 가중치 적용에도 사용될 수 있다.

A Study of Morphological Errors in Aphasic Language

  • Kim, Heui-Beom
    • 음성과학
    • /
    • 제1권
    • /
    • pp.227-236
    • /
    • 1997
  • How do aphasics deal with the inflectional marking occurring in agglutinative languages like Korean? Korean speech repetition, comprehension and production were studied in 3 Broca's aphasic speakers of Korean. As experimental materials, 100 easy sentences were chosen in 1st grade Korean elementary school textbooks about reading writing and listening, and two pictures were made from each sentence. This study examines the use of three kinds of inflectional markings--past tense, nominative case, and accusative case. The analysis focuses on whether each inflectional marking was performed well or not in tasks such as repetition, comprehension and production. In addition, morphological errors concerned with each inflectional marking were analyzed in view of markedness. In general, the aphasic subjects showed a clear preservation of the morphological aspects of their native language. So the view of Broca's aphasics as agrammatical could not be strongly supported. It can be suggested that nominative case and accusative case are marked elements in Korean.

  • PDF

형태소 합성 기법을 이용한 형태소 패턴 사전의 반자동 구축 (Semi-Automatic Construction of Morphological Pattern Dictionary using the Method of Morphological Synthesis)

  • 박인철
    • 한국산학기술학회논문지
    • /
    • 제12권11호
    • /
    • pp.5278-5283
    • /
    • 2011
  • 초고속 한국어 형태소 분석을 위한 하나의 방법은 사전에 형태소 결과를 미리 저장해 놓고 이를 이용하는 것이다. 이러한 형태소 패턴 사전을 수작업으로 구축하려면 많은 비용이 들 뿐만 아니라 적지 않은 오류가 포함될 수 있다. 본 논문은 한국어 형태소 합성을 이용하여 자동으로 형태소 패턴을 생성하는 방법을 제안한다. 실험을 통해, 올바른 형태소 분석을 위해 사용한 형태소 패턴의 86%를 자동으로 생성함을 알 수 있었다. 형태소 패턴을 이용한 형태소 분석기가 403MB의 한국어 코퍼스를 분석하는 데 걸린 시간은 2.8GHz 윈도우 시스템에서 52.68초였다.

Improving the Quality of Filtered Lidar Data by Local Operations

  • Seo, Su-Young
    • 대한원격탐사학회지
    • /
    • 제23권3호
    • /
    • pp.189-198
    • /
    • 2007
  • Introduction of lidar technology have contributed to a wide range of applications in generating quality surface models. Accordingly, because of the importance of terrain surface models in mapping applications, rigorous studies have been performed to extract ground points from a lidar data point cloud. Although most filters have been shown abilities to extract ground points with their parameters tuned, however, most experiments revealed that there are certain limitations in optimizing filter parameters and the correction of remaining misclassified points is not straightforward. In this study, therefore, a method to improve the quality of filtered lidar data is proposed, which exploits neighboring surface properties arising between immediate neighbors. The method comprises a sequence of procedures which can reduce commission and omission errors. Commission errors occurring in low-rise objects are reduced by utilizing morphological operations. On the other hand, omission errors are reduced by adding missing ground points around step edges. Experimental results show that the qualities of filtered data can be improved considerably by the proposed method.

강건한 한국어 상품평의 감정 분류를 위한 패턴 기반 자질 추출 방법 (A Robust Pattern-based Feature Extraction Method for Sentiment Categorization of Korean Customer Reviews)

  • 신준수;김학수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.946-950
    • /
    • 2010
  • 기계 학습 기반의 많은 감정 분류 시스템들은 문장으로부터 언어적 자질을 추출하기 위하여 형태소 분석기를 사용한다. 그러나 온라인 상품평에는 많은 띄어쓰기 오류 및 철자 오류가 포함되어 있어서 일반적으로 형태소 분석기가 좋은 성능을 내기 어려우며, 기반 시스템의 낮은 성능은 감정 분류 시스템의 성능하락을 초래한다. 이러한 문제를 해결하기 위하여 본 논문에서는 어절 패턴과 음운 패턴의 최장 일치 매칭(matching)에 기반한 자질 추출 방법을 제안한다. 두 종류의 패턴은 대용량의 품사 부착 말뭉치로부터 자동으로 구축된다. 어절 패턴은 영사, 동사와 같은 내용어를 포함하는 어절들로 구성되며, 음운 패턴은 동사나 형용사와 같은 용언의 초성과 중성의 쌍으로 구성된다. 음운 패턴에 초성과 중성만을 사용한 이유는 철자 오류에 영향을 덜 받기 때문이다. 제안 방법을 평가하기 위하여 SVM(Support Vector Machine)을 기계 학습기로 사용하는 감정 분류 시스템을 구현하였다. 한국어 상품평에 대한 실험에서 제안 방법을 자질 추출 모듈로 사용하는 감정 분류 시스템이 형태소 분석기를 사용하는 것보다 우수한 성능을 보였다.

염색체 영상의 재구성에 의한 형태학적 특징 파라메타 추출 (Morphological Feature Parameter Extraction from the Chromosome Image Using Reconstruction Algorithm)

  • 장용훈;이권순
    • 대한의용생체공학회:의공학회지
    • /
    • 제17권4호
    • /
    • pp.545-552
    • /
    • 1996
  • Researches on chromosome are very significant in cytogenetics since a gene of the chromosome controls revelation of the inheritance plasma The human chromosome analysis is widely used to diagnose genetic disease and various congenital anomalies. Many researches on automated chromosome karyotype analysis has been carried out, some of which produced commercial systems. However, there still remains much room for improving the accuracy of chromosome classification. In this paper, we propose an algorithm for reconstruction of the chromosDme image to improve the chromosome classification accuracy. Morphological feature parameters are extracted from the reconstructed chromosome images. The reconstruction method from chromosome image is the 32 direction line algorithm. We extract three morphological feature parameters, centromeric index(C.I.), relative length ratio(R.L.), and relative area ratio(R.A.), by preprocessing ten human chromosDme images. The experimental results show that proposed algorithm is better than that of other researchers'comparing by feature parameter errors.

  • PDF

Sexual Size Dimorphism and Morphological Sex Determination in the Black-billed Magpie in South Korea (Pica pica sericea)

  • Lee, Sang-Im;Jang, Hyun-Joo;Eo, Soo-Hyung;Choe, Jae-Chun
    • Journal of Ecology and Environment
    • /
    • 제30권2호
    • /
    • pp.195-199
    • /
    • 2007
  • Statistical tools for determining sex in the sexually monomorphic black-billed magpie based on morphological characters have been developed based on studies of European and North American populations. However, since no morphological method has been developed for black-billed magpies in Korea, it has been difficult to conduct field studies that require information about the sex of individuals. We present two discriminant equations for determining sex of second-year (SY) and after-second-year (ASY) magpies in north- and midwestern part of South Korea. Based on morphological measurements on 105 SY (56 females, 49 males) and 72 ASY (36 females, 36 males) individuals, we found body mass, wing chord, and head length to be the most useful features for morphological sex determination. The accuracy of our method was 86.5% for SYs and 93.1% for ASYs, which is similar to values reported previously from American and European magpies. Since the equations contain morphological traits which are only minimally susceptible to seasonal variation and measurement errors, our discriminant equations should be both useful and robust for sex determination on black-billed magpies in the northern and mid-western regions of South Korea.

제주도와 동해 근해에 서식하는 자리돔(Chromis notata)의 형태와 유전특성 비교 (Morphological and Genetic Characteristics of Pearl-spot Damselfish Chromis notata (Teleostei: Pomacentridae) in Coastal Waters of East Sea (Sea of Japan) and Jejudo)

  • 신혜정;김선욱;최영웅
    • Ocean and Polar Research
    • /
    • 제36권2호
    • /
    • pp.189-197
    • /
    • 2014
  • The pearl-spot damsel, Chromis notata, is one of the important fishery species in Korea. While C. notata has been commonly harvested in southern Korea, the increasing number of C. notata in higher latitudes has crucial ecological, economic and evolutionary implications under conditions where the climate is rapidly changing. Here we examined the morphological and genetic characteristics of C. notata to assess patterns of geographical variations among the groups from three different sites. The groups were clearly distinguishable in the analysis of morphological characteristics. On the other hand, the groups were genetically indistinguishable. All individuals fell within a single clade in the neighbor-joining tree but appeared scattered in the haplotype network. Several haplotypes are shared among the sampling sites (Jejudo-Ulleungdo; Hap 9, Wangdolcho-Ulleungdo; Hap 28, Hap 33, Hap 34). Although control region markers did not elucidate the spatial patterns in genetic characteristics, Wangdolcho and Ulleungdo groups appear to exhibit a more robust gene flow between the two groups than with Jejudo group. Integrative approaches such as those combining morphological and genetic analyses minimize potential errors caused by limited perspectives of each analysis and can provide useful information for discovering functional DNA regions attributable to morphological characteristics expressions.