• 제목/요약/키워드: 한국어 띄어쓰기

검색결과 101건 처리시간 0.021초

음절 및 형태소 정보를 이용한 띄어쓰기 일관성 검사 (Word Spacing Consistency Check using Syllable and Morpheme Information)

  • 이재성
    • 한국콘텐츠학회논문지
    • /
    • 제10권5호
    • /
    • pp.10-19
    • /
    • 2010
  • 한국어 띄어쓰기 규칙은 경우에 따라 예외 조항이 있어 띄어 쓰거나 붙여 쓰는 것을 모두 허용하는 경우가 있다. 이러한 이중적 규칙에도 불구하고 같은 문서 내의 같은 어절이나 어구들은 일관성 있게 띄어쓰거나 붙여 쓰는 것이 문서 교정상 올바르다. 본 논문에서는 음절 정보 및 형태소 정보를 이용하여 비일관적으로 쓰인 띄어쓰기를 효과적으로 검사하는 방법을 제안하고 실험하여 평가하였다.

한국어 교재의 행 바꾸기 -띄어쓰기와 읽기 능력의 계발 - (Examining Line-breaks in Korean Language Textbooks: the Promotion of Word Spacing and Reading Skills)

  • 조인정;김단비
    • 한국어교육
    • /
    • 제23권1호
    • /
    • pp.77-100
    • /
    • 2012
  • This study investigates issues in relation to text segmenting, in particular, line breaks in Korean language textbooks. Research on L1 and L2 reading has shown that readers process texts by chunking (grouping words into phrases or meaningful syntactic units) and, therefore, phrase-cued texts are helpful for readers whose syntactic knowledge has not yet been fully developed. In other words, it would be important for language textbooks to avoid awkward syntactic divisions at the end of a line, in particular, those textbooks for beginners and intermediate level learners. According to our analysis of a number of major Korean language textbooks for beginner-level learners, however, many textbooks were found to display line-breaks of awkward syntactic division. Moreover, some textbooks displayed frequent instances where a single word (or eojeol in the case of Korean) is split between different lines. This can hamper not only learners' learning of the rules of spaces between eojeols in Korean, but also learners' development in automatic word recognition, which is an essential part of reading processes. Based on the findings of our textbook analysis and of existing research on reading, this study suggests ways to overcome awkward line-breaks in Korean language textbooks.

음절 바이그램 단순화 기법에 의한 한국어 자동 띄어쓰긴 시스템의 성능 개선 (Improvement of Automatic Word Segmentation of Korean by Simplifying Syllable Bigram)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.227-231
    • /
    • 2003
  • 한극 문서의 자동 띄어쓰기는 웹 문서와 검색 질의어, 법률안 제목, 문자 메시지 등에서 띄어쓰지 않은 문장에 대해 자동으로 공백을 삽입해 주는 기능이다. 기존의 자동 띄어쓰기 기법은 각 문자 경계마다 공백 삽입 일치도를 비교하는 방식으로 평가되었으나, 실제 응용 시스템에서는 어절 인식 정확률이 높고, 공백의 과생성 오류가 적으며, 바이그램 데이터 크기가 작아야 한다. 본 논문에서는 이러한 요구 조건에 따라 새로운 평가 기준을 제시하고, 이에 따라 기존 방법보다 바이그램 데이터 크기가 매우 작고, 정확률이 높은 자동 띄어씌기 방법을 제안하였다.

  • PDF

한국어 경량형 띄어쓰기 교정 시스템의 구현 (An Implementation of a Lightweight Spacing-Error Correction System for Korean)

  • 송영길;김학수
    • 컴퓨터교육학회논문지
    • /
    • 제12권2호
    • /
    • pp.87-96
    • /
    • 2009
  • 본 논문에서는 기존의 규칙 기반 방법과 통계 기반 방법의 장점을 취하면서도 메모리 사용량이 적은 한국어 띄어쓰기 교정 시스템을 제안한다. 또한 철자 오류와 조사 생략이 빈번히 발생하는 모바일 구어체에 강건하도록 모델을 학습시키기 위해서 일반 구어체 말뭉치로부터 가상의 구어체 말뭉치를 자동으로 구축하는 방법을 제안한다. 제안 시스템은 새로운 음절 패턴에 대한 적용 범위를 증가시키기 위해서 음절 유니그램 통계 정보를 이용하며, 정밀도 향상을 위해서 음절 바이그램 이상의 오류 교정 규칙을 이용한다. 가상의 모바일 구어체 문장에 대한 실험 결과에 따르면 제안 시스템은 1MB 내외의 적은 메모리를 사용하면서도 92.10%(일반 구어체 말뭉치에서 93.80%, 일반 균형 말뭉치에서 94.07%)라는 비교적 높은 정밀도를 보였다.

  • PDF

접속정보를 이용한 한글 철자 및 띄어쓰기 검사기의 설계 및 구현 (A Design and Implementation of Hangul Spelling and Word-spacing Checker using Connectivity Information)

  • 강재우;송춘환;김연배;최기선;권용래;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1989년도 한글날기념 학술대회 발표논문집
    • /
    • pp.3-9
    • /
    • 1989
  • 본 논문은 $UNIX^{TM}$ 환경에서의 한글 텍스트에 대해 일괄 처리 방식으로 한글 철자 및 띄어쓰기를 검사하는 시스템을 설계 및 구현하였다. 본 시스템은 접속 정보를 이용한 최단일치법을 사용하여 한 어절에 대해 형태론적인 분석을 하여 입력된 화일 내의 철자 및 띄어쓰기 오류를 찾아낸다.

  • PDF

띄어쓰기 및 철자 오류 동시교정을 위한 통계적 모델 (A joint statistical model for word spacing and spelling error correction)

  • 노형종;차정원;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-31
    • /
    • 2006
  • 본 논문에서는 띄어쓰기 오류와 철자 오류를 동시에 교정 가능한 전처리기를 제안한다. 제시된 알고리즘은 기존의 전처리기 알고리즘이 각 오류를 따로 해결하는 데에서 오는 한계를 극복하고, 기존의 noisy-channel model을 확장하여 대화체의 띄어쓰기 오류와 철자오류를 동시에 효과적으로 교정할 수 있다. N-gram과 자소변환확률 등의 통계적 방법과 어절변환패턴 사전을 이용하여 최대한 사전을 적게 이용하면서도 효과적으로 교정 후보들을 생성할 수 있다. 실험을 통해 현재 단계에서는 만족할 만한 성능을 얻지는 못하였지만 오류 분석을 통하여 이와 같은 방법론이 실제로 효용성이 있음을 알 수 있었고 앞으로 더 많은 개선을 통해 일상적인 대화체 문장에 대해서 효과적인 전처리기로서 기능할 수 있을 것으로 기대 된다.

  • PDF

예측 기반 형태소 분석기와 결합 독립 모형 기반 품사 태거 및 고속 명사 추출기 (A Predictive Morphological Analyzer, A Part-of-Speech Tagger Based on Joint Independence Model, and A Fast Noun Extractor)

  • 이상주;박봉래;김진동;류원호;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.145-150
    • /
    • 1999
  • 본 논문에서는 한국어 자연어 정보처리 기술 표준화를 위한 형태소 분석기 및 품사 태거 평가 대회(MATEC99)에 참여한 고려대학교의 형태소 분석기, 품사 태거, 그리고 명사 추출기를 설명하고 평가 결과를 기술한다. 형태소 분석기는 입력된 어절을 우에서 좌로 분석하며 각 상태에 대한 예측 정보를 활용하여 불필요한 분석 후보에 대한 탐색을 수행하지 않도록 한다. 품사 태거로는 띄어쓰기를 고려한 형태소 품사 2-그램 확률과 띄어쓰기를 고려한 형태소 어휘-품사 3-그램 어휘 확률을 이용하는 결합 독립 모형을 사용한다. 고속 명사 추출기는 고속의 FST 사전과 한국어 특성을 반영한 휴리스틱을 이용한다.

  • PDF

한국어 띄어쓰기 모델에서 사용자 입력을 고려한 베이지언 파라미터 추정 (Bayesian Parameter Estimation Considering User-input for Korean Word Spacing Model)

  • 이정훈;홍금원;이도길;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.5-11
    • /
    • 2008
  • 한국어 띄어쓰기에서 통계적 모델을 사용한 기존의 연구들은 최대우도추정(Maximum Likelihood Estimation)에 기반하고 있다. 그러나 최대우도추정은 자료부족 시 부정확한 결과를 주는 단점이 있다. 본 연구는 이에 대한 대안으로 사용자 입력을 고려하는 베이지언 파라미터 추정(Bayesian parameter estimation)을 제안한다. 기존 연구가 사용자 입력을 교정 대상으로만 간주한 것에 비해, 제안 방법은 사용자 입력을 교정 대상이면서 동시에 학습의 대상으로 해석한다. 제안하는 방법에서 사용자 입력은 학습 말뭉치의 자료부족에서 유발되는 부정확한 파라미터 추정(parameter estimation)을 방지하는 역할을 수행하고, 학습 말뭉치는 사용자 입력의 불확실성을 보완하는 역할을 수행한다. 실험을 통해 문어체 말뭉치, 통신환경 구어체 말뭉치, 웹 게시판 등 다양한 종류의 말뭉치와 다양한 통계적 모델에 대해 제안 방법이 효과적임을 알 수 있다.

  • PDF

Bi-LSTM 보조 신경망 모델을 결합한 생성형 한국어 Inverse Text Normalization 모델 (Generative Korean Inverse Text Normalization Model Combining a Bi-LSTM Auxiliary Model)

  • 조정제;신동수;조경빈;한영섭;전병기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.716-721
    • /
    • 2023
  • Inverse Text Normalization(ITN) 모델은 음성 인식(STT) 엔진의 중요한 후처리 영역 중 하나이며, STT 인식 결과의 가독성을 개선한다. 최근 ITN 모델에 심층신경망을 활용한 연구가 진행되고 있다. 심층 신경망을 사용하는 대부분의 선행연구는 문장 내 변환이 필요한 부분에 토큰 태깅을 진행하는 방식이다. 그러나 이는 Out-of-vocabulary(OOV) 이슈가 있으며, 학습 데이터 구축 시 토큰 단위의 섬세한 태깅 작업이 필요하다는 한계점이 존재한다. 더불어 선행 연구에서는 STT 인식 결과를 그대로 사용하는데, 이는 띄어쓰기가 중요한 한국어 ITN 처리에 변환 성능을 보장할 수 없다. 본 연구에서는 BART 기반 생성 모델로 생성형 ITN 모델을 구축하였고, Bi-LSTM 기반 보조 신경망 모델을 결합하여 STT 인식 결과에 대한 고유명사 처리, 띄어쓰기 교정 기능을 보완한 모델을 제안한다. 또한 보조 신경망을 통해 생성 모델 처리 여부를 판단하여 평균 추론 속도를 개선하였다. 실험을 통해 두 모델의 각 정량 성능 지표에서 우수한 성능을 확인하였고 결과적으로 본 연구에서 제안하는 두 모델의 결합된 방법론의 효과성을 제시하였다.

  • PDF

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.