• 제목/요약/키워드: Korean automatic spacing

검색결과 67건 처리시간 0.026초

Korean automatic spacing using pretrained transformer encoder and analysis

  • Hwang, Taewook;Jung, Sangkeun;Roh, Yoon-Hyung
    • ETRI Journal
    • /
    • 제43권6호
    • /
    • pp.1049-1057
    • /
    • 2021
  • Automatic spacing in Korean is used to correct spacing units in a given input sentence. The demand for automatic spacing has been increasing owing to frequent incorrect spacing in recent media, such as the Internet and mobile networks. Therefore, herein, we propose a transformer encoder that reads a sentence bidirectionally and can be pretrained using an out-of-task corpus. Notably, our model exhibited the highest character accuracy (98.42%) among the existing automatic spacing models for Korean. We experimentally validated the effectiveness of bidirectional encoding and pretraining for automatic spacing in Korean. Moreover, we conclude that pretraining is more important than fine-tuning and data size.

음절 bigram를 이용한 띄어쓰기 오류의 자동 교정 (Automatic Correction of Word-spacing Errors using by Syllable Bigram)

  • 강승식
    • 음성과학
    • /
    • 제8권2호
    • /
    • pp.83-90
    • /
    • 2001
  • We proposed a probabilistic approach of using syllable bigrams to the word-spacing problem. Syllable bigrams are extracted and the frequencies are calculated for the large corpus of 12 million words. Based on the syllable bigrams, we performed three experiments: (1) automatic word-spacing, (2) detection and correction of word-spacing errors for spelling checker, and (3) automatic insertion of a space at the end of line in the character recognition system. Experimental results show that the accuracy ratios are 97.7 percent, 82.1 percent, and 90.5%, respectively.

  • PDF

한글 문장의 자동 띄어쓰기를 위한 두 가지 통계적 모델 (Two Statistical Models for Automatic Word Spacing of Korean Sentences)

  • 이도길;이상주;임희석;임해창
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권3_4호
    • /
    • pp.358-371
    • /
    • 2003
  • 자동 띄어쓰기는 문장 내에서 잘못 띄어쓴 어절들을 올바르게 복원하는 과정으로서, 독자에게 글의 가독성을 높이고 문장의 뜻을 정확히 전달하기 위해 매우 중요하다. 기존의 통계 기반 자동 띄어쓰기 접근 방법들은 이전 띄어쓰기 상태를 고려하지 않기 때문에 잘못된 확률 정보에 의한 띄어쓰기를 할 수밖에 없었다. 본 논문에서는 기존의 통계 기반 접근 방법 의 문제점을 해결할 수 있는 두 가지 통계적 띄어쓰기 모델을 제안한다. 제안하는 모델은 자동 띄어쓰기를 품사 부착과 같은 분류 문제(classification problem)로 간주할 수 있다는 착안에 기반하며, 은닉 마르코프 모델을 일반화함으로써 확장된 문맥을 고려할 수 있고 보다 정확한 확률을 추정할 수 있도록 고안되었다. 제안하는 모델과 지금까지 가장 좋은 성능을 보이는 기존의 방법을 비교하기 위해 여러 가지 실험 조건에 따른 다양한 실험을 수행하였고, 오류에 대한 자세한 분석을 제시하고 있다 제안하는 모델을 복합 명사를 고려하는 평가 방식에 적응한 실험 결과, 98.33%의 음절 단위 정확도와 93.06%외 어절단위 정확률을 얻었다.

말뭉치와 형태소 분석기를 활용한 한국어 자동 띄어쓰기 (Automatic Word Spacing Using Raw Corpus and a Morphological Analyzer)

  • 심광섭
    • 정보과학회 논문지
    • /
    • 제42권1호
    • /
    • pp.68-75
    • /
    • 2015
  • 본 논문에서는 띄어쓰기가 전혀 되어 있지 않은 문자열을 입력 받아 말뭉치에서 추출한 어절 정보를 이용하여 자동 띄어쓰기를 해 주는 방법론을 제안한다. 형태소 분석기도 사용되나 오류 수정이라는 제한적인 용도로만 사용된다. 성능 평가를 위해 1,000만 어절 규모의 세종 말뭉치에서 순수 한글 585만 어절을 발췌하여 10 개의 세트로 나누고 10 배수 교차 검증을 실시한 결과 98.06%의 음절 정확도와 94.15%의 어절 재현율을 얻었다. 또한, 개인용 컴퓨터에서 초당 25만 어절, 1.8 MB의 문서를 처리할 수 있을 정도로 빠르다. 제안된 방법의 정확도나 재현율은 어절 사전의 크기에 영향을 받기 때문에 보다 큰 말뭉치로 어절 사전을 구축하면 성능이 더욱 향상될 것으로 기대된다.

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

한국어 특성과 CRFs를 이용한 자동 띄어쓰기 시스템 (Automatic Word Spacing for Korean Using CRFs with Korean Features)

  • 이현우;차정원
    • 대한음성학회지:말소리
    • /
    • 제65호
    • /
    • pp.125-141
    • /
    • 2008
  • In this work, we propose an automatic word spacing system for Korean using conditional random fields (CRFs) with Korean features. We map a word spacing problem into a classification problem in our work. We build a basic system which uses CRFs and Eumjeol bigram. After then, we analyze the result of inner-test. We extend a basic system added by some Korean features which are Josa, Eomi and two head Eumjeols of word extracting from lexicon. From the results of experiment, we can see that the proposed method is better than previous methods. Additionally the proposed method will be able to use mobile and speech applications because of very small size of model.

  • PDF

한글 문장의 자동 띄어쓰기를 위한 어절 블록 양방향 알고리즘 (Eojeol-Block Bidirectional Algorithm for Automatic Word Spacing of Hangul Sentences)

  • 강승식
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권4호
    • /
    • pp.441-447
    • /
    • 2000
  • 자동 띄어쓰기는 띄어쓰기가 무시된 한글 문서의 자동색인이나 문자인식 시스템에서 줄바꿈 문자에 대한 공백 삽입 문제 등을 해결하는데 필요하다. 이러한 문서에서 공백이 삽입될 위치를 자동으로 찾아주는 자동 띄어쓰기 알고리즘으로 문장 분할 기법과 양방향 최장일치법을 이용한 어절 인식 방법을 제안한다. 문장 분할은 한글의 음절 특성을 이용하여 어절 경계가 비교적 명확한 어절 블록을 추출하는 것이며, 형태소 분석기를 이용한 양방향 최장일치법에 의해 어절 블록에 나타난 각 어절들을 인식한다. 4,500여 어절로 구성된 두 가지 유형의 문장 집합에 대하여 제안한 방법의 띄어쓰기 정확도를 평가한 결과 '공백 재현율'이 97.3%, '어절 재현율'이 93.2%로 나타났다.

  • PDF

저사양 기기를 위한 한국어 자동 띄어쓰기 시스템 (An Automatic Korean Word Spacing System for Devices with Low Computing Power)

  • 송영길;김학수
    • 정보처리학회논문지B
    • /
    • 제16B권4호
    • /
    • pp.333-340
    • /
    • 2009
  • 대부분의 기존 자동 띄어쓰기 시스템들은 많은 시스템 자원을 필요로 하기 때문에 상대적으로 낮은 컴퓨팅 파워를 가진 모바일 기기에 사용하기에는 적합하지 않다. 본 논문에서는 저사양 모바일 기기에 맞도록 메모리 사용량이 적고 수치 계산이 단순한 자동 띄어쓰기 시스템을 제안한다. 제안 시스템은 통계 기반 시스템과 규칙 기반 시스템으로 구성된 2단계 모델이다. 메모리 사용량을 줄이기 위해서 통계 기반 시스템이 음절 유니그램 기반의 개량된 은닉 마코프 모델을 사용하여 띄어쓰기 오류를 1차로 수정한다. 다음으로 정밀도 향상을 위해서 규칙 기반 시스템이 음절 바이그램 이상의 어휘 규칙을 이용하여 잘못 수정된 띄어쓰기 오류를 재보정한다. 실험 결과에 따르면 제안시스템은 1MB를 조금 넘는 메모리 사용하면서도 94.14%라는 비교적 높은 정밀도를 보였다.

자유 곡면으로 구성되는 3차원 구조물에 대한 자동 요소 분할 (Automatic Mesh Generation for Three-Dimensional Structures Consisting of Free-Form Surfaces)

  • 이준성;;박면웅
    • 한국CDE학회논문집
    • /
    • 제1권1호
    • /
    • pp.65-75
    • /
    • 1996
  • This paper describes an automatic finite element(FE) mesh generation for three-dimensional structures consisting of free-form surfaces. This mesh generation process consists of three subprocesses: (a) definition of geometric model, i.e. analysis model, (b) generation of nodes, and (c) generation of elements. One of commercial solid modelers is employed for three-dimensional solid and shell structures. Node is generated if its distance from existing node points is similar to the node spacing function at the point. The node spacing function is well controlled by the fuzzy knowledge processing. The Delaunay method is introduced as a basic tool for element generation. Automatic generation of FE meshes for three-dimensional solid and shell structures holds great benefits for analyses. Practical performances of the present system are demonstrated through several mesh generations for three-dimensional complex geometry.

  • PDF

근사직교 경계고정 곡선좌표계를 사용한 수치적 격자생성 (The numerical grid generation using the nearly orthogonal boundary-fitted curvilinear coordinate systems)

  • 맹주성;신종균
    • 대한기계학회논문집
    • /
    • 제12권3호
    • /
    • pp.561-565
    • /
    • 1988
  • 본 연구에서는 제어함수를 수식으로부터 유도하여 자동적인 격자간격제어가 가능한 "근사직교 경계고정곡선좌표계"를 생성하는 새로운 방법을 제시하여 2차원영역 에 대한 그 적용을 논의하고자 한다. 논의하고자 한다.