• Title/Summary/Keyword: 문장 부호

Search Result 30, Processing Time 0.024 seconds

A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling (문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구)

  • Han, Seunggyu;Yang, Kisu;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

Improvement of korean Braille-Code System for Automatic Reverse Braille Translation (자동 역점역을 가능하게 하는 한글점자 부호체계의 개선)

  • Kihi, Tae-Yeong;Kim, Suk-Il;Kim, Hong-Gi
    • The Transactions of the Korea Information Processing Society
    • /
    • v.5 no.3
    • /
    • pp.703-714
    • /
    • 1998
  • Translation of a Korean text into a braille text causes no problem under the existing Korean braille-code System that maintains I: I correspondence between Korean characters and braille codes. However, reverse translation of a braille text into a Korean text would cause unavoidable mis-translation due to I : N correspondences between braille codes and Korean characters. The analysis shows that in Korean braille-code System, the major reasons for mis-translation are the conflicts between Korean Chosung (initial consonant) letters and numbers, between Korean Jongsung (final consonant) letters and punctuations, between Korean Jongsung (final consonant) letters and English mode delimiter codes, and overlapping use of the same braille code such as opening and closing parentheses. In this paper, we firstly established a reverse translation rule, that is to use an ordinary braille code unless the braille code causes any conflict in braille code sequences. If any ordinary braille code may cause some conflict during the reverse translation, an extended braille code that we propose in this paper must be used. In the experimentation, we cannot get any translation errors with the newly designed braille-code System compared with 25% of errors with the existing braille-code System.

  • PDF

Improvement of a Korean Speller with Collocation of Parts of Speech (연어 정보를 이용한 한국어 철자 검사기의 기능 개선)

  • Sim, Chul-Min;Kim, Hyun-Jin;Kim, Young-Jin;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1995.10a
    • /
    • pp.86-90
    • /
    • 1995
  • 본 논문에서는 한 어절 단위에서 다수 어절 단위로 그 고려 영역을 확장한 개선된 철자 검사기를 제시한다. 개선된 철자 검사기는 1) 한 어절 철자 검사 교정부, 2) 언어 규칙 처리부, 3) 문장 부호 규칙 처리부로 구성된다. 한 어절 철자 검사 교정부는 기존의 철자 검사기와 같은 기능을 수행한다. 연어 규칙처리부는 형태소간의 연어 관계를 이용하여 7가지로 유형 분류된 어절 간 오류를 처리한다. 문장 부호 처리부는 문장 부호 자체의 오류와 문장 부호를 참조하여 좌우 어절들의 오류를 검사한다. 현재 256가지의 연이 규칙과 51가지의 문장 부호 규칙이 구축되어 있다. 본 논문에서 제시한 개선된 철자 검사기는 한국어 문체 검사기(Korean Style Checker) 로서 의의를 가지며, 형태소의 연어 정보는 향후 파싱 등의 문장 분석이나 의미 분석에 중요한 자료로 이용될 수 있을 것으로 기대된다.

  • PDF

Proposal of Punctuation Mark Filling Task with BERT-based Model (BERT 기반 문장부호 자동 완성 모델)

  • Han, Seunggyu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.263-266
    • /
    • 2020
  • 문장 부호는 그 중요성에 비해 자연어 처리 분야에서 모델의 학습 효율을 위해 삭제되는 등 잘 연구되지 않았던 분야이다. 본 논문에서는 대한민국 정부에서 공식적으로 공개한 연설문을 수집한 말뭉치를 바탕으로 한국어의 문장 부호를 처리하는 BERT 기반의 fine-tuning 모델을 제시한다. BERT 기반 모델에서 토큰별로 예측하는 본 모델은 쉼표와 마침표만을 예측하는 경우 0.81, 물음표까지 예측하는 경우 0.66, 느낌표까지 예측하는 경우 0.52의 F1-Score를 보였다.

  • PDF

Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese (확장청크와 세분화된 문장부호에 기반한 중국어 최장명사구 식별)

  • Bai, Xue-Mei;Li, Jin-Ji;Kim, Dong-Il;Lee, Jong-Hyeok
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.4
    • /
    • pp.320-328
    • /
    • 2009
  • In general, there are two types of noun phrases(NP): Base Noun Phrase(BNP), and Maximal-Length Noun Phrase(MNP). MNP identification can largely reduce the complexity of full parsing, help analyze the general structure of complex sentences, and provide important clues for detecting main predicates in Chinese sentences. In this paper, we propose a 2-phase hybrid approach for MNP identification which adopts salient features such as expanded chunks and classified punctuations to improve performance. Experimental result shows a high quality performance of 89.66% in $F_1$-measure.

Maximal Length Noun Phrase Identification Based on Punctuations and Expanded Chunk (문장부호 정보와 확장된 청크에 기반한 중국어 최장명사구 식별)

  • Bai, Xue-Mei;Jin, Mei-Xun;Li, Jin-Ji;Chung, You-Jin;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.112-119
    • /
    • 2005
  • 명사구는 기본명사구와 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 수행한다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 사용한 최장명사구 식별 기법을 제안한다. 제안된 기법은 기본모델(baseline)보다 4.05% 향상된 평균 88.63%의 우수한 F-measure 성능을 보인다.

  • PDF

Development of Automatic Reference-Citation-Mark Attachment Support System (참고문헌 인용부호 자동부착 지원 시스템 개발)

  • Song, Kwangho;Min, Jihong;Kim, Yoo-sung
    • KIISE Transactions on Computing Practices
    • /
    • v.21 no.10
    • /
    • pp.623-630
    • /
    • 2015
  • In this paper, the design and implementation of an automatic reference-citation-mark attachment system are introduced. The system automatically attaches a citation mark to the end of a sentence in a technical document if the corresponding statement has a high similarity to another statement in the same document; simultaneously, the corresponding bibliographic data is automatically created from the cited-document information. In accordance with functional specifications, a Web-based, online service model and the development of its prototype system are proposed. The developed system can help in the elimination of unexpected plagiarism issues, and will alleviate the burdens of reference citation and reference-list creation for technical writers.

Morse Code Interpretor Based on Raspberry Pi (라즈베리 파이 기반의 모스 코드 해석기)

  • Hur, Tai-Sung;Song, Jae-Sung;Ryu, Sung-Won
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.327-328
    • /
    • 2018
  • 모스 부호는 1844년에 완성한 전신 기호로 짧은 발신 전류와 긴 발신 전류만을 가지고 전신 부호를 구성, 문장을 구성하여 전송할 수 있게한 부호이다. 오늘날 일반인에게 모스 부호는 생소하기도 하며 쉽게 접근하기 어려운 언어이다. 특히 영어가 아닌 한국어 모스 부호 체계에서 그 현상은 더욱 두드러진다. 본 시스템은 라즈베리 파이를 이용하여 모스 부호를 한국어로 변환시키는 어플리케이션을 구현하고, 비전문가인 사용자들이 한국어 모스 부호에 익숙해질 수 있도록 도와주는 것을 목적으로 한다. 또한, 라즈베리 파이 기반으로 한글 모스 부호 해석기를 구현함으로써 한글 모스 부호 교육의 편의성, 휴대성과 접근성을 향상시켰다.

  • PDF

An Effective Approach Using Sentence Symbols to Identify Maximal-Length Noun Phrase in Chinese (문장부호를 사용한 효과적인 중국어 최장명사구 식별기법)

  • Bai Xue-Mei;Li Jin-Ji;Jin Mei-Xun;Cheng You-Jin;Lee Jong-Hyeok
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.454-456
    • /
    • 2005
  • 일반적으로 중국어의 명사구는 최단명사구, 기본명사구 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 한다. 본 논문에서는 특성에 따라 5개의 클래스로 세분화된 문장부호를 학습자질로 사용하여 최장명사구 자동식별을 진행한다. 제안된 기법은 평균길이가 4인 최장명사구의 식별실험에서 기본모델(baseline)보다 $4.5\%$ 향상된 평균 $85.1\%$의 우수한 F-measure 성능을 보인다.

  • PDF

Special Word Analysis Algorithm Considering Punctuations (문장부호를 고려한 특수어절 분석 알고리즘)

  • Kim, Hyun-Joo;Lee, Young-Myn;Lee, Young-Sang;Chun, Seung-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.1122-1125
    • /
    • 2015
  • 자연언어 분석에 있어서 형태소 분석은 핵심적인 기술로 요구되고 있다. 한글 형태소 분석기는 한글을 분석하기 위한 알고리즘을 활용하여 형태소 단위로 분석한다. 하지만 한글과 문장부호가 혼용된 특수어절은 한글을 분석하는 알고리즘을 통하여 정확한 결과를 도출할 수가 없으므로 별도의 알고리즘이 필요하다. 본 논문에서는 이러한 문제점을 특수어절에 공백을 삽입하여 다시 어절로 분리해 내는 알고리즘을 적용하여 해결하고자 한다.