• 제목/요약/키워드: 문장 부호

검색결과 30건 처리시간 0.022초

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

자동 역점역을 가능하게 하는 한글점자 부호체계의 개선 (Improvement of korean Braille-Code System for Automatic Reverse Braille Translation)

  • 길태영;김석일;김홍기
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.703-714
    • /
    • 1998
  • 기존의 점자 부호 체계에서 한글문장을 점자문장으로 번역하는 작업은 1 : 1의 대응관계가 있으므로 아무런 문제를 야기시키지 않는다. 그러나 점자문장을 한글문장으로 번역하는 작업은 점자부호와 한글부호간의 1 : N의 대응관계로 인하여 피할 수 없는 오류를 파생시킨다. 분석 결과, 점자 부호 체계에서는 한글 초성과 숫자와의 충돌, 한글 종성과 문장부호와의 충돌, 한글 소괄호 열기와 소괄호 닫기 부호를 동일한 부호로 처리하는 것, 영문 열기 및 닫기 부호와 한글 종성과의 충돌 등이 번역 오류의 중요한 원인임을 알 수 있다. 본 논문에서는 이러한 충돌을 해소하기 위한 역점역 규칙을 제정하여, 일차적으로 역점역시에 발생하는 애매성을 앞, 뒤 문맥에 따라 해결할 수 있는 경우에는 원래의 점자 부호를 사용하도록 하고, 만일 이 방법으로 해결되지 않을 경우에는 역점역시에 충돌을 근본적으로 방지하는 확장 점자 부호를 사용하도록 하였다. 여러 가지 파일에 대한 실험 결과, 기존의 점자 부호체계에서의 오류발생율이 평균 25%이었음에 비하여 확장된 점자 부호체계에서는 번역에 따른 오류가 발견되지 않았다.

  • PDF

연어 정보를 이용한 한국어 철자 검사기의 기능 개선 (Improvement of a Korean Speller with Collocation of Parts of Speech)

  • 심철민;김현진;김영진;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.86-90
    • /
    • 1995
  • 본 논문에서는 한 어절 단위에서 다수 어절 단위로 그 고려 영역을 확장한 개선된 철자 검사기를 제시한다. 개선된 철자 검사기는 1) 한 어절 철자 검사 교정부, 2) 언어 규칙 처리부, 3) 문장 부호 규칙 처리부로 구성된다. 한 어절 철자 검사 교정부는 기존의 철자 검사기와 같은 기능을 수행한다. 연어 규칙처리부는 형태소간의 연어 관계를 이용하여 7가지로 유형 분류된 어절 간 오류를 처리한다. 문장 부호 처리부는 문장 부호 자체의 오류와 문장 부호를 참조하여 좌우 어절들의 오류를 검사한다. 현재 256가지의 연이 규칙과 51가지의 문장 부호 규칙이 구축되어 있다. 본 논문에서 제시한 개선된 철자 검사기는 한국어 문체 검사기(Korean Style Checker) 로서 의의를 가지며, 형태소의 연어 정보는 향후 파싱 등의 문장 분석이나 의미 분석에 중요한 자료로 이용될 수 있을 것으로 기대된다.

  • PDF

BERT 기반 문장부호 자동 완성 모델 (Proposal of Punctuation Mark Filling Task with BERT-based Model)

  • 한승규;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.263-266
    • /
    • 2020
  • 문장 부호는 그 중요성에 비해 자연어 처리 분야에서 모델의 학습 효율을 위해 삭제되는 등 잘 연구되지 않았던 분야이다. 본 논문에서는 대한민국 정부에서 공식적으로 공개한 연설문을 수집한 말뭉치를 바탕으로 한국어의 문장 부호를 처리하는 BERT 기반의 fine-tuning 모델을 제시한다. BERT 기반 모델에서 토큰별로 예측하는 본 모델은 쉼표와 마침표만을 예측하는 경우 0.81, 물음표까지 예측하는 경우 0.66, 느낌표까지 예측하는 경우 0.52의 F1-Score를 보였다.

  • PDF

확장청크와 세분화된 문장부호에 기반한 중국어 최장명사구 식별 (Identification of Maximal-Length Noun Phrases Based on Expanded Chunks and Classified Punctuations in Chinese)

  • 백설매;이금희;김동일;이종혁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.320-328
    • /
    • 2009
  • 일반적으로 명사구는 기본명사구와 최장명사구로 분류되는데 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 정확한 지배용언을 찾아내는데 중요한 역할을 하게 된다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 자질로 사용한 두 단계 최장명사구 식별 기법을 제안한다. 제안한 기법은 기본모델보다 2.65% 향상된 평균 89.66%($F_1$-measure)의 우수한 성능을 보인다.

문장부호 정보와 확장된 청크에 기반한 중국어 최장명사구 식별 (Maximal Length Noun Phrase Identification Based on Punctuations and Expanded Chunk)

  • 백설매;김미훈;이금희;정유진;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.112-119
    • /
    • 2005
  • 명사구는 기본명사구와 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구문구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 수행한다. 본 논문에서는 확장된 청크(chunk) 개념과 다섯 개의 클래스로 세분화된 문장부호 정보를 사용한 최장명사구 식별 기법을 제안한다. 제안된 기법은 기본모델(baseline)보다 4.05% 향상된 평균 88.63%의 우수한 F-measure 성능을 보인다.

  • PDF

참고문헌 인용부호 자동부착 지원 시스템 개발 (Development of Automatic Reference-Citation-Mark Attachment Support System)

  • 송광호;민지홍;김유성
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권10호
    • /
    • pp.623-630
    • /
    • 2015
  • 본 논문에서는 작성중인 기술문서에 대해 기존 문서 데이터베이스내의 원본문서들과 유사도를 비교하여 일정기준 이상의 유사성을 갖는 문장을 포함하는 원본문서들의 서지정보를 모아 참고문헌 목록을 자동으로 작성해 주며 대상 문서의 해당 문장에는 참고문헌 인용부호를 부착할 수 있도록 지원하는 시스템을 소개한다. 또한 이러한 제안 내용을 토대로 하여 웹기반 시범 서비스 모델을 설계하고 이를 온라인 서비스로 실현하기 위한 프로토타입 시스템을 개발하였다. 개발된 시스템을 활용하여 기술문서 작성자에게 작성중인 기술문서에 대해 기 발표된 원본문서내의 유사 문장을 검색하고 이에 대한 참고문헌 인용부호를 부착할 수 있도록 지원함으로써 표절 문제를 선제적으로 예방하고 나아가 참고문헌 목록 생성 및 인용부호 자동부착 지원기능을 통해 논문 저술에 편리성을 확보할 수 있을 것이라 기대한다.

라즈베리 파이 기반의 모스 코드 해석기 (Morse Code Interpretor Based on Raspberry Pi)

  • 허태성;송재성;류성원
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.327-328
    • /
    • 2018
  • 모스 부호는 1844년에 완성한 전신 기호로 짧은 발신 전류와 긴 발신 전류만을 가지고 전신 부호를 구성, 문장을 구성하여 전송할 수 있게한 부호이다. 오늘날 일반인에게 모스 부호는 생소하기도 하며 쉽게 접근하기 어려운 언어이다. 특히 영어가 아닌 한국어 모스 부호 체계에서 그 현상은 더욱 두드러진다. 본 시스템은 라즈베리 파이를 이용하여 모스 부호를 한국어로 변환시키는 어플리케이션을 구현하고, 비전문가인 사용자들이 한국어 모스 부호에 익숙해질 수 있도록 도와주는 것을 목적으로 한다. 또한, 라즈베리 파이 기반으로 한글 모스 부호 해석기를 구현함으로써 한글 모스 부호 교육의 편의성, 휴대성과 접근성을 향상시켰다.

  • PDF

문장부호를 사용한 효과적인 중국어 최장명사구 식별기법 (An Effective Approach Using Sentence Symbols to Identify Maximal-Length Noun Phrase in Chinese)

  • 백설매;이금희;김미훈;정유진;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.454-456
    • /
    • 2005
  • 일반적으로 중국어의 명사구는 최단명사구, 기본명사구 최장명사구로 분류된다. 최장명사구에 대한 정확한 식별은 문장의 전체적인 구조를 파악하고 문장의 정확한 지배용언을 찾아내는데 중요한 역할을 한다. 본 논문에서는 특성에 따라 5개의 클래스로 세분화된 문장부호를 학습자질로 사용하여 최장명사구 자동식별을 진행한다. 제안된 기법은 평균길이가 4인 최장명사구의 식별실험에서 기본모델(baseline)보다 $4.5\%$ 향상된 평균 $85.1\%$의 우수한 F-measure 성능을 보인다.

  • PDF

문장부호를 고려한 특수어절 분석 알고리즘 (Special Word Analysis Algorithm Considering Punctuations)

  • 김현주;이영민;이영상;천승태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1122-1125
    • /
    • 2015
  • 자연언어 분석에 있어서 형태소 분석은 핵심적인 기술로 요구되고 있다. 한글 형태소 분석기는 한글을 분석하기 위한 알고리즘을 활용하여 형태소 단위로 분석한다. 하지만 한글과 문장부호가 혼용된 특수어절은 한글을 분석하는 알고리즘을 통하여 정확한 결과를 도출할 수가 없으므로 별도의 알고리즘이 필요하다. 본 논문에서는 이러한 문제점을 특수어절에 공백을 삽입하여 다시 어절로 분리해 내는 알고리즘을 적용하여 해결하고자 한다.