• 제목/요약/키워드: sentence symbol processing

검색결과 3건 처리시간 0.017초

음성 합성 시스템의 품질 향상을 위한 한국어 문장 기호 전처리 시스템 (Korean Sentence Symbol Preprocess System for the Improvement of Speech Synthesis Quality)

  • 이호준
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.149-156
    • /
    • 2015
  • 본 논문에서는 한국어 문장 기호의 처리를 통해 자연스러운 음성 합성 결과를 생성하는 방법에 대해서 논의한다. 이를 위해 한국어 위키피디아 문서를 분석하여 문장 기호의 사용을 8가지 형태로 분류하고, 11개의 정규표현식 규칙으로 문장 기호를 처리하는 방안을 제시한다. 그 결과 63,000 문장에 대해 56%의 정확도와 71.45%의 재현율을 달성하였으며, 문장 기호 처리 결과를 SSML 기반의 음성 합성 표현으로 변환하여 음성 합성 결과의 품질을 향상시키는 방법을 제안한다.

문장논리규칙의 컴퓨터프로세싱을 위한 연구 (A Study on the Computer­Aided Processing of Sentence­Logic Rule)

  • 금교영;김정미
    • 철학연구
    • /
    • 제139권
    • /
    • pp.1-21
    • /
    • 2016
  • 문장 서술의 일관성이나 진 위를 신속 정확히 파악하기 위해서 컴퓨터의 힘을 빌릴 수 있다. 따라서 문장논리의 컴퓨터프로세싱으로 문장 전체 서술의 일관성이나 진 위를 신속 정확히 파악하기 위한 연구가 있을 만하다. 이런 필요에 따라 본 연구에서는 컴퓨터프로세싱과정을 기획하고, 그 프로세싱에 필요한 테이블을 작성하고, 그리고 5개 논리규칙의 테이블을 우선 개발하여 활성화해본다. 그래서 차후 연구에서 10개의 기본추론규칙과 11개의 파생추론규칙 각각의 테이블을 개발하고, 그 다음 개발된 테이블들을 활성화하여 구축한 DB 위에 서버 프로그래밍 JSP와 클라이언트 프로그래밍 JAVA를 이용하여 문장논리규칙을 프로세싱하는 토대를 마련한다. 2장에서 프로세싱과정의 기획은 먼저 논리연산테이블을 탐색해서 논리규칙과 추론규칙을 공식으로 구분하고, 공식에 사용할 조합을 구분해서 순번으로 열거하는 작업을 하도록 하여, 변수 테이블, 논리기호 테이블, 입력처리 테이블을 작성한다. 그래서 차후 연구에서 주어부와 술어부를 활성화한 DB 위에 서버 프로그래밍 JSP와 클라이언트 프로그래밍 JAVA를 이용하여 문장의 참 거짓을 판명하도록 준비한다. 3장에서는 2장에서 작성 준비한 테이블을 참고해서 문장논리를 위해 명제적 계산, 문장논리 계산 혹은 진술논리 계산에 사용되는 5개의 논리규칙 즉, 이중부정규칙, 드모르간규칙, 교환규칙, 결합규칙 그리고 분배규칙 모두의 테이블을 개발하고, 마지막 4장에서는 개발한 테이블의 활성화로 DB 구축과 더불어 논리규칙 프로세싱하는 단계까지 이론적 구상을 해본다.

한국어 의존 관계 분석과 자질 집합 분할을 이용한 기계학습의 성능 개선 (Analysis of Korean Language Parsing System and Speed Improvement of Machine Learning using Feature Module)

  • 김성진;옥철영
    • 전자공학회논문지
    • /
    • 제51권8호
    • /
    • pp.66-74
    • /
    • 2014
  • 최근에 한국어 의존 관계에 대한 파싱 시스템과 관련된 연구가 소프트웨어 공학자들이나 언어학자들에 의해 다양하게 연구되고 있으며, 시스템 구현은 주로 기계 학습이나 기호 주의를 사용하고 있다. 기계 학습을 사용한 방법은 한국어 문장 데이터가 매우 크기 때문에 시스템 특성상 매우 긴 학습시간을 가지며, 데이터 자체가 가지는 오류로 인하여 한정된 인식율을 가진다. 본 연구에서는 기계학습을 이용한 시스템에 대하여 학습 시간을 줄일 수 있도록 특징들을 자질 집합 모듈로 분할하여 처리하는 방법을 제안하고, 문장수와 반복횟수에 따른 인식율을 분석하였다. 설계된 시스템은 분리된 모듈과 이진 검색을 위한 정렬 기법이 사용되었다. 데이터는 세종 말뭉치로부터 추출한 후 정제된 36,090문장을 사용하였다. 학습 시간은 약 3시간으로 줄었으며, 인식율은 10,000 문장을 50회 학습하였을 때 84.54%로 가장 높았다. 모든 학습 문장(32,481)을 10회 학습하였을 때 인식율은 82.99%이다. 결과적으로 정제된 데이터를 이용하여 시스템이 안정화될 때까지 반복하는 것이 더 효율적이었다.