• 제목/요약/키워드: Sentence Generation

검색결과 103건 처리시간 0.03초

발음열 자동 변환을 이용한 한국어 음운 변화 규칙의 통계적 분석 (Statistical Analysis of Korean Phonological Rules Using a Automatic Phonetic Transcription)

  • 이경님;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2002년도 11월 학술대회지
    • /
    • pp.81-85
    • /
    • 2002
  • We present a statistical analysis of Korean phonological variations using automatic generation of phonetic transcription. We have constructed the automatic generation system of Korean pronunciation variants by applying rules modeling obligatory and optional phonemic changes and allophonic changes. These rules are derived from knowledge-based morphophonological analysis and government standard pronunciation rules. This system is optimized for continuous speech recognition by generating phonetic transcriptions for training and constructing a pronunciation dictionary for recognition. In this paper, we describe Korean phonological variations by analyzing the statistics of phonemic change rule applications for the 60,000 sentences in the Samsung PBS(Phonetic Balanced Sentence) Speech DB. Our results show that the most frequently happening obligatory phonemic variations are in the order of liaison, tensification, aspirationalization, and nasalization of obstruent, and that the most frequently happening optional phonemic variations are in the order of initial consonant h-deletion, insertion of final consonant with the same place of articulation as the next consonants, and deletion of final consonant with the same place of articulation as the next consonants. These statistics can be used for improving the performance of speech recognition systems.

  • PDF

Prosodic Contour Generation for Korean Text-To-Speech System Using Artificial Neural Networks

  • Lim, Un-Cheon
    • The Journal of the Acoustical Society of Korea
    • /
    • 제28권2E호
    • /
    • pp.43-50
    • /
    • 2009
  • To get more natural synthetic speech generated by a Korean TTS (Text-To-Speech) system, we have to know all the possible prosodic rules in Korean spoken language. We should find out these rules from linguistic, phonetic information or from real speech. In general, all of these rules should be integrated into a prosody-generation algorithm in a TTS system. But this algorithm cannot cover up all the possible prosodic rules in a language and it is not perfect, so the naturalness of synthesized speech cannot be as good as we expect. ANNs (Artificial Neural Networks) can be trained to learn the prosodic rules in Korean spoken language. To train and test ANNs, we need to prepare the prosodic patterns of all the phonemic segments in a prosodic corpus. A prosodic corpus will include meaningful sentences to represent all the possible prosodic rules. Sentences in the corpus were made by picking up a series of words from the list of PB (phonetically Balanced) isolated words. These sentences in the corpus were read by speakers, recorded, and collected as a speech database. By analyzing recorded real speech, we can extract prosodic pattern about each phoneme, and assign them as target and test patterns for ANNs. ANNs can learn the prosody from natural speech and generate prosodic patterns of the central phonemic segment in phoneme strings as output response of ANNs when phoneme strings of a sentence are given to ANNs as input stimuli.

PC를 이용한 일$\cdot$한 번역 시스템 ATOM의 개발에 관한 연구 ( I ) - 구문해석과 생성과 사전 구성과 형태소 해석을 중심으로 - (Development of Japanese to Korean Machine Translation System ATOM Using Personal Computer I - Dictionary Construction and Morphological Analysis -)

  • 김영섬;김한우;최병욱
    • 대한전자공학회논문지
    • /
    • 제25권10호
    • /
    • pp.1183-1192
    • /
    • 1988
  • 정확한 형태소 해석과정의 구현을 위해 heuristic 정보를 부가한 형태소 사전과 접속정보 테이블을 구성하고 문절수최소법을 근간으로 하여 자동 띄어쓰기 과정을 구현한다. 또한 독립적인 활용어 테이블을 구성하고, 접속정보 테이블과 상호 연계시켜 적용합으로 해서 접속정보와 활용어 정보의 구성을 간단하게 하였으며, 시스템의 검증과 확장 효율을 제고하였다. 번역 사전은 해석 사전과 생성 사전으로 구성하며, 해석과정의 효율과 보다 자연스런 역어의 생성을 위해 통계적으로 추출한 고빈도의 종결구를 관용어로 기술하고, 사전상에 직접 프로시쥬어를 기술하여 시스템의 적응성을 증대시켰다.

  • PDF

한국어 대화체 음성언어 번역시스템에서의 개념기반 번역시스템 (Concept-based Translation System in the Korean Spoken Language Translation System)

  • 최운천;한남용;김재훈
    • 한국정보처리학회논문지
    • /
    • 제4권8호
    • /
    • pp.2025-2037
    • /
    • 1997
  • 대화체 음성언어번역시스템의 일부인 개념기반 번역시스템은 음성인식의 결과를 이용하여 다른 언어로 번역해 주는 시스템이다. 본 논문은 여행계획 영역에 대해 한국어를 해석하여 영어, 일본어, 한국어로 번역해 주는 시스템에 대해 기술한 것이다. 개념기반 번역은 비정형 문장이 많은 대화체 문장을 처리하기 위해 형태소 분석 등의 구문정보를 이용하지 않고, 의미단위의 번역을 시도한 것으로 화자의 의도를 정확히 번역해 주는 것을 목표로 한다. 개념기반 번역은 280여개의 개념과 개념간의 계층구조에 의해, 인식결과를 개념구조로 변환한 후 다른 언어로 생성해 준다. 효율적인 한국어 처리를 위해 기준단어를 이용한 토큰분리기와 문법자동 수정기를 개발하였다. 그리고 자연스러운 생성문을 위해 각 언어에 대한 후처리기를 개발하였다.

  • PDF

한국어-수화 번역시스템을 위한 형태소 변환 (Morpheme Conversion for korean Text-to-Sign Language Translation System)

  • 박수현;강석훈;권혁철
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.688-702
    • /
    • 1998
  • 본 논문에서는 한국어 각 품사별로 형태소 해석 규칙에 대응하는 수화 형태소 생성규칙을 제안한다. 한국어 자연수화는 한국어 자연언어에 비하여 극히 한정된 어휘를 가지며, 문법 요소의 수도 매우 한정적으로 사용되고 있다. 따라서 본 논문에서는 자연스러운 한국어 문장을 대응하는 수화로 변환시키기 위해서 한국어 문법에 대응하는 자연수화 문법을 정의한다. 각 phrase는 한국어 해석 문법과는 별도의 수화 형태소 생성문법을 정의 해야 하며, 이 문법은 형태소 해석/결합 규칙 및 구구조 해석규칙에 적용되고, 이 규칙의 정의로 가장 자연스러운 자연수화를 생성할 수 있게 된다.

  • PDF

한국어 구문 분석과 문장 생성을 위한 범주 문법 적용의 몇 가지 원칙 (Some Application Principles of Categorial Grammars for Korean Syntactic Analysis and Sentence Generation)

  • 송도규;차건회;박재득
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-359
    • /
    • 1997
  • 주로 영어, 불어 등의 형상적 언어(configurational languages)의 구문 분석을 위해 개발된 범주 문법은 문장 구성 성분의 문장 내의 위치가 대체적으로 고정적이며 통사 기능이 그 위치로서 할당 되는 형상적 언어의 통사적인 특성에 따라 방향성의 개념을 도입하였다. 그러나 이 방향성 개념은 문장 구성 성분의 문장 내의 위치가 비교적 자유로운 한국어 등의 비형상적 언어(non-configurational languages)에 그대로 적용하기에는 많은 무리가 따른다. 심지어 형상적 언어에 적용하는 경우에도 도치나 외치된 문장 또 격리된 구조(unbounded dependency constructions)가 있는 문장들도 적절히 분석해 내지 못한다. 이런 이유로 본고에서는 범주 문법에 도입되어 있는 방향성을 재고하고 아울러 한국어 구문 분석과 문장 생성을 위한 범주 문법 적용상의 다섯 원칙을 제안한다.

  • PDF

한국어 운율 발생용 인공신경망의 구조 및 학습에 관한 연구 (A Study on the Architecture and Learning of the Artificial Neural Networks for Prosody Generation of Korean Sentence)

  • 민경중;임운천
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2004년도 추계학술발표대회논문집 제23권 2호
    • /
    • pp.135-138
    • /
    • 2004
  • 음성처리기술은 정보화 시대를 위한 주요 기술의 하나이다. 이 중에서도 음성합성의 연구는 디지털 신호처리 기술과 컴퓨터의 발달로 활발히 진행되고 있다. 그러나 음성 합성기에 의해 발생된 합성음의 음질은 이해도 면에서는 상당한 진전이 있었지만, 자연감 면에서는 만족한 수준에 도달할 수 없었는데, 이러한 합성시스템의 문제점을 해결하는 방법은 다양하게 적용되는 언어정보와 합성음의 자연감을 결정하는 정확한 운율정보가 필요하다. 그러나 구한 운율 정보가 자연음에 존재하는 모든 운율 법칙을 포함할 수 없고, 또한 추출한 운율 법칙이 틀린 것이면 자연감이나 이해도가 떨어지는 합성음이 만들어지고 이것은 음성 합성 시스템의 실용화에 장애로 작용할 것이다. 본 논문은 한국어 음성 합성 시 문제가 되는 자연감을 높이기 위한 한 방법으로 자연음에 내재하는 운율 변화를 효율적으로 학습할 수 있는 인공 신경망을 제안하였다.

  • PDF

Issues and Empirical Results for Improving Text Classification

  • Ko, Young-Joong;Seo, Jung-Yun
    • Journal of Computing Science and Engineering
    • /
    • 제5권2호
    • /
    • pp.150-160
    • /
    • 2011
  • Automatic text classification has a long history and many studies have been conducted in this field. In particular, many machine learning algorithms and information retrieval techniques have been applied to text classification tasks. Even though much technical progress has been made in text classification, there is still room for improvement in text classification. In this paper, we will discuss remaining issues in improving text classification. In this paper, three improvement issues are presented including automatic training data generation, noisy data treatment and term weighting and indexing, and four actual studies and their empirical results for those issues are introduced. First, the semi-supervised learning technique is applied to text classification to efficiently create training data. For effective noisy data treatment, a noisy data reduction method and a robust text classifier from noisy data are developed as a solution. Finally, the term weighting and indexing technique is revised by reflecting the importance of sentences into term weight calculation using summarization techniques.

피봇 기계번역시스템에서의 한국어생성을 위한 문제선정 (Style Selection for Korean Generation under the Pivot MT System)

  • 이종혁
    • 인지과학
    • /
    • 제1권2호
    • /
    • pp.279-291
    • /
    • 1989
  • 피봇 기계번역 시스템하에서 자연스런 출력문 생성을 위한 문체선정 문제는 표층 구문정보를 배제한 언어에 의존하지 않는 중간표현의 특성과 언어마다 문화적 차이에서 기인한 사고.발상의 차이로 인해 큰 어려움을 갖는다.본논문은 이들 문제점들을 해결하기 위한 시도로 첫째,출력문의 자연스런 문장구조를 크게 좌우하는 태의 화용적.문체적 결정과 한국어의 심한 피동 제약 가운데서의 태의 생성,둘째,한국어 특유의 표현양식을 위한 문장구조 변경,마지막으로 출력문에서 기능어의 의미 애매성을 제거하기 위한 실질어를 이용한 의미보완 등을 논한다.

수화 애니메이션 자동 생성을 위한 한국어 복문의 수화 스크립트 변환 방법 (Translating a Complex Sentence in Korean into a Sign Language Script for an Automatic Sign Language Generation)

  • 김상하;장은영;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-22
    • /
    • 2007
  • 한국 수화는 시각, 공간언어로 한국어와는 상이한 문법체계를 가진 언어로 수화를 일차 언어로 사용하는 농인들에게 있어 복잡한 구조의 한국어 문장은 부담이 된다. 본 논문은 이런 한국어 문장의 복잡한 구조를 농인들이 이해하기 쉬운 구조의 전개방식으로 변환하는 수화 스크립트 생성 시스템을 제안한다. 시스템은 세 단계로 구성되는데, 첫 번째 단계는 한국어 문장의 결합범주문법을 이용한 구문 분석이며, 두 번째 단계는 농인들이 이해하기 수월한 전개방식으로의 절단위 재배열이고, 세 번째 단계는 공간이동을 고려한 스크립트 형태로의 변환이다. 본 논문은 한국 수화의 복문 실현 방법에 대해 살펴본 후, 이를 처리하는 시스템의 단계별 처리 방안에 대해 구체적으로 논의한다.

  • PDF