• Title/Summary/Keyword: 형태소 합성

Search Result 40, Processing Time 0.024 seconds

Diphone-based Intonation and VoiceXML document Generation using Multi-dimensional Linguistic Information (다양한 언어 정보를 이용한 음소 단위 억양 및 VoiceXML 문서 생성)

  • Lee, Hwa-Jin;Park, Jong-C.
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.69-76
    • /
    • 2002
  • 최근 음성 합성 과정에서 화자의 의도를 가장 많이 반영하는 언어 정보인 문맥 정보를 사용하려는 시도가 이루어지고 있으나 문맥 정보를 적은 비중으로 사용하기 때문에 자연성 향상에 큰 도움을 주지 못하고 있다. 본 연구에서는 구문 정보, 의미 정보를 억양 생성 과정에 이용함과 동시에 문맥 정보와 음성 정보와의 관계를 음성 데이터를 바탕으로 분석하여 다양한 문맥 정보를 음성 합성 과정에 반영하는 방법을 제안한다. 또한 한국어에서 나타나는 다양한 억양 곡선 유형을 형태소를 이용하여 의다 효율적으로 처리할 수 있는 방법을 제안하여 자연스러운 억양 생성 시스템을 구현하고 시스템의 결과를 음소 단위 억양 생성기와 VoiceXML을 이용하여 적용시켜보고 결과를 논의한다.

  • PDF

Semantic transparency effects in the learning of new words: An ERP study (의미 투명성이 단어 학습에 미치는 영향: 사건관련전위 연구)

  • Bae, Sungbong;Yi, Kwangoh;Park, Taejin
    • Korean Journal of Cognitive Science
    • /
    • v.27 no.3
    • /
    • pp.421-439
    • /
    • 2016
  • The present study investigates the effects of semantic transparency on the learning of new words using both behavioral measures and event-related brain potentials. Participants studied novel words with either semantically transparent or opaque definitions while their brain potentials were recorded. Learning performance was assessed with both a lexical decision task and a recall test. The results indicated that transparent novel words were easier to learn than opaque words. More specifically, self-paced learning times were shorter for transparent novel words across three study sessions. Transparent words also elicited reduced N400s compared with opaque words in all sessions. Moreover, lexical decisions to both learned novel words and real words were faster and more accurate within the transparent condition compared to the opaque condition. These results suggest that semantic transparency also plays an important role within word learning, just as within word recognition, further supporting the notion that morphological information is critical within lexical processing.

Semi-automatic Expansion for a Chatting Corpus Based on Similarity Measure Using Utterance Embedding by CNN (합성곱 신경망에 의한 발화 임베딩을 사용한 유사도 측정 기반의 채팅 말뭉치 반자동 확장 방법)

  • An, Jaehyun;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.95-100
    • /
    • 2018
  • 채팅 시스템을 잘 만들기 위해서는 양질, 대량의 채팅 말뭉치가 굉장히 중요하지만 구축 시 많은 비용이 발생한다는 어려움이 있었다. 따라서 본 논문에서는 영화 자막, 극대본과 같이 대량의 발화 데이터를 이용하여 채팅 말뭉치를 반자동으로 확장하는 방법을 제안한다. 채팅 말뭉치 확장을 위해 미리 구축된 채팅 말뭉치와 유사도 기법을 이용하여 채팅 유사도를 구하고, 채팅 유사도가 실험을 통해 얻은 임계값보다 크다면 올바른 채팅쌍이라고 판단하였다. 그리고 길이가 매우 짧은 채팅성 발화의 채팅 유사도를 효과적으로 계산하기 위해 본 논문에서 제안하는 것은 형태소 단위 임베딩 벡터와 합성곱 신경망 모델을 이용하여 발화 단위 표상을 생성하는 것이다. 실험 결과 기본 발화 단위 표상 생성 방법인 TF를 이용하는 것보다 정확률, 재현율, F1에서 각각 5.16%p, 6.09%p, 5.73%p 상승하여 61.28%, 53.19%, 56.94%의 성능을 가지는 채팅 말뭉치 반자동 구축 모델을 생성할 수 있었다.

  • PDF

Sentence Type Identification in Korean Applications to Korean-Sign Language Translation and Korean Speech Synthesis (한국어 문장 유형의 자동 분류 한국어-수화 변환 및 한국어 음성 합성에의 응용)

  • Chung, Jin-Woo;Lee, Ho-Joon;Park, Jong-C.
    • Journal of the HCI Society of Korea
    • /
    • v.5 no.1
    • /
    • pp.25-35
    • /
    • 2010
  • This paper proposes a method of automatically identifying sentence types in Korean and improving naturalness in sign language generation and speech synthesis using the identified sentence type information. In Korean, sentences are usually categorized into five types: declarative, imperative, propositive, interrogative, and exclamatory. However, it is also known that these types are quite ambiguous to identify in dialogues. In this paper, we present additional morphological and syntactic clues for the sentence type and propose a rule-based procedure for identifying the sentence type using these clues. The experimental results show that our method gives a reasonable performance. We also describe how the sentence type is used to generate non-manual signals in Korean-Korean sign language translation and appropriate intonation in Korean speech synthesis. Since the method of using sentence type information in speech synthesis and sign language generation is not much studied previously, it is anticipated that our method will contribute to research on generating more natural speech and sign language expressions.

  • PDF

Break Strength Prediction Using Maximum a Posterior Probability (MAP 확률을 이용한 끊어 읽기 강도 예측)

  • Kim Sanghun;Park Jun;Lee Youngjik
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.75-78
    • /
    • 2000
  • 본 논문은 자연스러운 합성음 생성을 위한 끊어 읽기 강도 예측에 관한 것으로, 문장에 대한 품사열이 주어졌을 때 Posteriori 확률을 최대화하는 끊어 읽기 강도를 비터비 디코딩으로 예측한다. 훈련용 데이터는 여성화자 1인이 발성한 2,100 문장이며, 음성 데이터로부터 휴지길이(pause)에 따라 끊어 읽기 강도를 2단계로 할당하고, 텍스트에서는 30개의 품사 태그 심볼을 이용하여 형태소분석 및 태깅을 수행하였다. 관측확률은 3개 연속하는 품사열이 발생할 확률로 하고 끊어 읽기 강도 천이확률은 bigram으로 했을 때, cross validation 방법으로 성능 평가를 수행하였다 평가결과, 훈련데이타에 대해서는 $89.7\%$, 테스트 데이터에 대해서는 $84.9\%$의 예측정확률을 보였다.

  • PDF

An Efficient Korean Morpheme Analyzer and Synthesizer using Dictionary Information and Chart Data Structure (사전 정보와 차트 자료 구조를 이용한 효율적인 형태소 분석기 및 합성기(KoMAS))

  • 김정해;이상조
    • Journal of the Korean Institute of Telematics and Electronics B
    • /
    • v.31B no.3
    • /
    • pp.123-131
    • /
    • 1994
  • This paper describes on the analysis of morphemes and it's synthesis being constituted of Korean word phrases. To analyze morphemes, we propose the introduction of "morph" for morpheme features in lexicon and the usage of chart data structures. it controls over the generation of unnecessary morpheme, and extracts every possible morpheme unit in a word phrase which minimized lexicon investigation by using heuristic information. Moreover, to synthesize morphemes, it is composed of every possible analyzed morphemes in word phrases to take advantage of speech and union information which can be obtained for program. Therefore, the systhesis of analyzed morphemes were designed to aid a syntactic analysis next step of natural language processing. This system for analyzing and systhesizing morpheme was to generate a word phrase by unifying syntactic and semantic features of analyzed morphemes in lexicon, and then established by C language of the personal computer.

  • PDF

Korean-English statistical speech translation Using n-best re-ranking (n-best 리랭킹을 이용한 한-영 통계적 음성 번역)

  • Lee, Dong-Hyeon;Lee, Jong-Hoon;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.171-176
    • /
    • 2006
  • 본 논문에서는 n-best 리랭킹을 이용한 한-영 통계적 음성 번역 시스템에 대해 논하고 있다. 보통의 음성 번역 시스템은 음성 인식 시스템, 자동 번역 시스템, 음성 합성 시스템이 순차적으로 결합되어 있다. 하지만 본 시스템은 음성 인식 오류에 보다 강인한 시스템을 만들기 위해 음성 인식 시스템으로부터 n-best 인식 문장을 추출하여 번역 결과와 함께 리랭킹의 과정을 거친다. 자동 번역 시스템으로 구절기반 통계적 자동 번역 모델을 사용하여, 음성 인식기의 발음 모델에서 기본 단어 단위와 맞추어 번역 모델과 언어 모델을 훈련시킴으로써 음성 번역 시스템에서 형태소 분석기를 제거할 수 있다. 또한 음성 인식 시스템에서 상황 별로 언어 모델을 분리하여 처리함으로써 자동 번역 시스템에 비해 부족한 음성 인식 시스템의 처리 범위를 보완할 수 있었다.

  • PDF

Minimization of Prediction System of Prosodic Phrase Boundaries (경량화 운율구 경계 예측 시스템 개발)

  • Kim, Minho;Jung, Youngim;Kwon, Hyuk-Chul
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.11a
    • /
    • pp.744-747
    • /
    • 2010
  • 운율구 경계 예측은 TTS(Text-To-Speech) 엔진이 정확하고 자연스러운 음성합성을 하기 위해 꼭 필요한 기술이다. 하지만, 소프트웨어나 하드웨어적 자원을 많이 요구하는 기술이기 때문에 실행 환경의 제약을 많이 받는다. 본 논문에서는 소형 전자제품과 같이 제한된 환경에서도 안정적으로 실현되는 경량화 운율구 경계 예측 시스템의 개발 과정과 결과에 대하여 설명한다. 운율구 경계 예측 시스템의 필수 요소인 형태소 분석기의 경량화와 전통적인 규칙 기반 운율구 경계 예측 기술과 달리 품사 분석과 구문 분석이 필요하지 않은 운율구 경계 예측 기술을 소개한다.

Automatic Error Correction System for Erroneous SMS Strings (SMS 변형된 문자열의 자동 오류 교정 시스템)

  • Kang, Seung-Shik;Chang, Du-Seong
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.6
    • /
    • pp.386-391
    • /
    • 2008
  • Some spoken word errors that violate grammatical or writing rules occurs frequently in communication environments like mobile phone and messenger. These unexpected errors cause a problem in a language processing system for many applications like speech recognition, text-to-speech translation, and so on. In this paper, we proposed and implemented an automatic correction system of ill-formed words and word spacing errors in SMS sentences that has been the major errors of poor accuracy. We experimented three methods of constructing the word correction dictionary and evaluated the results of those methods. They are (1) manual construction of error words from the vocabulary list of ill-formed communication languages, (2) automatic construction of error dictionary from the manually constructed corpus, and (3) context-dependent method of automatic construction of error dictionary.

A Morphological Analysis of Korean Business Names (한국 기업 이름의 형태론적 연구)

  • Kang, Eungyeong
    • The Journal of the Korea Contents Association
    • /
    • v.20 no.10
    • /
    • pp.157-166
    • /
    • 2020
  • This study is a descriptive analysis of Korean business names listed on KOSDAQ (Korea Securities Dealers Automated Quotation) from a morphological perspective. A total of 1,358 business names on KOSDAQ are collected and analyzed in terms of origins and morphological structure. The analysis exhibits the monopoly of English: only 20% of the names are composed of only Korean elements, including Sino-Chinese, while 76% of them contain some form of English elements. It is pointed out that those English elements are not borrowed from English but are created in Korea and participate further word formation processes. In terms of word formation methods, compounding and shortening are most common, taking up 90% of all names. Multiple derived forms are used from an identical origin word, and even bound forms in English are taken and used as independent words, regardless of their original status in English. It is argued that Korean English is not entirely negative and should be considered as part of World Englishes.