통합 검색 | Korea Science

가변 Break를 이용한 코퍼스 기반 일본어 음성 합성기의 성능 향상 방법 (A Performance Improvement Method using Variable Break in Corpus Based Japanese Text-to-Speech System)

나덕수;민소연;이종석;배명진
- 한국음향학회지
- /
- 제28권2호
- /
- pp.155-163
- /
- 2009
Text-to-speech 시스템에서 입력 텍스트로부터 운율 정보를 생성하기 위해서는 운율구 경계, 음소 지속시간, 기본주파수 포락선 설정의 3가지 기본적인 모듈이 필요하다. Break 인덱스 (BI; Break Index)는 합성기에서 운율구의 경계를 나타내고, 자연스러운 합성음을 생성하기 위해서는 BI를 정확히 예측하여야 한다. 그러나 BI는 문장의 의미나 화자의 읽기 습관(reading style)에 따라 임의적으로 결정되는 경우가 많아 정확한 예측이 매우 어렵다. 특히 일본어 합성기에서는 악센트 구 경계 (APB; Accentual Phrase Boundary)와 major phrase 경계 (MPB; Major Phrase Boundary)의 정확한 예측이 어렵다. 따라서 본 논문에서는 APB와 MPB 예측 오류를 보완할 수 있는 방법을 제안한다. BI를 고정 break (FB; Fixed Break)와 가변 break (VB; Variable Break)로 분류하여 합성단위 선택을 수행한다. 일반적으로 BI는 한번 생성되면 변하지 않는다. 따라서 BI가 잘못 생성된 경우 최적의 합성음을 생성할 수 없게 되는데, VB는 생성된 BI와 그것과 유사한 BI를 함께 이용하여 합성단위 선택을 수행함으로써 합성음의 BI가 생성된 BI와 다를 수 있는 것을 의미한다. APB와 MPB에 해당하는 BI에 대하여 VB인지 FB인지 CART(Classification and Regression Tree)를 이용하여 예측하고, VB인 경우 기본 주파수와 음소 지속시간에 대해 다중 운율 모델을 생성하여 합성단위 선택을 수행하였다. MOS 테스트 결과 원음이 4.99, 제안한 방법을 4.25, 기존의 방법은 4.01로 합성음의 자연성을 향상시킬 수 있었다.
https://doi.org/10.7776/ASK.2009.28.2.155 인용 PDF KSCI

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

안성만;정여진;이재준;양지헌
- 지능정보연구
- /
- 제23권2호
- /
- pp.71-88
- /
- 2017
언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.
https://doi.org/10.13088/jiis.2017.23.2.071 인용 PDF KSCI

Prosodic Phrasing and Focus in Korea

Baek, Judy Yoo-Kyung
- 대한음성학회:학술대회논문집
- /
- 대한음성학회 1996년도 10월 학술대회지
- /
- pp.246-246
- /
- 1996
Purpose: Some of the properties of the prosodic phrasing and some acoustic and phonological effects of contrastive focus on the tonal pattern of Seoul Korean is explored based on a brief experiment of analyzing the fundamental frequency(=FO) contour of the speech of the author. Data Base and Analysis Procedures: The examples were chosen to contain mostly nasal and liquid consonants, since it is difficult to track down the formants in stops and fricatives during their corresponding consonantal intervals and stops may yield an effect of unwanted increase in the FO value due to their burst into the following vowel. All examples were recorded three times and the spectrum of the most stable repetition was generated, from which the FO contour of each sentence was obtained, the peaks with a value higher than 250Hz being interpreted as a high tone (=H). The result is then discussed within the prosodic hierarchy framework of Selkirk (1986) and compared with the tonal pattern of the Northern Kyungsang dialect of Korean reported in Kenstowicz & Sohn (1996). Prosodic Phrasing: In N.K. Korean, H never appears both on the object and on the verb in a neutral sentence, which indicates the object and the verb form a single Phonological Phrase ($={\phi}$), given that there is only one pitch peak for each $={\phi}$. However, Seoul Korean shows that both the object and the verb have H of their own, indicating that they are not contained in one $={\phi}$. This violates the Optimality constraint of Wrap-XP (=Enclose a lexical head and its arguments in one $={\phi}$), while N.K. Korean obeys the constraint by grouping a VP in a single $={\phi}$. This asymmetry can be resolved through a constraint that favors the separate grouping of each lexical category and is ranked higher than Wrap-XP in Seoul Korean but vice versa in N.K. Korean; $Align-x^{lex}$ (=Align the left edge of a lexical category with that of a $={\phi}$). (1) nuna-ka manll-ll mEk-nIn-ta ('sister-NOM garlic-ACC eat-PRES-DECL') a. (LLH) (LLH) (HLL) ----Seoul Korean b. (LLH) (LLL LHL) ----N.K. Korean Focus and Phrasing: Two major effects of contrastive focus on phonological phrasing are found in Seoul Korean: (a) the peak of an Intonatioanl Phrase (=IP) falls on the focused element; and (b) focus has the effect of deleting all the following prosodic structures. A focused element always attracts the peak of IP, showing an increase of approximately 30Hz compared with the peak of a non-focused IP. When a subject is focused, no H appears either on the object or on the verb and a focused object is never followed by a verb with H. The post-focus deletion of prosodic boundaries is forced through the interaction of StressFocus (=If F is a focus and DF is its semantic domain, the highest prominence in DF will be within F) and Rightmost-IP (=The peak of an IP projects from the rightmost $={\phi}$). First Stress-F requires the peak of IP to fall on the focused element. Then to avoid violating Rightmost-IP, all the boundaries after the focused element should delete, minimizing the number of $={\phi}$'s intervening from the right edge of IP. (2) (omitted) Conclusion: In general, there seems to be no direct alignment constraints between the syntactically focused element and the edge of $={\phi}$ determined in phonology; all the alignment effects come from a single requirement that the peak of IP projects from the rightmost $={\phi}$ as proposed in Truckenbrodt (1995).
PDF

지자체 사이버 공간 안전을 위한 금융사기 탐지 텍스트 마이닝 방법 (Financial Fraud Detection using Text Mining Analysis against Municipal Cybercriminality)

최석재;이중원;권오병
- 지능정보연구
- /
- 제23권3호
- /
- pp.119-138
- /
- 2017
최근 SNS는 개인의 의사소통뿐 아니라 마케팅의 중요한 채널로도 자리매김하고 있다. 그러나 사이버 범죄 역시 정보와 통신 기술의 발달에 따라 진화하여 불법 광고가 SNS에 다량으로 배포되고 있다. 그 결과 개인정보를 빼앗기거나 금전적인 손해가 빈번하게 일어난다. 본 연구에서는 SNS로 전달되는 홍보글인 비정형 데이터를 분석하여 어떤 글이 금융사기(예: 불법 대부업 및 불법 방문판매)와 관련된 글인지를 분석하는 방법론을 제안하였다. 불법 홍보글 학습 데이터를 만드는 과정과, 데이터의 특성을 고려하여 입력 데이터를 구성하는 방안, 그리고 판별 알고리즘의 선택과 추출할 정보 대상의 선정 등이 프레임워크의 주요 구성 요소이다. 본 연구의 방법은 실제로 모 지방자치단체의 금융사기 방지 프로그램의 파일럿 테스트에 활용되었으며, 실제 데이터를 가지고 분석한 결과 금융사기 글을 판정하는 정확도가 사람들에 의하여 판정하는 것이나 키워드 추출법(Term Frequency), MLE 등에 비하여 월등함을 검증하였다.
https://doi.org/10.13088/jiis.2017.23.3.119 인용 PDF KSCI

스마트폰에서 끌기 기능을 이용한 효과적인 한글 문자 자판 (New Effective Korean Character Keypads using Dragging on Smart Phones)

최재영;임상글;양우철
- 정보처리학회논문지:소프트웨어 및 데이터공학
- /
- 제2권6호
- /
- pp.423-432
- /
- 2013
주로 통화 기능을 제공하던 일반폰과 비교하여 스마트폰은 여러 면에서 기술적으로 진보된 기기이다. 하지만 사용자들은 일반폰에서 사용하던 한글 문자 자판들을 여전히 스마트폰에서 사용하고 있다. 터치스크린이 있는 스마트폰에서 보다 효과적으로 한글을 입력할 수 있는 자판이 요구되고 있다. 먼저 본 논문에서는 표준 한글 문자 자판인 천지인, 나랏글, 그리고 SKY한글에 끌기 기능을 추가하여 확장하였으며, 터치 횟수와 손가락이 움직이는 거리를 기준으로 기존의 한글 자판들과 입력 속도를 비교하여 성능이 향상되는 것을 확인하였다. 또한 추가적으로 스마트폰에 적합한 's-가나'와 's-바다' 한글 자판들을 제안하였다. s-가나 자판에서는 7개의 대표 자음과 5개의 대표 모음들을 순서대로 배치하였으며, s-바다 자판에서는 자음과 모음들을 사용빈도에 따라 많이 사용되는 자판들을 서로 가깝게 배치하였다. 표준 한글 자판들과 비교하여, s-가나 자판은 3~19%, s-바다 자판은 9~24%의 성능이 개선되었다. 마지막으로 본 논문에서는 스마트폰에서 한글 자판들의 사용성을 평가하기 위하여 SELF-T의 5가지 요소들을 설정하였으며, 이 요소들을 기준으로 한글 자판들을 비교하였다.
https://doi.org/10.3745/KTSDE.2013.2.6.423 인용 PDF KSCI

LSA모형에서 다의어 의미의 표상 (Representation of ambiguous word in Latent Semantic Analysis)

이태헌;김청택
- 인지과학
- /
- 제15권2호
- /
- pp.23-31
- /
- 2004
잠재의미분석은 단어 의미를 동일한 맥락 (문장/문서) 하에서 동시에 제시되는 단어들의 공기성(co-occurence)으로 정의한다. 이 분석에서 한 단어는 맥락들을 대표하는 측들로 구성된 다차원 상의 한 점으로 표상 되며, 단어 의미는 각 단어가 맥락 속에서 등장한 빈도로 정의된다. 이 다차원 의미공간은 SVD를 통하여 차원이 축소되어 추상된 의미를 표상 한다. 이 연구는 다의어의 표상이 가능하도록 LSA를 발전시켰다. 제안된 LSA는 축에 대한 해석이 가능하도록 축의 회전을 도입하였으며 다의어 표상을 가능하게 하였다. 시뮬레이션에서는, 먼저 LSA에 의해 산출된 단어-맥락 빈도표에서 다의어를 포함하고 있는 문서들만을 재 수집한 다음 문서들을 다의어 의미별로 분류하였다. 두 번째 단계에서는 다의어의 특정의미에 대한 표상을 분류된 단어-맥락 빈도표에서 비해당 의미에 대한 맥락들을 제거한 후 LSA를 적용하여 구성하였다. 시뮬레이션 결과는 다의어의 의미들을 LSA가 표상 할 수 있음을 보여주었다. 이는 축회전을 포함한 LSA가 다의어 다중의미를 표상 할 수 있고 실용적인 측면에서 웹검색 엔진에도 적용될 수 있음을 시사한다.
PDF

디지털 텍스트의 음절을 이용한 운율 정보 시각화에 관한 연구 (A Study on Rhythm Information Visualization Using Syllable of Digital Text)

박선희;이재중;박진완
- 한국콘텐츠학회:학술대회논문집
- /
- 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
- /
- pp.120-126
- /
- 2009
정보화 시대가 빠르게 성장하면서 디지털 텍스트의 양도 증가하고 있다. 이에 따라 수많은 디지털 텍스트를 파악하기 위한 시각화 사례가 증가하고 있다. 기존의 디지털 텍스트 시각화 디자인은 스태밍 알고리즘(stemming algorithm)의 도입과 단어 빈도수를 추출하여 주제어를 형상화하여 텍스트의 의미를 부각시키고 문장과 문장을 연결해주는 것에 치중하고 있다. 이에 디지털 텍스트의 정서적인 느낌을 시각화할 수 있는 운율을 표현하는 것에 있어서 미흡했던 부분이 사실이다. 운율을 보다 효과적으로 표현할 수 있는 음운단위로는 음절을 들 수 있다. 문장에서 음절은 단어나 구, 문장의 발음에 가장 기본적인 발음 단위가 된다. 이를 기본으로 강세, 성조, 운율 요소들의 길이 등이 음절에 기반을 두고 있다. 음절을 정의하는 것과 가장 밀접한 연관이 있는 공명도(sonority)는 발화할 때 폐의 공기 흐름과 운동 에너지(Kinetic energy)를 공명도로 명시되는 음향에너지(acoustic energy)로 표현한 것이다. 본 연구는 이러한 관점에서 디지털 텍스트의 속성인 음절을 기반으로 음운론적 정의와 특성을 살펴보고 운율을 다이어그램을 통해 시각화하기 위한 방법을 연구한다. 실험을 통해 디지털 텍스트를 발음기호로 변환한 후, 모든 언어속의 리듬에서 출발된 음절의 공명도를 사용하고 디지털 텍스트를 음절화하여 운율 정보를 이미지로 시각화한다. 운율 정보를 시각화함으로써 디지털 텍스트의 음절 정보를 알 수 있고, 디지털 텍스트의 정서를 다이어그램을 통해 체계적인 공식에 의하여 사용자의 이해를 돕도록 표현한다. 이에 해당 텍스트의 운율을 보다 쉽게 파악하도록 설계하여 디지털 정보 시각화를 구현하는데 그 목적을 두고 있다.
PDF

실험 저널쓰기에서 나타난 예비과학교사들의 과학실험에 대한 반성적 사고 분석 (An Analysis of Pre-service Science Teachers' Reflective Thinking aboutvScientific Experiment in Experimental Journal Writings)

이윤정;임성민
- 한국과학교육학회지
- /
- 제31권2호
- /
- pp.198-209
- /
- 2011
이 연구에서는 실험 저널쓰기에서 나타난 예비 과학교사의 실험에 대한 반성적 사고를 조사하였다. 이를 위하여 탐구기반 물리실험 수업에서 예비 과학교사들에게 매 주제의 실험 수행마다 실험 과정과 수행에 대한 결과 및 논의와 더불어 실험 수행 후 실험에 대한 자신의 의견을 자유롭게 기술하는 실험 저널을 작성하도록 하고, 이들이 작성한 실험 저널에 포함된 진술문을 분석하여 실험에 대한 반성적 사고를 지식, 과정, 지향, 태도 등 4개의 차원으로 나누어 분석하였다. 지식 차원에는 반성적 사고는 실험을 통해 이미 알고 있는 내용을 점검하거나 실험 후에도 여전히 해결되지 않는 내용과 실험 후 새롭게 알게 된 내용에 대한 반추가 포함되었으며, 과정 차원에는 전반적인 실험 저널쓰기에서 나타난 예비과학교사들의 과학실험에 대한 반성적 사고 분석 207실험 과정에 대한 점검과 구체적인 실험 수행에 대한 반성이 드러났다. 지향 차원에서는 실험 수업을 통하여 얻게 된 과학의 본성에 대한 이해와 과학교육에 대한 견해가 포함되었으며, 태도 차원에서는 실험 수업에 대한 흥미와 동기, 실험수업에 대한 가치 인식이 포함되었다. 수행한 실험주제에 따라 반성적 사고의 유형별 빈도는 조금씩 다르게 나타났으나, 공통적으로 이러한 반성적 사고에는 예비 과학교사들의 자신의 앎과 학습과정에 대한 초인지, 과학과 과학교육에 대한 인식론적 신념, 과학과 실험에 대한 정의적 특성이 드러났다. 이와 같이 자신이 수행한 실험에 대해서 형식적인 절차에 따른 '과학적' 글쓰기뿐만 아니라 자유로운 형태로 '자신의' 글쓰기를 하게 하는 실험 저널쓰기는 과학학습 맥락에서 반성적 사고가 드러날 수 있는 매개이자 반성적 사고를 촉진할 수 있는 활동으로서 의미를 갖는다.
https://doi.org/10.14697/jkase.2011.31.2.198 인용 PDF KSCI

청각장애 아동과 일반 아동의 마찰음에 나타난 음향음성학적 특성 비교 (Comparison of Acoustic Phonetic Characteristics of Korean Fricative Sounds Pronounced by Hearing-impaired Children and Normal Children)

김윤하;김은연;장승진;최예린
- 말소리와 음성과학
- /
- 제6권2호
- /
- pp.73-79
- /
- 2014
Alveolar fricative sounds /s/ and /s'/ are learned last for normal children in the speech development process for Koreans. These are especially difficult to articulate for hearing-impaired children often causing articulation errors. The acoustic phonetic evaluation uses testing tools to provide indirect and object information. These objective resources can be compared with standardized resources on speech when interpreting the results of a test. However, most previous studies in Korea did not consider acoustic studies that used the spectrum moment values of hearing-impaired children. Therefore, this study was conducted to compare the characteristics of hearing-impaired children's pronunciation of fricative sounds using spectrum moment values. For this purpose, the study selected a total of 10 hearing-impaired children (5 boys and 5 girls) currently in 3rd or 5th grade and attending one of the elementary schools in Seoul or Gyeonggi-do. For the selection process, their age, type of hearing aid, implantation of hearing aid (CI) before two years of age, hearing capacity (dB) before and after wearing the hearing aid, duration of speech rehabilitation, and time of learning alveolar fricative sounds were all considered. Also, 10 normal children (5 boys and 5 girls) were selected among 3rd or 5th grade students attending one of the elementary schools in Seoul or Gyeonggi-do. The subjects were asked to read the carrier sentence, "I say _______," including a list of 12 meaningless syllables composed of CV and VCV syllables, including alveolar fricative sounds /s/ and /s'/ and vowels /a/, /i/, and /u/. The recorded resources were processed through the Time-frequency Analysis Software Program to measure M1 (mean), M2 (variance), M3 (skewness), and M4 (kurtosis) of the fricative noise. No significant differences were found when comparing spectrum threshold values in the acoustic phonetic characteristics of hearing-impaired children and normal children in alveolar fricative sound pronunciation according to vowels /a/, /i/, and /u/, alveolar fricative sounds /s/ and /s'/, and syllable structure (CV, VCV) other than, for M3 in the comparison of groups according to disability. In the comparison of syllable structures, there were statistically significant differences in M1, M2, M3, and M4 with clinical significance. However, there was no significant difference in results when comparing the alveolar fricative sounds according to the vowels.
https://doi.org/10.13064/KSSS.2014.6.2.073 인용 PDF KSCI

역할놀이에 대한 어린이집 교사의 은유분석 (Metaphorical Analysis on Role Playing of Day Care Center Teachers)

임진형;이진희
- 한국산학기술학회논문지
- /
- 제18권2호
- /
- pp.524-531
- /
- 2017
본 연구의 목적은 어린이집 교사들의 역할놀이에 대한 은유의 경향과 은유의 의미를 알아보는 것이다. 이를 위하여 A지역 대학 보수교육에 참여한 어린이집 교사 166명을 대상으로 문장 완성형 은유 방법을 활용하여 자료를 수집하였다. 수집한 자료는 은유분석에 관한 선행연구에 기초하여 유아교육전문가 2인이 질적 연구의 방법을 활용한 범주화의 과정을 거쳐 분석하였다. 연구결과 첫째, 역할놀이 은유의 경향은 3개 범주, 8개의 내용으로 분류되었으며, 3개 범주는 '사회성 발달', '정서발달', '발달'의 순서로 빈도가 높게 나타났다. 8개의 내용 중 '사회성 발달' 범주에서는 '모방'이 가장 빈도가 높게 나타났고 '정서발달' 범주에서는 '정서표현'이 가장 높은 빈도를 나타냈다. '발달' 범주에서는 '발달의 필수요인'이 단독내용으로 나타났다. 둘째, 역할놀이 은유의 의미는 먼저 '사회성 발달' 범주에서는 '사회적 기술', '역할체험', '모방', '사회이해'의 의미, '정서발달' 범주에서는 '상상력', '정화작용', '정서표현'의 의미, '발달' 범주에서는 '발달의 필수요인'으로 인식하고 있었다. 연구결과를 기초로 하여 유아교육기관에서 이루어지는 역할놀이의 가치와 교사의 역할에 대한 재조명이 필요함을 논의하였다.
https://doi.org/10.5762/KAIS.2017.18.2.524 인용 PDF KSCI

검색결과 140건 처리시간 0.029초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)