• 제목/요약/키워드: Lexical Analysis

검색결과 174건 처리시간 0.023초

TTS 적용을 위한 음성합성엔진 (Speech syntheis engine for TTS)

  • 이희만;김지영
    • 한국통신학회논문지
    • /
    • 제23권6호
    • /
    • pp.1443-1453
    • /
    • 1998
  • 본 논문은 컴퓨터에 입력된 문자정보를 음성정보로 변환하기 위한 음성합성엔진에 관한 것이며, 특히 명료성의 향상을 위해 파형처리 음성합성방식을 이용한다. 음성합성엔진은 컴맨드 스트림의 제어에 따라 자연성의 향상을 위한 피치조절, 길이 및 에너지 등을 제어하며 음성합성단위로서 반음절을 사용한다. 엔진에서 사용 가능한 컴맨드를 프로그램하여 음성합성엔진에 입력함으로서 음성을 합성하는 빙식은 구문분석, 어휘분석 등의 하이레벨과 파형의 편집 가공 등의 로우레벨을 완전 분리하므로 시스템의 융통성과 확장성을 높인다. 또한 TTS시스템의 적용에 있어 각 모듈을 객체/컴포넌트(Object/Component)로 각 모듈이 상호 독립적으로 작동되도록 하여 쉽게 대체가 가능하다. 하이 레벨과 로우 레벨을 분리하는 소프트웨어 아키택처는 음성합성 연구에 있어 각각 여러 분야별로 독립적으로 연구수행이 가능하여 연구의 효율성을 높이며 여러 소프트웨어의 조합사용(Mix-and-Match)이 가능하여 확장성과 이식성을 향상시킨다.

  • PDF

SNS내 사회감성의 어휘적 의미와 표현에 대한 유의성 (Valence of Social Emotions' Sense and Expression in SNS)

  • 현혜정;황민철
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권6호
    • /
    • pp.37-48
    • /
    • 2014
  • 사회감성은 다양한 사회적 네트워크가 형성됨으로서 우리생활에서 의사소통의 질적 관점에서 중요한 요인으로 대두되고 있다. 이러한 사회감성을 이해하기 위해서 감성의 어휘적 의미와 표현에서 보여 지는 유의성을 검증하고 분석하여 사회감성의 복합적인 의미를 이해하고자 한다. 본 연구에서 의사소통의 대표적인 채널인 SNS(Social Network Service)상에서 감성표현 결과를 이용하여 그 의미와 표현에 대한 척도를 구하고 군집분석을 통해서 그 차이를 깊이 있게 이해하려고 하였다. 분석결과 사회감성요인은 부정적 평가 요인 항목이 긍정적 요인에 비교하여 비중이 높은 반면, 사회감성 표현은 긍정적인 표현이 상당히 많이 제시되는 것으로 나타났다. 사회감성요인에 대한 분류에서 기본 감성이나 유인가로 구분이 가능한 반면에 감성표현에서는 사회감성에서 요구되는 부가적인 내용을 복합적인 의미로 내포하고 있으며 양가적 내용 특성 포함하고 있다.

이차적 문법화와 영어부사의 시제 (Secondary Grammaticalization and English Adverbial Tense)

  • 김양순
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.115-121
    • /
    • 2020
  • 본 연구는 -ly 부사의 역사적 발달, 즉 문법화 과정을 통해 영어 -ly 부사출현에 관한 연구에 목표를 둔다. 이원화된 (일차적 & 이차적) 문법화 관점에서 고대영어의 형용사화 접사 -lic이 중세영어시기에 부사화 접사 -ly로 변화한 것은 일차적 문법화이며 연속적으로 동사구부사인 태도부사가 문법적 자질인 양태성[+modal]과 시제자질[+tense]을 습득하여 TP 영역의 문장부사로 변화가 일어난 문법화 과정은 이차적 문법화라고 정의한다. 이차적 문법화란 어휘항목에 바로 문법화가 적용되는 것이 아니고 이미 문법화가 일어난 통사형태적 표지의 재분석이 일어나는 것이다([어휘범주 → 문법기능범주1 → 문법기능범주2]). 부사화의 과정에서 형용사화 접사 -lic이 부사화 접사 -ly로 범주변화가 일어나는 일차적 문법화과정(형용사 → 태도부사)을 거친 후 태도부사는 이차적 문법화의 과정을 거쳐 새로운 문법적 기능인 시제와 양태성을 갖게 되고 이러한 이차적 문법화(태도부사 → 문장부사)의 결과가 문장부사의 출현으로 나타났다.

The effect of word frequency on the reduction of English CVCC syllables in spontaneous speech

  • Kim, Jungsun
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.45-53
    • /
    • 2015
  • The current study investigated CVCC syllables in spontaneous American English speech to find out whether such syllables are produced as phonological units with a string of segments, showing a hierarchical structure. Transcribed data from the Buckeye Speech Corpus was used for the analysis in this study. The result of the current study showed that the constituents within a CVCC syllable as a phonological unit may have phonetic variations (namely, the final coda may undergo deletion). First, voiceless alveolar stops were the most frequently deleted when they occurred as the second final coda consonants of a CVCC syllable; this deletion may be an intermediate process on the way from the abstract form CVCC (with the rime VCC) to the actual pronunciation CVC (with the rime VC), a production strategy employed by some individual speakers. Second, in the internal structure of the rime, the proportion of deletion of the final coda consonant depended on the frequency of the word rather than on the position of postvocalic consonants on the sonority hierarchy. Finally, the segment following the consonant cluster proved to have an effect on the reduction of that cluster; more precisely, the following contrast was observed between obstruents and non-obstruents, reflecting the effect of sonority: when the segment following the consonant cluster was an obstruent, the proportion of deletion of the final coda consonant was increased. Among these results, the effect of word frequency played a critical role for promoting the deletion of the second coda consonant for clusters in CVCC syllables in spontaneous speech. The current study implies that the structure of syllables as phonological units can vary depending on individual speakers' lexical representation.

한국어 연결어미 '-면서'와 중국어 대응표현의 대조연구 -한·중 병렬 말뭉치를 기반으로 (A Comparative Study on Korean Connective Morpheme '-myenseo' to the Chinese expression - based on Korean-Chinese parallel corpus)

  • YI, CHAO
    • 비교문화연구
    • /
    • 제37권
    • /
    • pp.309-334
    • /
    • 2014
  • This study is based on the Korean-Chinese parallel corpus, utilizing the Korean connective morpheme '-myenseo' and contrasting with the Chinese expression. Korean learners often struggle with the use of Korean Connective Morpheme especially when there is a lexical gap between their mother language. '-myenseo' is of the most use Korean Connective Morpheme, it usually contrast to the Chinese coordinating conjunction. But according to the corpus, the contrastive Chinese expression to '-myenseo' is more than coordinating conjunction. So through this study, can help the Chinese Korean language learners learn easier while studying '-myenseo', because the variety Chinese expression are found from the parallel corpus that related to '-myenseo'. In this study, firstly discussed the semantic features and syntactic characteristics of '-myenseo'. The significant semantic features of '-myenseo' are 'simultaneous' and 'conflict'. So in this chapter the study use examples of usage to analyse the specific usage of '-myenseo'. And then this study analyse syntactic characteristics of '-myenseo' through the subject constraint, predicate constraints, temporal constraints, mood constraints, negatives constraints. then summarize them into a table. And the most important part of this study is Chapter 4. In this chapter, it contrasted the Korean connective morpheme '-myenseo' to the Chinese expression by analysing the Korean-Chinese parallel corpus. As a result of the analysis, the frequency of the Chinese expression that contrasted to '-myenseo' is summarized into

    . It can see from the table that the most common Chinese expression comparative to '-myenseo' is non-marker patterns. That means the connection of sentence in Korean can use connective morpheme what is a clarifying linguistic marker, but in Chinese it often connect the sentence by their intrinsic logical relationships. So the conclusion of this chapter is that '-myenseo' can be comparative to Chinese conjunction, expression, non-marker patterns and liberal translation patterns, which are more than Chinese conjunction that discovered before. In the last Chapter, as the conclusion part of this study, it summarized and suggest the limitations and the future research direction.

  • 브렉시트 캠페인 기간 동안 영어 미디어에 나타난 이민자들 (Migrant Representation in the English-language Media during the Brexit Campaign)

    • 이재승
      • 비교문화연구
      • /
      • 제45권
      • /
      • pp.325-348
      • /
      • 2016
    • 본 논문은 브렉시트 캠페인 기간 동안 영어권 국가, 영국, 미국, 캐나다, 그리고 호주의 미디어에서 이민자들이 어떻게 표현되는지 살펴본다. 코퍼스 지원 담화연구의 틀을 사용한 본 연구는 브렉시트 국민투표 캠페인이 시작된 날부터 국민투표가 실시되기 전 날까지(2016년 4월 15일-6월 22일) 검색기간으로 설정하고, 검색어 'Brexit'가 포함된 모든 기사를 수집하여 브렉시트 캠페인 코퍼스를 구축하였다. 수집된 코퍼스 자료를 통해서 이민자를 나타내는 어휘들, IMMIGRANT, MIGRANT, 그리고 REFUGEE의 빈도를 관찰하고, 이 어휘들과 함께 나타나는 연어를 분석하였다. 또한 세 어휘의 연어들을 사회적 행위자 범주에 따라 분류 및 분석하였다. 분석 결과, IMMIGRANT의 연어는 법적 상태 및 출신지역 어휘들과 연관성이 있고, MIGRANT는 경제적인 용어들과 주로 연어 관계에 있으며, REFUGEE는 큰 수를 나타내는 어휘와 관련성이 있는 것으로 나타났다. 그리고 이민자들은 기능범주, 유형범주, 그리고 평가범주를 통해서 묘사되며, 특히 영국과 미국의 미디어에서 이민자들이 부정적으로 그려지고 있는 것으로 관찰되었다. 본 연구를 통하여 특정 현상 및 특정 집단의 사람들을 가리킬 때 특정 어휘가 사용되며, 코퍼스 지원 언어분석이 해당 사회의 사회 문화 정치적 상황을 파악하는데 도움이 된다는 것을 확인할 수 있었다.

    영어 종속접속의 유형과 기능: 극소절을 포함하여 (On the Types and Functions of English Subordination including Smallest Small Clauses)

    • 홍성심
      • 문화기술의 융합
      • /
      • 제7권1호
      • /
      • pp.134-139
      • /
      • 2021
    • 접속의 개념은 인간의 언어가 가진 속성 중의 하나로, 동물의 소통방식은 접속의 구조가 없다고 알려져 있다. 접속이란 문법단위들의 '연결'(connection, linkage)로 영어의 경우 종속접속절을 전치사구(PP)의 범주로 간주하거나, 보문소구 (CP)의 범주로 분류한다. 또한, 문장의 유형과 복잡성도 접속의 방식에 의해서 결정되는데, 동등접속과 달리 종속접속은 접속되는 문법단위가 대부분 절(clause)의 형태가 된다. 전통문법이나 학교문법에서는 종속접속이 그 기능에 따라 명사성 보충절, 형용성 관계절, 부사성 수식-부가절 3가지로 나뉘어 왔으나, 본 논문은 마치 소절(small clause)이 "절"로 인정되면서, 여러 가지 기능을 하는 것과 마찬가지로 무주어 무동사 종속절 (Verbless subordinate clause. V-less SC)을 종속절의 한 유형으로 보면서, 이를 극소절(smallest small clause)로 명명하고, 이들이 종속절의 일부라는 제안을 한다. 또한, 구조와 기능을 보다 세분하여 종합적으로 분석함으로서, XP라고 특정할 수 없는 절을 포함하여 분석할 수 있는 장점이 있음을 지적한다.

    딥러닝을 이용한 한국어 Head-Tail 토큰화 기법과 품사 태깅 (Korean Head-Tail Tokenization and Part-of-Speech Tagging by using Deep Learning)

    • 김정민;강승식;김혁만
      • 대한임베디드공학회논문지
      • /
      • 제17권4호
      • /
      • pp.199-208
      • /
      • 2022
    • Korean is an agglutinative language, and one or more morphemes are combined to form a single word. Part-of-speech tagging method separates each morpheme from a word and attaches a part-of-speech tag. In this study, we propose a new Korean part-of-speech tagging method based on the Head-Tail tokenization technique that divides a word into a lexical morpheme part and a grammatical morpheme part without decomposing compound words. In this method, the Head-Tail is divided by the syllable boundary without restoring irregular deformation or abbreviated syllables. Korean part-of-speech tagger was implemented using the Head-Tail tokenization and deep learning technique. In order to solve the problem that a large number of complex tags are generated due to the segmented tags and the tagging accuracy is low, we reduced the number of tags to a complex tag composed of large classification tags, and as a result, we improved the tagging accuracy. The performance of the Head-Tail part-of-speech tagger was experimented by using BERT, syllable bigram, and subword bigram embedding, and both syllable bigram and subword bigram embedding showed improvement in performance compared to general BERT. Part-of-speech tagging was performed by integrating the Head-Tail tokenization model and the simplified part-of-speech tagging model, achieving 98.99% word unit accuracy and 99.08% token unit accuracy. As a result of the experiment, it was found that the performance of part-of-speech tagging improved when the maximum token length was limited to twice the number of words.

    An effective automated ontology construction based on the agriculture domain

    • Deepa, Rajendran;Vigneshwari, Srinivasan
      • ETRI Journal
      • /
      • 제44권4호
      • /
      • pp.573-587
      • /
      • 2022
    • The agricultural sector is completely different from other sectors since it completely relies on various natural and climatic factors. Climate changes have many effects, including lack of annual rainfall and pests, heat waves, changes in sea level, and global ozone/atmospheric CO2 fluctuation, on land and agriculture in similar ways. Climate change also affects the environment. Based on these factors, farmers chose their crops to increase productivity in their fields. Many existing agricultural ontologies are either domain-specific or have been created with minimal vocabulary and no proper evaluation framework has been implemented. A new agricultural ontology focused on subdomains is designed to assist farmers using Jaccard relative extractor (JRE) and Naïve Bayes algorithm. The JRE is used to find the similarity between two sentences and words in the agricultural documents and the relationship between two terms is identified via the Naïve Bayes algorithm. In the proposed method, the preprocessing of data is carried out through natural language processing techniques and the tags whose dimensions are reduced are subjected to rule-based formal concept analysis and mapping. The subdomain ontologies of weather, pest, and soil are built separately, and the overall agricultural ontology are built around them. The gold standard for the lexical layer is used to evaluate the proposed technique, and its performance is analyzed by comparing it with different state-of-the-art systems. Precision, recall, F-measure, Matthews correlation coefficient, receiver operating characteristic curve area, and precision-recall curve area are the performance metrics used to analyze the performance. The proposed methodology gives a precision score of 94.40% when compared with the decision tree(83.94%) and K-nearest neighbor algorithm(86.89%) for agricultural ontology construction.

    명사 출현 특성을 이용한 효율적인 한국어 명사 추출 방법 (An Efficient Method for Korean Noun Extraction Using Noun Patterns)

    • 이도길;이상주;임해창
      • 한국정보과학회논문지:소프트웨어및응용
      • /
      • 제30권1_2호
      • /
      • pp.173-183
      • /
      • 2003
    • 형태소 분석을 한 후 명사를 추출하는 방법은 모든 어절에 대해 빈번한 사전 참조와 음운 복원을 위한 규칙 적용을 수행하므로 많은 연산을 필요로 하고, 중의성이 있는 어절에 대해 모든 가능한 분석결과를 생성하므로 명사 추출의 관점에서는 비효율적이다. 본 논문에서는 명사 추출의 관점에서 형태소 분석시 불필요한 연산을 줄이기 위해 명사 출현 특성을 고려하는 명사 추출 방법을 제안한다. 명사 출현 특성은 명사의 존재에 대한 긍정적 또는 부정적인 단서를 표현하는 한국어의 특성으로서, 배제 정보와 명사 접미 음절열이 있다. 배제 정보는 명사가 잃는 어절을 미리 배제하여 형태소 분석에 요구되는 탐색 공간을 줄이고. 명사 접미 음절열은 바로 알에 있는 병사를 검사함으로써 단순한 방법으로 명사를 추출하거나 미등록어를 인식하는 데에 사용한다. 또한 본 논문에서는 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복인 정보를 사용하여 음운 현상을 처리한다. 실험 결과에 의하면 덕 방법은 기존의 형태소 분석 방법에 의한 명사 추출에 비해 정확도는 떨어지지 않으면서 수행 속도 면에서 매우 효율적임을 알 수 있다.