• 제목/요약/키워드: Lexicon Analysis

검색결과 91건 처리시간 0.03초

한국어의 Machine translation을 위한 구문 구조 분석 (Syntactic Analysis of Korean Sentence for Machine Translation)

  • 이주근;한성국;전병대
    • 대한전자공학회논문지
    • /
    • 제18권5호
    • /
    • pp.15-21
    • /
    • 1981
  • 이 논문은 기계 번역을 위한 한국어의 구문분석 algorithm과 system구성에 관한 것이다. 종래의 언어학적 문장구조를 재검토하여 품사와 성분을 통일된 관점에서 형태론적으로 분석 다음, 효과적인 품사분류 algorithm을 제안하고, 역이동변형 algorithm을 적용한 성분구조를 attribute개념을 도입하여 phrase structure rule로 처리하였다. 또한 한국어 조합문자의 조직개념을 lexicon구성에 도입하고 breadth-first searching에 의하여 문장의 심층구조가 포함된 parsing tate을 생성하는 구문분석 system을 구성하였으며, system program에 의해 입력문장을 심층구조로 분석한 결과를 보였다.

  • PDF

아동문헌의 구문분석을 위한 모아쓰기식 어휘사전 구축에 대한 연구 (A study on construction of lexicon based on assorted writing style for syntax analysis of children literature)

  • 안지은;이태영;남궁황
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.189-192
    • /
    • 2001
  • 모아쓰기식 어휘사전은 풀어쓰기에 비해 용언어간의 크기가 늘어나고 용언어미도 많이 증대된다. 본 논문에서는 초등학생을 위한 홈페이지에서 사용되는 어휘가 상대적으로 적기 때문에 용언어간과 어미, 명사와 조사를 조화시켜 간단한 모아쓰기식 기계사전을 제시하였다.

  • PDF

Examining the Effects of Vocabulary on Crowdfunding Success: A Comparison of Cultural and Commercial Campaigns

  • Xiang Gao;Weige Huang;Bin, Li;Sunghan Ryu
    • Asia pacific journal of information systems
    • /
    • 제32권2호
    • /
    • pp.275-306
    • /
    • 2022
  • Crowdfunding has emerged as an important financing source for diverse cultural projects and commercial ventures in the early stages. Unlike traditional investment evaluation, where structured financial data is critical, such information is typically unavailable for crowdfunding campaigns. Instead, campaign creators prepare pitches containing essential information about themselves and the campaigns, which are crucial in attracting and persuading contributors. Prior literature has examined the effects of different aspects in campaign pitches, but a comprehensive understanding of the theme is lacking. This study aims to fill this gap by identifying the lexicon of frequently used vocabulary in campaign pitches and examining how they are associated with crowdfunding success. Moreover, we examine how the association differs between culture and commercial crowdfunding campaigns. We randomly collected 50,000 campaigns from the cultural and commercial categories on Kickstarter and extracted the 100 most used verbs in the campaign pitches. Based on a machine learning approach combined with principal component analysis, we constructed sets of verbal factors statistically significant in predicting crowdfunding success. The findings also show that cultural and commercial campaigns consist of different verbal components with different effects on crowdfunding success.

Analyzing Errors in Bilingual Multi-word Lexicons Automatically Constructed through a Pivot Language

  • Seo, Hyeong-Won;Kim, Jae-Hoon
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제39권2호
    • /
    • pp.172-178
    • /
    • 2015
  • Constructing a bilingual multi-word lexicon is confronted with many difficulties such as an absence of a commonly accepted gold-standard dataset. Besides, in fact, there is no everybody's definition of what a multi-word unit is. In considering these problems, this paper evaluates and analyzes the context vector approach which is one of a novel alignment method of constructing bilingual lexicons from parallel corpora, by comparing with one of general methods. The approach builds context vectors for both source and target single-word units from two parallel corpora. To adapt the approach to multi-word units, we identify all multi-word candidates (namely noun phrases in this work) first, and then concatenate them into single-word units. As a result, therefore, we can use the context vector approach to satisfy our need for multi-word units. In our experimental results, the context vector approach has shown stronger performance over the other approach. The contribution of the paper is analyzing the various types of errors for the experimental results. For the future works, we will study the similarity measure that not only covers a multi-word unit itself but also covers its constituents.

Social Media and Communication in Times of Public Health Crisis: Analysis of COVID-19 YouTube Vlog activities in the sharing of patient experience and information

  • 강복;손승혜;이귀옥
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.107-115
    • /
    • 2023
  • This study analyzes the content of YouTube Vlog videos created by patients of Coronavirus disease 2019 ("COVID-19") in South Korea and viewer comments on those videos. As this new infectious disease started to sweep the world in late 2019 and early 2020, the public started facing fear and uncertainty stemming from the lack of sufficient and accurate information about the virus. At the same time, as COVID-19 patients in South Korea were treated in isolation to prevent the spread of the virus, the patients themselves were experiencing anxiety and exclusion from the society. During this period, there was an increase in YouTube Vlog videos created by the patients in which they shared their experiences going through the treatment and recovery processes. To understand how these YouTube Vlog videos were being used by the patients to connect with the society and seek support in a state of isolation and anxiety, this study conducted a qualitative multi-case analysis of three sample YouTube Vlog video channels to analyze their content, as well as a lexicon-based sentiment analysis of viewer comments to understand the experiences and reactions of viewers. The patients' YouTube Vlog videos showed that they shared similar stages of progress, despite each emphasizing a different main theme. Overall, the tone of the viewer comments became increasingly positive over time, although with some variance among different patient cases and stages. The results confirmed that Vlogs of patients played a significant role in reducing the uncertainty around COVID-19 and strengthening social support for the patients. The findings of this study can improve an understanding of the psychological and behavioral aspects of patient experience in isolated treatment and the impact of shared communication among members of society in times of crisis.

대규모 말뭉치와 전산 언어 사전을 이용한 의미역 결정 규칙의 구축 (Rule Construction for Determination of Thematic Roles by Using Large Corpora and Computational Dictionaries)

  • 강신재;박정혜
    • 정보처리학회논문지B
    • /
    • 제10B권2호
    • /
    • pp.219-228
    • /
    • 2003
  • 본 논문은 한국어정보처리 과정에서 구문 관계를 의미역으로 사상시키기 위한 규칙을 효과적으로 구축하는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제 중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어 학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 규칙의 적용률이 향상되는 효과를 가져올 수 있었다.

Combinatory Categorial Grammar for Korean

  • 한성국;박찬곤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.164-171
    • /
    • 1990
  • A commutative productive category is proposed to the current CCG for the syntactic analysis of free word order languages like Korean. The introduction of this sort of category is quite natural for categorial lexicon and functional operations. We present the theorical basis of productive category and examine the linguistic availability through typical syntactic structures of Korean.

  • PDF

전문용어 대역사전의 구조와 배열에 관한 연구 (Structure Analysis of Multilingual Lexicon)

  • 김세주
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2001년도 제8회 학술대회 논문집
    • /
    • pp.35-40
    • /
    • 2001
  • 전문용어사전 중에서 개념 정보를 제시하지 않고 대역어나 음차어를 중심으로 제시하는 전문용어 대역사전을 선정하여 이들의 구조와 배열을 분석하였다. 실제로 전문용어 대역사전을 구성하고 있는 요소들의 기술 구조는 매우 다양하며 이들의 배열 방법도 사전마다 차이를 보이고 있는 것으로 나타났다. 이러한 특징은 사전의 이용자들에 많은 불편을 초래하며 표준화된 전자사전의 요구를 충족시키기 어려우므로 일관성있는 기술 방법이 요구된다.

  • PDF

구어체 말뭉치의 어휘 사용 특징 분석 및 감정 어휘 사전의 자동 구축 (Analyzing Vocabulary Characteristics of Colloquial Style Corpus and Automatic Construction of Sentiment Lexicon)

  • 강승식;원혜진;이민행
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.144-151
    • /
    • 2020
  • 모바일 환경에서 의사소통은 SMS 문자로 이루어진다. SMS 문자에서 사용되는 어휘들은 일반적인 한국어 문어체 문장에서 사용되는 어휘들과 다른 부류의 어휘들이 사용될 것으로 예상할 수 있다. 예를 들어, 일반적인 문어체의 경우 문장의 시작이나 끝맺음이 올바르고 문장의 구성요소가 잘 갖추어졌지만, SMS 문자 말뭉치의 경우 구성요소를 생략 및 간략한 표현으로 대체하는 경우가 많다. 이러한 어휘 사용 특성을 분석하기 위하여, 기존에 구축된 구어체 말뭉치와 문어체 말뭉치를 사용한다. 실험에서는 구어체 말뭉치인 SMS 문자 말뭉치와 네이버 영화평 말뭉치, 그리고 문어체 말뭉치인 한국어 문어체 원시 말뭉치의 어휘사용 특성을 비교-분석한다. 말뭉치별 어휘 비교 및 분석을 위하여 품사 태그 형용사(VA)를 기준으로 하였고, 공연강도를 측정하기 위해 변별적 공연어휘소 분석 방법론을 사용하였다. 그 결과 '좋-', '죄송하-', '즐겁-' 등 감정표현 형용사들이 SMS 문자 말뭉치에서 선호되는 반면, 네이버 영화평 말뭉치에서는 평가 표현과 관련된 형용사들이 선호되는 것을 확인할 수 있었다. 이러한 과정에서 추출된 공연강도가 높은 형용사를 기준으로 감정어휘 사전을 자동 구축하기 위하여 단어 임베딩 기법을 사용하였으며, 총 343,603개의 감성어휘를 자동 구축하였다.

한글 두 글자 단어와 비단어의 어휘판단에 글자 빈도, 글자 유형, 받침이 미치는 영향: KLP 자료의 분석 (The Effect of Syllable Frequency, Syllable Type and Final Consonant on Hangeul Word and Pseudo-word Lexical Decision: An Analysis of the Korean Lexicon Project Database)

  • 신명석;박창호
    • 인지과학
    • /
    • 제34권4호
    • /
    • pp.277-297
    • /
    • 2023
  • 본 연구는 한국어 심성어휘 데이터베이스(KLP-DB)의 분석을 통해 글자 빈도, 글자의 모음 유형, 받침 유무 등 글자 수준 정보가 두 글자로 된 단어와 비단어의 어휘판단에 어떤 영향을 주는지를 알아보고자 하였다. 반응시간과 오반응률에 대한 위계적 회귀분석을 실시한 결과 단어의 어휘판단에는 단어빈도가 중대한 영향을 미치지만, 첫째 글자의 빈도, 첫째 글자와 둘째 글자의 모음 유형과 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 모음 유형의 조합 및 둘째 글자의 빈도와 받침 유무의 조합도 영향을 주었다. 비단어의 어휘판단에는 첫째 글자와 둘째 글자의 빈도, 첫째 글자의 모음 유형, 첫째 글자와 둘째 글자의 받침 유무와 같은 글자 속성이 영향을 미쳤고, 두 글자의 사용빈도의 조합, 모음 유형의 조합, 및 첫째 글자의 빈도와 받침의 조합도 영향을 주었다. 단어빈도는 단어의 어휘판단에서 강력한 영향을 미쳤으며, 글자속성은 단어보다 비단어의 판단에서 더 일관적인 영향을 미쳤다. 본 연구의 결과는 어휘판단과제에서 단어와 비단어 목록의 구성 및 반응시간의 해석에 글자 속성의 문제를 충분히 고려해야 함을 가리킨다. 글자 속성의 효과에 대한 이해는 단어 재인 과정의 이해에도 기여할 것이다.