• Title/Summary/Keyword: 의미 태깅

Search Result 109, Processing Time 0.019 seconds

Two-Level Clausal Segmentation using Sense Information (의미 정보를 이용한 이단계 단문분할)

  • Park, Hyun-Jae;Woo, Yo-Seop
    • The Transactions of the Korea Information Processing Society
    • /
    • v.7 no.9
    • /
    • pp.2876-2884
    • /
    • 2000
  • Clausal segmentation is the method that parses Korean sentences by segmenting one long sentence into several phrases according to the predicates. So far most of researches could be useful for literary sentences, but long sentences increase complexities of the syntax analysis. Thus this paper proposed Two-Level Clausal Segmentation using sense information which was designed and implemented to solve this problem. Analysis of clausal segmentation and understanding of word senses can reduce syntactic and semantic ambiguity. Clausal segmentation using Sense Information is necessary because there are structural ambiguity of sentences and a frequent abbreviation of auxiliary word in common sentences. Two-Level Clausal Segmentation System(TLCSS) consists of Complement Selection Process(CSP) and Noncomplement Expansion Process(NEP). CSP matches sentence elements to subcategorization dictionary and noun thesaurus. As a result of this step, we can find the complement and subcategorization pattern. Secondly, NEP is the method that uses syntactic property and the others methods for noncomplement increase of growth. As a result of this step, we acquire segmented sentences. We present a technique to estimate the precision of Two-Level Clausal Segmentation System, and shows a result of Clausal Segmentation with 25,000 manually sense tagged corpus constructed by ETRl-KONAN group. An Two-Level Clausal Segmentation System shows clausal segmentation precision of 91.8%.

  • PDF

Noun Sense Disambiguation Based-on Corpus and Conceptual Information (말뭉치와 개념정보를 이용한 명사 중의성 해소 방법)

  • 이휘봉;허남원;문경희;이종혁
    • Korean Journal of Cognitive Science
    • /
    • v.10 no.2
    • /
    • pp.1-10
    • /
    • 1999
  • This paper proposes a noun sense disambiguation method based-on corpus and conceptual information. Previous research has restricted the use of linguistic knowledge to the lexical level. Since knowledge extracted from corpus is stored in words themselves, the methods requires a large amount of space for the knowledge with low recall rate. On the contrary, we resolve noun sense ambiguity by using concept co-occurrence information extracted from an automatically sense-tagged corpus. In one experimental evaluation it achieved, on average, a precision of 82.4%, which is an improvement of the baseline by 14.6%. considering that the test corpus is completely irrelevant to the learning corpus, this is a promising result.

  • PDF

A Non-morphological Approach for DBpedia URI Spotting within Korean Text (한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소)

  • Kim, Youngsik;Hahm, Younggyun;Kim, Jiseong;Hwang, Dosam;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

Construction of Folksonomy Tag Framework Using Bibliographic Record (서지레코드와의 연계를 통한 폭소노미 태그 프레임워크 구축)

  • Lee, Seung-Min
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.45 no.2
    • /
    • pp.185-207
    • /
    • 2011
  • In the current information environment, many approaches have been adopted to represent and organize information resources. Among these approaches, folksonomy using tags is now being used in knowledge representation and organization. Although it may be an efficient approach to overcome the limitations of previous approaches, there are several problems in assigning tags such as ambiguity, inconsistency, and polysemy that limit efficient information organization. This research proposes a conceptual framework for the control of semantics of tags through linking up with bibliographic records in order to maximize the efficiency and minimize the limitations of folksonomy tags.

A Korean Mobile Conversational Agent System (한국어 모바일 대화형 에이전트 시스템)

  • Hong, Gum-Won;Lee, Yeon-Soo;Kim, Min-Jeoung;Lee, Seung-Wook;Lee, Joo-Young;Rim, Hae-Chang
    • Journal of the Korea Society of Computer and Information
    • /
    • v.13 no.6
    • /
    • pp.263-271
    • /
    • 2008
  • This paper presents a Korean conversational agent system in a mobile environment using natural language processing techniques. The aim of a conversational agent in mobile environment is to provide natural language interface and enable more natural interaction between a human and an agent. Constructing such an agent, it is required to develop various natural language understanding components and effective utterance generation methods. To understand spoken style utterance, we perform morphosyntactic analysis, shallow semantic analysis including modality classification and predicate argument structure analysis, and to generate a system utterance, we perform example based search which considers lexical similarity, syntactic similarity and semantic similarity.

  • PDF

Another Choice for Parsing : Using Syntactic Morpheme (파싱을 위한 선택 : 구문 형태소의 이용)

  • Hwang, Y.G.;Song, Y.J.;Lee, H.Y.;Lee, Y.S.
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.249-254
    • /
    • 1999
  • 자연어 분석에서 발생하는 가장 큰 문제점은 분석의 각 단계에서 필요 이상의 모호성이 발생하는 것이다. 이러한 모호성은 각각의 분석 단계에서는 반드시 필요한 결과일 수 있지만 다음 단계의 관점에서는 불필요하게 과생성된 자료로 볼 수 있다. 특히 한국어 형태소 분석 단계는 주어진 문장에 대해 최소의 의미를 가지는 형태소로 분석하기 때문에 과생성된 결과를 많이 만들어 내는데, 이들 대부분이 보조용언이나 의존 명사를 포함하는 형태소열에서 발생한다. 품사 태깅된 코퍼스에서 높은 빈도를 나타내는 형태소들을 분석해 보면 주위의 형태소와 강한 결합 관계를 가지는 것을 발견할 수 있다. 이러한 형태소는 대부분 자립성이 없는 기능형태소로서, 개개의 형태소가 가지는 의미의 합으로 표현되기보다는 문장내에서 하나의 구문 단위로 표현될 수 있다. 본 논문에서는 이 형태소 열을 구문 형태소로 정의하고, 필요한 경우 일반 형태소 해석의 결과를 구문 형태소 단위로 결합하고 이를 바탕으로 구문 해석을 하는 방법을 제안한다. 구문 형태소 단위를 이용하여 구문해석을 수행함으로써, 형태소 해석 결과의 축소를 통해 불필요한 구문 해석 곁과를 배제할 수 있다.

  • PDF

The 3-step Answer Processing Method for Encyclopedia Question-Answering System : AnyQuestion1.0 (3단계 정답 추출 방법을 이용한 백과사전 인물분야)

  • Kim, Hyeon-Jin;Oh, Hyo-Jung;Wang, Ji-Hyun;Lee, Chung-Hee;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.275-282
    • /
    • 2004
  • 본 논문은 3단계 정답 추출 방법을 통해 백과사전 인물분야 질의응답 시스템을 구현하는 방법을 제안한다. 논문에서 제안한 3단계 정답 추출 방법은 1) 백과사전 문서 내에서 정형화 될 수 있는 지식들을 추출한 백과사전 KB 기반 정답 추출 방법, 2) 문장을 언어분석 하여 LF(Logical Form)구조를 추출하여 색인한 LF 기반 정답추출 방법, 3) 각 문장을 주제 태깅을 하여, 주제별로 묶어 의미적 단락으로 구분하고 단락 검색을 기반으로 정답을 추정하는 의미적 단락 기반 정답 추출 방법으로 구성되어 있다. 이러한 방법론은 백과사전이라는 문서 도메인의 특성을 반영하고. 사용자 질문의 난이도 또는 형태에 따라서 정답을 제공할 수 있는 백과사전 인물분야 질의응답 시스템에 적합하다.

  • PDF

Emotion and Sentiment Analysis from a Film Script: A Case Study (영화 대본에서 감정 및 정서 분석: 사례 연구)

  • Yu, Hye-Yeon;Kim, Moon-Hyun;Bae, Byung-Chull
    • Journal of Digital Contents Society
    • /
    • v.18 no.8
    • /
    • pp.1537-1542
    • /
    • 2017
  • Emotion plays a key role in both generating and understanding narrative. In this article we analyzed the emotions represented in a movie script based on 8 emotion types from the wheel of emotions by Plutchik. First we conducted manual emotion tagging scene by scene. The most dominant emotions by manual tagging were anger, fear, and surprise. It makes sense when the film script we analyzed is a thriller-genre. We assumed that the emotions around the climax of the story would be heightened as the tension grew up. From manual tagging we could identify three such duration when the tension is high. Next we analyzed the emotions in the same script using Python-based NLTK VADERSentiment tool. The result showed that the emotions of anger and fear were most matched. The emotion of surprise, anticipation, and disgust, however, scored lower matching.

Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis (한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축)

  • Lee, Su-Seon;Park, Hyun-Jae;Woo, Yo-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

Web Image Retrieval using Prior Tags based on WordNet Semantic Information (워드넷 의미정보로 선별된 우선 태그와 이를 이용한 웹 이미지의 검색)

  • Kweon, Dae-Hyeon;Hong, Jun-Hyeok;Cho, Soo-Sun
    • Journal of Korea Multimedia Society
    • /
    • v.12 no.7
    • /
    • pp.1032-1042
    • /
    • 2009
  • This research is for early extraction and utilization of semantic information from the tags in tagged Web image retrieval. Generally, users attach a tag to a Web image with little thought of the order, up to over 100 ones. In this paper, we suggest a method of selecting prior tags based on their importance when tagged images are uploaded, and using them in image retrieval. Ideas came from the recognition of the important tags which give a better description of the image as the tags sharing more semantic information with other tags of the same image. This method includes calculation of relation scores between tags based on WordNet and multilevel search of tagged images with the scores. For evaluation, we compared the suggested method and other retrieval methods searching images with simple matching of tags to a given keyword. As the results, we found the superiority of our method in precision and recall rate.

  • PDF