• 제목/요약/키워드: 한국어 의미 분석

검색결과 484건 처리시간 0.028초

언어적 특징을 반영한 한국어 프레임넷 확장 및 개선 (Expansion and Improvement of Korean FrameNet utilizing linguistic features)

  • 김정욱;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.85-89
    • /
    • 2016
  • 프레임넷 (FrameNet) 프로젝트는 버클리에서 1997년에 처음 제안했으며, 최근에는 다양한 언어적 특징을 반영하여 여러 국가에서 사용되고 있다. 하지만 문장의 프레임을 분석하는 것은 자연언어처리 전문가들이 많은 시간을 들여야 한다. 이 때문에, 한국어 프레임넷을 처음 만들 때는 충분한 훈련을 받은 번역가들이 영어 프레임넷의 문장들과 그 주석 정보들을 직접 번역하는 방법을 사용했다. 결과적으로 상대적으로 적은 비용이 들지만, 여전히 한 문장에 여러 번 등장하는 프레임 정보를 모두 번역하고 에러를 분석해야 했기에 많은 노력이 들어갔다. 본 연구에서는 일본어와 한국어의 언어적 유사성을 사용하여 비교적 적은 비용으로 한국어 프레임넷을 확장하는 방법을 제시한다. 또한 프레임넷에 친숙하지 않은 사용자가 더욱 쉽게 프레임 정보를 활용할 수 있도록 PubAnnotation 기술을 도입하고 "조사"라는 특성을 고려한 Valence pattern 분류를 통해 한국어 공개 프레임넷 사이트를 개선하였다.

  • PDF

한국어 특수조사 '도'의 의미, 문맥적 기능 분석 (An Analysis of the Semantic and Discourse Functions of the Korean Special Marker '-to')

  • 박준경;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.324-331
    • /
    • 1999
  • 본 논문은 한국어의 특수조사, 특히 '도'의 의미, 문맥적 기능에 대하여 다루고 있다. '도'는 문맥의 자연스러운 연결에 있어서 중요한 역할을 수행한다. '도'가 쓰인 문장의 배경에는 반드시 일정한 전제가 존재한다. 전제는 그 문장의 의미 뿐만 아니라 기존 문맥과도 직접적으로 연관된다. 본 논문에서는 '같음', '유사함', '극한', '첨가' 및 병렬문에서 쓰이는 다섯 가지 '도'의 기능에 대하여 설명하고, alternatives semantics를 이용하여 이를 결합범주문법(CCG)에서 구현하는 방법을 제시한다.

  • PDF

개념 및 구문 정보를 이용한 한국어 대화체 분석시스템 (Korean Spoken Language Analysis System Using Concept and Syntactic Information)

  • 왕지현;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.341-346
    • /
    • 1997
  • 개념기반 분석방법은 발화문에서 발화자가 전달하고자 하는 중요한 부분만을 추출하여 개념어로 대표하여 분석하기 때문에 문장에서 발생하는 불필요한 여러 언어현상을 무시하고 주요 의미만 추출할 수 있는 강건함을 가장 큰 장점으로 갖는다. 한국어는 영어권 언어와는 달리 교착어와 부분 자유 어순의 특징을 가지기 때문에 구문정보를 이용하지 않는 순수 개념 기반의 분석기법을 한국어에 그대로 적용하면 문법의 복잡도가 증가하여 시스템 성능이 크게 저하된다. 본 논문에서 제시하는 구문정보를 이용한 개념기반의 분석방법은 순수 개념 기반의 분석기법이나 구문정보만을 사용하는 방법보다 모호성이 적고, 문법의 기술이 용이하며, 대화체 처리의 어려운 점들을 상당수 극복할 수 있다. 또한 분석루틴의 skip기능은 자연 발화문의 분석률을 높여주며, 어근으로부터 분리한 어미를 일정한 개념으로 분류함으로써 교착어의 특성으로 인한 문법의 복잡도를 해소하였고, 분석문법으로 부분 자유 어순에 따른 다양한 문장들을 수용할 수 있다.

  • PDF

어휘적 중의성 제거 규칙과 부분 문장 분석을 이용한 한국어 문법 검사기 성능 향상 (Improvement of Korean Grammar Checker Using Partial Parsing based on Dependency Grammar and Disambiguation Rules)

  • 소길자;남현숙;김수남;원상연;권혁철;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.253-260
    • /
    • 1998
  • 한국어 문서에는 여러 어절을 검증해야만 처리할 수 있는 의미 오류와 문체 오류가 있다. 다수 어절 사이에 있는 오류는 부분 문장 분석을 한다. 논문에서는 의미 오류와 문체 오류를 처리할 때 어휘적 중의성 때문에 생기는 문제점을 제시하고 해결방법을 제안한다. 어휘적 중의성이란 한 단어가 두 가지 이상의 형태소 정보를 가짐을 뜻한다. 철자검사기와는 달리 문법 검사기에서는 어휘적 중의성을 제거하지 않으면 여러 가지 검사 오류가 발생한다. 이 논문에서는 의미, 문체 시스템에서 어휘적 중의성 때문에 검사 오류가 발생할 수 있는 과정을 크게 세 단계로 분류하였다. 연어 오류가 발생할 수 있는 검사단어가 어휘적 중의성을 가지면 표제어가 다른 규칙이 여러 개 존재한다. 이 때 규칙 선택 문제가 생긴다. 중의성 문제는 부분 문장분석 과정에서도 지배소와 의존소 사이의 의존관계를 정확하게 설정하기 어렵게 한다. 본 논문에서는 각 단계에서 발생한 문제를 최소화하여 문법 검사기의 성능을 향상시킨다.

  • PDF

데이터베이스 의미론을 위한 한국어 피동형의 전산적 처리 (Processing Korean Passives for Database Semantics)

  • 홍정하;최승철;이기용
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.411-418
    • /
    • 2000
  • Hausser (1999)와 이기용 (1999a, 1999c)에서는 데이터베이스 관리 시스템(DBMS)을 이용하여 자연언어의 의미를 다루는 데이터베이스 의미론을 제안하였다. 특히 이기용 (1999c)에서는 수형도(tree), 논리 형태(logical fomulas), 자질 구조(feature structure)와 같은 다양한 언어 표상 형식들을 관계형 데이터베이스 관리 시스템(DBMS)의 표상 형식인 테이블 형식으로 전환 가능함을 보임으로써 데이터베이스 의미론에 관계형 데이터베이스 관리 시스템을 도입할 수 있음을 제시하였다. 한편, Lee (2000)에서 제시한 데이터베이스 의미론 모형에서는 데이터베이스 관리 시스템과 사용자(end-user)를 연결하는 언어 정보 처리 시스템(LIPS; Linguistic Information Processing System)을 제안하였다. 이 언어 정보 처리 시스템은 사용자에 의해 입력된 언어 자료를 처리하여 그 분석 결과를 데이터베이스 관리 시스템에 전달하고, 이를 통해 구축된 데이터베이스에서 추출한 정보를 다시 사용자에게 전달하는 시스템이다. 이 논문은 한국어 '이, 히, 리, 기' 피동형을 전산처리 할 수 있도록, 데이터베이스 의미론에서 핵심 요소인 언어정보 처리 시스템과 데이터베이스 관리 시스템을 구현하는 것이 목적이다.

  • PDF

기능동사 구문과 개념 유사도를 이용한 한국어 부사격의 의미역 결정 (Semantic Role Assignment for Korean Adverbial Case Using Support Verb Phrase and Concept Similarity)

  • 신명철;이용훈;김미영;정유진;이종혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.451-453
    • /
    • 2005
  • 본 논문에서는 한국어에 있어 '에, 로'를 격표지로 하는 부사격에 대한 의미역 결정 모델에 대해 다루고 있다. 의미역 결정은 의미 분석의 핵심 과정 중 하나이고 자연언어처리에서 해결해야 할 중요한 문제이다. 본 논문은 기존 연구와 언어학 논저를 참고해서 의미역 결정에 유용한 자질들을 정리하였고 SVM을 이용하여 의미역 결정 모델을 구축하였다. 또한 기존 연구와 차별적으로 기능동사 구문의 처리와 지배소 개념의 유사도 보정 방법을 사용하여 보다 견고한 모델을 만들 수 있었다. 성능 평가 결과 개념(Concept)만을 사용한 기본 모델에 비해서 평균 $9\%$의 정확률 향상을 보였다.

  • PDF

한영 자동 번역을 위한 동사구 번역패턴의 활용 (Design of Verb-Phrase Patterns for Korean-to-English MT)

  • 양성일;김영길;서영애;김창현;홍문표;최승권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.178-180
    • /
    • 2001
  • 원시언어 문장의 구조 분석을 기반으로 하는 기계번역 시스템에서 원시언어의 최소 의미 단위는 동사를 중심으로 한 단문으로 생각할 수 있다. 단문 단위 대역어를 지정하기 위해서는 동사구 번역패턴의 사용이 요구된다. 본 논문에서는 한국어 단문 내 격 정보와 번역을 위한 의미 제약조건을 기술하여 한영 기계번역 시스템에서 사용하는 동사구 번역패턴을 정의하고, 문장 정규화를 통한 동사구 번역패턴의 활용방법을 제안한다. 동사구 번역패턴은 단문 구조 파악을 위한 제약 조건부와 대역어 선정부로 나뉜다. 제약 조건부는 단문 구조 번역을 위한 최소한의 의미 제약만으로 기술되며, 격조사로 구분되는 격 정보를 갖는다. 이러한 격 정보는 원시언어인 한국어의 단문 분석을 위해 사용되며 분석결과에 대해 단문 단위 대역어를 지정한다. 동사구 번역 패턴은 실제 말뭉치에서의 사용을 반영하기 위해 병렬 말뭉치로부터 구축되며 실험을 통해 예측되는 패턴의 규모를 알아볼 수 있다.

  • PDF

한국어 중의적 형태소 표상양식과 처리 특성 : 실어증 환자를 중심으로 (The Processing and Representations of Ambiguos Morpheme in Korean Words : Centered in Aphasics.)

  • 정재범;편성범;김태훈;남기춘
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2002년도 춘계학술대회
    • /
    • pp.151-156
    • /
    • 2002
  • 중의적인 단어를 처리하는 방법에 대한 선행연구로, 첫째 문맥에 맞는 의미가 먼저 활성화된다는 가설과 둘째, 여러 뜻 중에 상대적인 빈도에 따라 많이 쓰이는 의미가 먼저 활성화되고, 그것이 문맥과 일치하지 않는다면, 다른 관련된 의미를 찾는다는 가설이 제기되었다. 마지막으로 문맥에 상관없이 모든 의미가 활성화 된 후 문맥을 고려하여 문맥에 적절한 의미를 선택한다는 가설이 있다. 본 연구에서는 '먹을', '감을' 등과 같이 2가지 의미의 품사가 다른 중의 어절과 '쥐어', '감어' 등과 같이 어절 문맥('어')이 주어진 어절의 의미 활성화가 어떻게 다른지를 조사하였다. 본 연구의 목적을 위해 점화어휘 판단 과제를 사용하였다. 실험 1의 결과는 SOA 150ms 조건에서 점화자극어절과 관련된 의미가 품사와 관련 없이 모두 활성화되었다. SOA 1000ms 조건에서는 상대적으로 많이 쓰이는 체언의 의미는 계속 활성화 되어 있는 반면, 용언의 의미 점화량은 감소하였다. 명칭성 실어증 환자인 SDK의 경우 SOA 150ms 조건에서는 일반인과 같은 형태소 처리특성을 보였으나 1000ms 조건에서는 달랐다. 다른 명칭성 실어증 환자인 BIS과 전반성 실어증 환자인 PSB는 SOA 150ms 조건과 1000ms 조건에서 일반인과 아주 다른 양상을 보였다. 이것은 실어증 환자의 타잎에 따라 형태소의 처리나 중의적인 의미 활성화가 일반인과는 다르다는 것을 보여준다. 실험 2에서는 어절 문맥이 있는 '먹어', '쥐어', '감어' 등과 같은 어절을 사용하였다. 실험 2의 결과는 SOA 150ms 조건일 때 어절문맥의 영향으로 용언의 의미만 촉진적 점화효과가 있었고, 체언의 의미는 활성화되지 않았다. 그러나 SOA 1000ms로 지연시켰을 때는 용언뿐만 아니라 체언의 의미도 촉진적 점화효과가 있었다. 실험 1과 2의 결과는 중의적인 한국어 어절의 경우에도 모든 의미가 활성화되나 어절 문맥이 존재할 때는 어절 문맥의 제약으로 어절 문맥에 맞는 한 가지 의미만 활성화된다는 것을 암시한다. 또한 이러한 결과는 한국어 어절이 분석된 형태가 아닌 어절 형태로 심성 어휘집에 저장되어 있다는 것을 암시한다. 실어증 환자의 경우 실험 1과 마찬가지로 환자의 수준이나 종류에 따라 다양한 반응을 보여주었다.

  • PDF

한국어 언어모델 주의집중 패턴과 의미적 대표성 (Attention Patterns and Semantics of Korean Language Models)

  • 양기수;장윤나;임정우;박찬준;장환석;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-608
    • /
    • 2021
  • KoBERT는 한국어 자연어처리 분야에서 우수한 성능과 확장성으로 인해 높은 위상을 가진다. 하지만 내부에서 이뤄지는 연산과 패턴에 대해선 아직까지 많은 부분이 소명되지 않은 채 사용되고 있다. 본 연구에서는 KoBERT의 핵심 요소인 self-attention의 패턴을 4가지로 분류하며 특수 토큰에 가중치가 집중되는 현상을 조명한다. 특수 토큰의 attention score를 층별로 추출해 변화 양상을 보이고, 해당 토큰의 역할을 attention 매커니즘과 연관지어 해석한다. 이를 뒷받침하기 위해 한국어 분류 작업에서의 실험을 수행하고 정량적 분석과 함께 특수 토큰이 갖는 의미론적 가치를 평가한다.

  • PDF

고성능 한국어 형태소 분석을 위한 어미 분류 (A Classification of Endings for an Efficient Morphological Analysis of Korean)

  • 은종진;박선영
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.41-47
    • /
    • 2000
  • 한국어 형태소 분석에서 가장 중요한 부분 중 하나가 바로 용언구(서술어)를 분석하는 것이다. 형태소 분석 뿐만 아니라 구문 분석, 의미 분석 단계에서도 정확한 용언구 분석은 매우 중요한 작업 중의 하나이다. 또한, 용언구에는 [체언+지정사+어미] 패턴도 포함되므로, 정보 검색기의 핵심 모듈인 명사 추출기(색인기)의 성능에도 용언구의 분석은 높은 비중을 차지한다. 본 논문에서는 용언구 분석의 정확성을 높이고, 견고하면서 속도도 향상시킬 수 있는 방법으로 새로운 어미 분류를 제안하고자 한다.

  • PDF