• Title/Summary/Keyword: ETRI 말뭉치

Search Result 42, Processing Time 0.037 seconds

Named Entity and Coreference Tagging for Information Extraction (정보추출을 위한 고유명사 및 대용어 태깅)

  • Jang, Sung-Ho;Kang, Seung-Shik;Woo, Chong-Woo;Yun, Bo-Hyun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1111-1114
    • /
    • 2002
  • 최근 정보추출에 대한 중요성이 점차 증가하면서 정보추출에서 필요로 하는 Named Entity와 Coreference, Information Extraction, Information Retrieval의 소개와 한국어에 대해 적용시키기 위한 정의와 방법을 제시한다. 또한, 대량의 문서에 대한 태깅을 효율적으로 수행할 수 있도록 Named Entity와 Coreference 태깅을 쉽게 할 수 있는 NE-CO 태깅 도구를 개발하였다. 이 태깅 도구를 이용하여 시험적으로 경제, 공연, 여행 분야의 300문서에 대한 말뭉치를 구축하였으며, 이 말뭉치는 한국어 정보추출 시스템을 개발하는데 기초 자료로서 활용될 예정이다.

  • PDF

Word Sense Disambiguation Based on Local Syntactic Relations and Sense Co-occurrence Information (국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소)

  • Kim, Young-Kil;Hong, Mun-Pyo;Kim, Chang-Hyun;Seo, Young-Ae;Yang, Seong-Il;Ryu, Chul;Huang, Yin-Xia;Choi, Sung-Kwon;Park, Sang-Kyu
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.184-188
    • /
    • 2002
  • 본 논문에서는 단순히 주변에 위치하는 어휘들간의 문맥 공기 정보를 이용하는 방식과는 달리 국소 구문 관계 및 의미 공기 정보에 기반한 명사 의미 모호성 해소 방안을 제안한다. 기존의 WSD 방법은 구조 분석의 어려움으로 인하여 문장의 구문 관계를 충분히 고려하지 못하고 주변 어휘들과의 공기 관계로 그 의미를 파악하려 했다. 그러나 본 논문에서는 동사구의 논항 의미 관계뿐만 아니라 명사구내에서의 의미 관계도 고려한 국소 구문관계를 고려한 명사 의미 모호성 해소 방법을 제안한다. 이 때, 명사들의 의미는 자동번역 시스템의 목적에 맞게 공기(co-occurrence)하는 동사들에 따라 분류하였다. 그리고 한중 자동 번역 지식으로 사용되는 명사 의미 코드가 부착된 74,880 의미 격틀의 의미 공기정보를 이용하였으며 형태소 태깅된 말뭉치로부터 의미모호성이 발생하지 않게 의미 공기정보 및 명사구 의미 공기 정보를 자동으로 추출하였다. 실험 결과, 의미 모호성이 발생하는 명사들에 대해서 83.9%의 의미 모호성 해소 정확률을 보였다.

  • PDF

Spoken language Translation System Based on PDMT (PDMT 번역 방법론에 기반한 대화체 음성 언어 번역 시스템)

  • Yun, Seung;Yu, Cho-Rong;Choi, Mi-Ran;Oh, Seung-Shin;Park, Jun;Lee, Young-Jik
    • Annual Conference on Human and Language Technology
    • /
    • 2003.10d
    • /
    • pp.279-283
    • /
    • 2003
  • ETRI가 참여하고 있는 자동 통역 관련 국제 컨소시엄인 C-STAR에서는 여행자 영역의 대규모 다국어 병렬 말뭉치를 공동으로 구축하였고, 현재 각 기관에서는 이를 이용한 대화체 음성 언어 번역 시스템을 개발 중이다. ETRI에서는 핵심어 처리, 통계정보를 이용하는 구 단위 자동 설정, 설정된 구의 자동대응 및 재배치 등을 특징으로 하는 구 기반 직접 번역 방식(PDMT: Phrase-based Direct Machine Translation)의 번역 방법론을 제안하고 관련 연구를 진행하고 있다. 본 논문에서는 ETRI 대화체 음성 언어 번역 시스템의 구성에 대해 알아보고 PDMT 번역 방법론의 등장 배경과 그 구체적인 번역 방법 및 특징에 대해 자세히 논의하기로 한다.

  • PDF

Labeled Statistical Korean Dependency Parsing with Global and Local Information (전역 및 지역 정보를 이용한 SVM 기반 한국어 문장 구조 및 격 레이블 분석)

  • Lim, Soojong;Lee, Changki;Jang, Myung-Gil;Ra, DongRyul
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.207-212
    • /
    • 2009
  • 한국어 문장의 구조 및 격 레이블 분석을 위해서 SVM 모델을 이용하여 얻어진 전역 및 지역 정보 통계 모델에 기반한 방법을 제안한다. 제안하는 방법은 후방 beam search 알고리즘을 이용하여 부분 구문 분석을 하는 과정에서 지역 의존 정보를 사용하였고 이렇게 구성된 문장의 후보 구조에 대해서는 전역 정보 모델를 사용하여 최적의 문장 구조 및 격 레이블을 분석하였다. 제안하는 방법은 지역이나 전역 중 한 개의 모델만을 사용할 때 발생할 수 있는 오류를 최소화하였다. 지식 DB 사업의 한국어 의존 구문 분석 말뭉치를 이용하여 실험한 결과 전역 정보나 지역 정보만을 사용한 결과보다 각각 1.2%, 3.3% 높은 79.1%의 문장 구조 및 격 레이블 분석 정확률을 나타냈고 전역 정보만을 사용할 때보다 약 76배 이상의 빠른 속도 향상을 보였다. 향후 연구로는 지배소 단위, 구 묶음 단위 등으로 통계 정보를 세분화하여 좀더 높은 성능 향상을 기대한다.

  • PDF

Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition (문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용)

  • Min, Jin-Woo;Na, Seung-Hoon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.99-101
    • /
    • 2016
  • 문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.

  • PDF

Morphological Ambiguity Reduction Using Linguistic Knowledge (언어지식을 이용한 형태소 해석의 모호성 축소)

  • Kim, Jae-Hoon;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.231-234
    • /
    • 1996
  • 가능한 모든 형태소 해석을 찾아내는 한국어 형태소 해석기들은 필요 이상으로 많은 수의 형태소 해석 결과를 생성하기 때문에, 자연언어 처리 시스템의 상위 과정, 즉 구문해석, 의미해석 등에 큰 도움이 되지 못하고 있는 실정이다. 이러한 문제점을 해결하기 위해서, 본 논문에서는 어휘화된 배열규칙과 형태적 포섭관계와 같은 언어지식을 이용해서, 형태소 해석의 모호성 축소 방법을 제안하고자 한다. 실험 및 평가를 위해서 KAIST 말뭉치를 이용하였으며, 평가의 기준을 설정하기 위해서 품사 쌍의 접속정보를 배열규칙으로 하는 한국어 형태소 해석기를 사용하였다. 어휘화된 배열규칙과 형태적 포섭관계를 이용했을 경우, 각각 54%와 40.4%의 형태소 해석의 모호성 감소율을 보였으며, 이들 두 방법을 동시에 적용했을 경우, 67.5%의 형태소 해석의 모호성 감소율을 보였다.

  • PDF

Base-Noun Extraction with filtering and Segmentation in Korean (여과 및 분리 기법을 이용한 한국어 기준명사 추출)

  • 김재훈;김준홍;박호진
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.3-10
    • /
    • 2000
  • 웹의 등장으로 방대한 양의 문서를 다루는 정보검색, 정보추출, 정보요약 등의 분야에서 명사 추출은 대단히 중요한 역할을 담당하는 한 모듈이다. 본 논문에서는 대량의 문서에서 효과적으로 명사를 추출하기 위해 여과기법과 분리기법을 이용한 한국어 기준명사 추출 시스템을 기술한다. 기준명사는 명사들 중에서 기본이 되는 명사로서 복합명사는 제외된다. 본 논문의 기본적인 개념은 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사어구와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과, 재헌율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 정보요약 시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

  • PDF

Construction and application of Korean Semantic-Network based on Korean Dictionary (사전을 기반으로 한 한국어 의미망 구축과 활용)

  • 최호섭;옥철영;장문수;장명길
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.448-450
    • /
    • 2002
  • 시소러스 의미망, 온톨로지 등과 같은 지식베이스는 자연언어처리와 관련된 여러 분야에서 중요한 언어자원의 역할을 담당하고 있다. 하지만 정보검색, 기계번역과 같은 특정 분야마다 다르게 구축되어 이러한 지식베이스는 실질적인 한국어 처리에는 크게 효과를 보지 못하고 있는 실정이다. 본 논문은 한국어를 대상으로 한 시소러스, 의미망의 등의 구축 방법론적 문제를 지적하고 말뭉치를 중심으로 한 텍스트 언어처리에 필요한 의미망의 구축 방법과 포괄적인 활용방안을 모색한다. 의미망 구축의 기반이 되는 지식은 각종 사전(dictionary)를 이용했으며, 구축하고 있는 의미망의 활용 가능성을 평가하기 위하여 ETRI의 의미기반 정보검색과 언어처리의 큰 문제 중 하나인 단어 중의성 해소(WSD)에서 어떻게 활용되는지를 살핀다. 그리하여 언어자인의 처리 방안 중의 하나인 의미망을 구축함으로써 언어를 효과적으로 처리하기 위한 기본적이면서 중요한 어휘 데이터베이스 마련과 동시에 언어자원 구축의 한 방향을 제시하고자 한다.

  • PDF

Lexicon Feature Infused Character-Based LSTM CRFs for Korean Named Entity Recognition (문자 기반 LSTM-CRF 한국어 개체명 인식을 위한 사전 자질 활용)

  • Min, Jin-Woo;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.99-101
    • /
    • 2016
  • 문자 기반 LSTM CRF는 개체명 인식에서 높은 인식을 보여주고 있는 LSTM-CRF 방식에서 미등록어 문제를 해결하기 위해 단어 단위의 임베딩 뿐만 아니라 단어를 구성하는 문자로부터 단어 임베딩을 합성해 내는 방식으로 기존의 LSTM CRF에서의 성능 향상을 가져왔다. 한편, 개체명 인식에서 어휘 사전은 성능 향상을 위한 외부 리소스원으로 활용하고 있는데 다양한 사전 매칭 방법이 파생될 수 있음에도 이들 자질들에 대한 비교 연구가 이루어지지 않았다. 본 논문에서는 개체명 인식을 위해 다양한 사전 매칭 자질들을 정의하고 이들을 LSTM-CRF의 입력 자질로 활용했을 때의 성능 비교 결과를 제시한다. 실험 결과 사전 자질이 추가된 LSTM-CRF는 ETRI 개체명 말뭉치의 학습데이터에서 F1 measure 기준 최대 89.34%의 성능까지 달성할 수 있었다.

  • PDF

Base-Noun Extraction with Filtering and Segmentation in Korean (여과 및 분리 기법을 이용한 한국어 기준명사 추출)

  • Kim, Jae-Hoon;Kim, Jun-Hong;Park, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.3-10
    • /
    • 2000
  • 웹의 등장으로 방대한 양의 문서를 다루는 정보검색, 정보추출, 정보요약 등의 분야에서 명사 추출은 대단히 중요한 역할을 담당하는 한 모듈이다. 본 논문에서는 대량의 문서에서 효과적으로 명사를 추출하기 위해 여과기법과 분리기법을 이용한 한국어 기준명사 추출 시스템을 기술한다. 기준명사는 명사들 중에서 기본이 되는 명사로서 복합명사는 제외된다. 본 논문의 기본적인 개념은 먼저 여과기법을 이용해서 명사를 포함하지 않은 어절을 미리 제거하고, 그리고 분리기법을 이용해서 명사가 포함된 어절에서 명사어구와 조사를 분리하고, 복합명사에 해당할 경우에는 각 명사를 분리하여 기준명사를 추출한다. ETRI 말뭉치를 대상으로 실험한 결과 재현율과 정확률 모두 약 89% 정도의 성능을 보였으며, 제안된 시스템을 한국어 정보시스템에 적용해 보았을 때, 좋은 결과를 얻을 수 있었다.

  • PDF