• 제목/요약/키워드: 태깅 도구

검색결과 30건 처리시간 0.031초

개체명 사전 기반의 반자동 말뭉치 구축 도구 (A Semi-automatic Annotation Tool based on Named Entity Dictionary)

  • 노경목;김창현;천민아;박호민;윤호;김재균;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

개체명 사전 기반의 반자동 말뭉치 구축 도구 (A Semi-automatic Annotation Tool based on Named Entity Dictionary)

  • 노경목;김창현;천민아;박호민;윤호;김재균;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.309-313
    • /
    • 2017
  • 개체명은 인명, 지명, 조직명 등 문서 내에서 중요한 의미를 가지므로 질의응답, 요약, 기계번역 분야에서 유용하게 사용되고 있다. 개체명 인식은 문서에서 개체명에 해당하는 단어를 찾아 개체명 범주를 부착하는 작업을 말한다. 개체명 인식 연구에는 개체명 범주가 부착된 개체명 말뭉치를 사용한다. 개체명의 범주는 연구 분야에 따라 다양하게 정의되므로 연구 분야에 적합한 개체명 말뭉치가 필요하다. 하지만 이런 말뭉치를 구축하는 일은 시간과 인력이 많이 필요하다. 따라서 본 논문에서는 개체명 사전 기반의 반자동 말뭉치 구축 도구를 제안한다. 제안하는 도구는 크게 전처리, 사용자 태깅, 후처리 단계로 나뉜다. 전처리 단계는 자동으로 개체명을 찾는 단계이다. 약 11만 개의 개체명을 기반으로 하여 트라이(trie) 구조의 개체명 사전을 구축한 후 사전을 이용하여 개체명을 자동으로 찾는다. 사용자 태깅 단계는 사용자가 수동으로 개체명을 태깅하는 단계이다. 전처리 단계에서 찾은 개체명 중 오류가 있는 개체명들은 수정하거나 삭제하고, 찾지 못한 개체명들은 사용자가 추가로 태깅하는 단계이다. 후처리 단계는 태깅한 결과로부터 사전 정보를 갱신하는 단계이다. 제안한 말뭉치 구축 도구를 이용하여 752개의 뉴스 기사에 대해 개체명을 태깅한 결과 7,620개의 개체명이 사전에 추가되었다. 제안한 도구를 사용한 결과 사용하지 않았을 때 비해 약 57.6% 정도 태깅 횟수가 감소했다.

  • PDF

XML 편집도구를 이용한 향상된 RDFa 태깅 기법 (Enhanced RDFa Tagging Method using XML Editing Tool)

  • 최영호;차승준;이규철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.155-158
    • /
    • 2010
  • 시맨틱 웹 기술을 활용한 OpenAPI 의미 기반 검색 시스템에서 설명정보페이지에 의미정보를 가진 메타데이터를 첨가하기 위해 RDFa 기술을 이용한 태깅을 하였다. 하지만 태깅 시 사람이 수작업을 통해 입력하기 때문에 시간소모가 크고 오류 위험이 높다는 제약사항이 있다. 이러한 제약사항을 해결하기 위해 본 논문에서는 XML/XHTML 편집도구를 이용한 향상된 RDFa 태깅을 제안한다. 이는 속도향상과 오류 감소의 방법으로 XML/XHTML 편집도구에서 제공하는 자동완성 기능을 제안하고 있다. 그리고 자동완성 기능을 사용하기 위해 DTD를 수정하여 적용하였고 수정된 방법을 테스트한 결과 기존의 수동 태깅 기법보다 걸리는 시간이 단축됐고, 오류를 줄일 수 있음이 확인되었다. 결과를 얻을 수 있었다.

정보추출을 위한 고유명사 및 대용어 태깅 (Named Entity and Coreference Tagging for Information Extraction)

  • 장성호;강승식;우종우;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1111-1114
    • /
    • 2002
  • 최근 정보추출에 대한 중요성이 점차 증가하면서 정보추출에서 필요로 하는 Named Entity와 Coreference, Information Extraction, Information Retrieval의 소개와 한국어에 대해 적용시키기 위한 정의와 방법을 제시한다. 또한, 대량의 문서에 대한 태깅을 효율적으로 수행할 수 있도록 Named Entity와 Coreference 태깅을 쉽게 할 수 있는 NE-CO 태깅 도구를 개발하였다. 이 태깅 도구를 이용하여 시험적으로 경제, 공연, 여행 분야의 300문서에 대한 말뭉치를 구축하였으며, 이 말뭉치는 한국어 정보추출 시스템을 개발하는데 기초 자료로서 활용될 예정이다.

  • PDF

기술 지식 자동 추출을 위한 테스트 컬렉션 구축 (Construction of Test Collection for Automatically Extracting Technological Knowledge)

  • 신성호;최윤수;송사광;최성필;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권7호
    • /
    • pp.463-472
    • /
    • 2012
  • 지난 10년간 인터넷과 컴퓨팅 기술의 발전, 모바일 기기와 센서들의 진화, 페이스북이나 트위터와 같은 소셜 네트워크의 출현 등으로 정보량은 급속도로 늘어나고 있다. 대용량의 데이터와 이로 인해 파생되는 방대한 정보는 그것을 얻고자 하는 사람들에게 한계를 느끼게 한다. 따라서 방대한 정보 속에서 의미있는 지식을 추출하기 위한 시스템 기반의 연구가 활발히 시도되고 있다. 이로 인해 지식 추출 시스템의 중요성이 날로 강조되고 있지만, 정확성과 효율성 측면에서 여전히 많은 과제가 있다. 지식 추출 시스템의 성능을 향상시키기 위해서는 시스템을 평가하기 위한 테스트 컬렉션이 중요하다. 본 논문에서는 기술 지식의 자동 추출을 위해 개발된 시스템을 평가하기 위한 테스트 컬렉션을 소개한다. KEEC/KREC(KISTI Entity Extraction Collection/KISTI Relation Extraction Collection)라 명명된 테스트 컬렉션에 대한 구축 절차 및 기준과 구축된 테스트 컬렉션의 특징을 제시한다. 특히 테스트 컬렉션의 주요한 평가 기준이 되는 정확도를 높이기 위해 태깅 지원 도구를 활용한 전문가 태깅 방식을 사용하는 것이 주요 특징이다. 태깅 지원 도구를 활용한 전문가 태깅은 시스템에 의한 자동 태깅 도구들 또는 사람이 태깅을 하되, 지원 도구 없이 태깅하는 방법보다 태깅의 정확도를 높여준다. 구축된 KEEC/KREC은 실제로 과학기술 문헌에 존재하는 PLOT(Person, Location, Organization, Technology) 간 연관관계 추출 성능 평가를 위해서 사용되었고, 의미있는 연구결과를 도출하는데 기여하였다.

TagBench: 언어 정보 태깅 도구 (TagBench: a tagging tool for linguistic information)

  • 서형원;김재훈;최명길;남유림;권홍석
    • 한국마린엔지니어링학회:학술대회논문집
    • /
    • 한국마린엔지니어링학회 2012년도 전기공동학술대회 논문집
    • /
    • pp.279-279
    • /
    • 2012
  • 일반적으로 한글 문서에 포함된 각종 언어 정보(형태소, 구묶음, 기반구의 품사나 의미 정보 등)를 일일이 수정하는 것에는 많은 어려움이 따른다. 또한 지금껏 개발된 언어 정보 수정 도구들은 이런 언어 정보를 쉽게 수정할 수 없다. 따라서 본 논문에서는 한글 문서의 각종 언어 정보를 쉽게 태깅하고 수정할 수 있도록 도와주는 TagBench를 제안한다.

  • PDF

한국어 감정분석을 위한 말뭉치 구축 가이드라인 및 말뭉치 구축 도구 (Annotation Guidelines for Korean Sentiment Analysis and Annotation Tool)

  • 하은주;오진영;차정원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2018
  • 한국어 감정분석에 대한 연구는 활발하게 진행되고 있다. 그렇지만 학습 및 평가 말뭉치 표현에 대한 논의가 부족하다. 본 논문은 한국어 감정분석에 대해 정의하고, 말뭉치 제작을 위한 가이드라인을 제시한다. 또한, 태깅 가이드라인에 따라 말뭉치를 구축하였으며 한국어 감정분석을 위한 반자동 태깅 도구를 구현하였다.

  • PDF

대화 시스템의 말뭉치 구축을 위한 Object-Action 반자동 추출기 (Semi-Automatic Object-Action Extractor to Build the Utterance Corpus for the Dialogue System)

  • 윤정민;황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.220-223
    • /
    • 2015
  • 본 논문은 대화 시스템에서 사용되는 말뭉치의 구축을 위해 Object와 Action을 반자동으로 추출하는 도구에 대해 기술한다. 제안하는 추출 도구는 형태소 분석과 의존 구문 분석의 결과를 기반으로 적절한 Object와 Action을 추출하는 것에 목표를 두고 있다. 그러나 형태소 분석과 의존 구문 분석의 결과는 여러 가지 오류가 포함될 수 있다. 이러한 오류는 잘못된 Object와 Action의 추출로 이어질 수 있다. 그리고 Object의 추출에 있어 해당 명사의 격이 중요한 정보를 가진다. 하지만 한국어의 특성한 조사의 생략 등으로 인해 격 태깅의 모호성이 발생하게 된다. 따라서 본 논문에서 제안하는 반자동 추출기는 형태소 분석과 의존 구문 분석의 잘못된 결과를 사용자가 손쉽게 수정할 수 있도록 하고 모호성이 발생할 수 있는 Object를 사용자에게 알려주어 올바른 Object와 Action의 추출을 가능하게 한다. 추출기를 이용한 말뭉치의 구축은 1) 형태소 분석 2) 의존 구문 분석 3) Object-Action 추출의 단계로 진행된다. 실험에서 사용된 발화는 관광 회화용 대화 시스템의 숙박, 공항 영역의 500개의 발화이며, 이 중 259개의 발화가 태깅 시 모호성이 발생하는 발화이다. 반자동 추출기를 통해 모호성이 발생한 발화를 태깅한 결과 전체 발화 중 51.8%의 발화를 빠르고 정확하게 태깅할 수 있었다.

  • PDF

품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기 (Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs)

  • 김혜민;윤정민;안재현;배경만;고영중
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.3-8
    • /
    • 2016
  • 형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

  • PDF

품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기 (Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs)

  • 김혜민;윤정민;안재현;배경만;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2016
  • 형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

  • PDF