• 제목/요약/키워드: 사건 추출

검색결과 174건 처리시간 0.033초

KTARSQI: 한국어 텍스트의 시간 및 사건 표현 주석 (KTARSQI: The Annotation of Temporal and Event Expressions in Korean Text)

  • 임서현;김윤신;조유미;장하연;고민수;남승호;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-135
    • /
    • 2009
  • 정보추출(information extraction), 질의-응답 시스템(Question-Answering system) 등의 자연언어처리 응용분야에서 시간과 사건에 관련한 정보를 추출하는 것은 중요한 부분이다. 그럼에도 불구하고, 한국어의 자연언어처리 응용분야에서는 아직까지 이 연구가 본격화되지 않았다. 미국 TARSQI 프로젝트의 연구결과를 바탕으로 하여 한국어 텍스트에서 시간 및 사건 표현의 주석, 추출, 추론을 위한 명세 언어(KTimeML), 주석 말뭉치(KTimeBank), 자동 태깅 시스템(KTarsqi Toolkit: KTTK)의 개발을 목표로 2008년 KTARSQI 프로젝트가 시작되었다. 이 논문에서는 KTARSQI 프로젝트의 목표와 과제에 대한 전반적인 소개와 함께, 현재까지 진행된 작업의 결과로서 사건 태그의 명세와 주석에 관한 논의를 덧붙인다.

  • PDF

비연계 DB 테이블상에서의 데이터 추출을 위한 규칙 기반의 데이터 마이닝 기법 (A Rule-Based Data Mining Method among the Unrelated DataBase Table)

  • 김찬일;조대호
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.220-224
    • /
    • 2000
  • 데이터 마이닝란 대량의 실제 데이터에서 묵시적이고 잠재적으로 유용한 정보를 추출하는 작업이다. 본 논문에서 서로 관계가 정의되지 않은 데이터베이스의 각 테이블간에서 필요한 정보를 추출 또는 가공하기 위해 데이터 마이닝 기법을 사용한다. 마이닝 기법인 연관 규칙은 어떤 사건이 일어나면 다른 사건이 일어나는 관련성을 의미하는 것이고, 제시된 규칙 기반의 데이터 마이닝 기법은 연관 규칙의 한 분야로서 데이터를 규칙 맞게 분류하는 기법이다. 이런 마이닝 기법을 구현하기 위해 인공지능 분야의 규칙 기반의 전문가 시스템을 사용하였고, 실 시스템인 GDS(Grating automatic Drawing System)에 적용하였다.

  • PDF

Saken: 한국어 사건 인식 시스템 (Saken: A Korean Event Recognizer)

  • 유현조;김문형;준호 줄리아노;남승호;신효필
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-30
    • /
    • 2009
  • 한국어 자연언어 텍스트에서 사건을 자동으로 인식하기 위한 Saken 태거를 소개하고자 한다. Saken 태거는 한국어 사건 및 시간의 자동 인식을 위한 시스템인 한국어 TARSQI 툴킷을 구성하는 하나의 모듈로 개발된 것이나 독립적으로 사건 추출 도구로 사용될 수도 있다. Saken 태거는 미리 구축된 사건의 목록이나 특정 도메인으로 적용 대상을 제한하지 않고 보편적으로 사용될 수 있는 사건 분석기를 지향하고 있다. 이 논문에서는 사건 태깅을 위한 언어학적 배경과 Saken 태거를 구성하는 세부 모듈을 소개하고 신문 기사를 이용한 평가 실험 결과를 분석할 것이다.

  • PDF

사건의 흐름 분석을 위한 동화의 재구성 (Reproducing Fairy Tales for Plot Identification)

  • 안승주;박종철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2011
  • 텍스트의 스토리를 자동으로 이해하기 위해 텍스트에서 기술된 사건(event)을 파악하고 이들을 조합하여 스토리가 어떻게 구성되어 있는지를 파악하는 연구들이 진행되어 왔다. 하지만 이는 스토리의 깊은 의미론적 이해를 요구하는 것 이외에도 텍스트마다 상황과 일어나는 사건들이 다양하기 때문에 언어 자원이 부족한 환경에서의 처리에는 한계가 있다. 이러한 문제는 사건들을 추상화 하여 단순하게 표현할 수 있다면 스토리 이해의 자연스러움을 저해하지 않고 해결 할 수 있다. 본 논문에서는 사건들의 추상화 과정을 위한 기초 연구로서 텍스트 속 등장인물이 행하거나 당하는 사건들을 추출하여 PMI기법을 통해 사건의 흐름을 파악하고 언어학적 단서를 참조하여 스토리 이해 과정에 누락될 수 있는 사건들을 추가하여 보완하였다. 이러한 접근을 통해 등장인물이 행할 수 있는 사건들을 재구성하여 단순화하는 방법을 제시한다.

  • PDF

QA를 위한 백과사전 사건 추적 시스템의 설계 (Design of Topic Detection and Tracking System for QA in Encyclopedia)

  • 장혜주;정유철;강보영;송사광;김운;송훈;맹성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 한국컴퓨터종합학술대회 논문집 Vol.33 No.1 (B)
    • /
    • pp.22-24
    • /
    • 2006
  • 본 논문은 백과사전 QA에서 여러 문서에서 정답을 추출한 후 종합하여 답을 출력하여야 하는 질의를 위한 백과사전 사건 추적 시스템을 제안한다. 본 시스템은 사건 관련 질문과 문서의 속성을 반영할 수 있는 템플릿을 정의하여 문서를 추적하며, 하나의 사건은 '제목' '시간', '장소' '주체', '범주'의 5가지 속성을 가진다. 이러한 방법론을 통하여 기존 QA 시스템의 정답 추출 성능 향상에 도움을 주고, 정보 구성(organizing)과 TDT(Topic Detection and Tracking) 연구에서의 새로운 관점과 방향을 제시하고자 한다.

  • PDF

사건 관계 추출을 위한 사전 학습 임베딩 비교 (Comparing of pre-trained Embedding for Event Extraction)

  • 양승무;이미라;정찬희;정혜동
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.626-628
    • /
    • 2021
  • 사건 관계 추출 태스크는 구조화되지 않은 텍스트 데이터에서 사건의 구조화된 표현을 얻는 것이다. 하나의 문장에서도 많은 정보를 얻을 수 있는 중요한 태스크임에도 불구하고, 다양한 사전 학습 모델을 적용한 연구는 아직 활발하게 연구되지 않고 있다. 따라서 본 연구에서 사전 학습된 모델의 임베딩 기법 중 BERT, RoBERTa, SpanBERT에 각각 base, large 아키텍처를 적용하여 실험하였다. 사건을 식별하기 위한 trigger와 해당 trigger의 세부 argument를 식별하기 위한 분류기를 상위레이어로 각각 설계하였고, 다양한 배치 크기를 적용하여 실험하였다. 성능평가는 trigger/argument 각각 F1 score를 적용하였고, 결과는 RoBERTa large 모델에서 좋은 성능을 보인 것을 확인하였다.

한국어 시간정보추출 연구를 위한 언어자원 및 시스템 구축 (Constructing a Korean Language Resource and Developing a Temporal Information Extraction System for Korean Documents)

  • 임채균;오교중;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.636-638
    • /
    • 2018
  • 본 논문에서는 영어권에 비해 상대적으로 부족한 한국어 언어자원을 지속적으로 구축함으로써 한국어 문서로 구성된 시간정보 주석 말뭉치를 확보하고 이를 바탕으로 한국어 시간정보추출 시스템에 대한 연구를 수행한다. 말뭉치 구축 과정에서의 시간정보 주석 작업은 가이드라인을 숙지한 주석자들이 수작업으로 기록하고, 어떤 주석 결과에 대해 의견이 다른 경우에는 중재자가 주석자들과 함께 검토하며 합의점을 도출한다. 시간정보추출 시스템은 자연어 문장에 대한 형태소 분석결과를 이용하여 시간표현(TIMEX3), 시간관계와 연관된 사건(EVENT), 시간표현 및 사건들 간의 시간관계(TLINK)를 추출하는 단계로 이루어진다. 추출된 한국어 시간정보는 문서 내 공통된 개체에 대한 공간정보와 결합함으로써 시공간정보가 모두 반영된 SPOTL을 생성한다. 추후 실험을 통하여 제안시스템의 구체적인 시간정보추출 성능을 파악할 것이다.

  • PDF

뉴스 비디오의 내용기반 검색을 위한 자동 인덱싱 (Automatic Indexing for the Content-based Retrieval of News Video)

  • 양명섭;유철중;장옥배
    • 한국정보처리학회논문지
    • /
    • 제5권5호
    • /
    • pp.1130-1139
    • /
    • 1998
  • 본 논문은 내용에 기반한 뉴스 비디오의 인덱싱과 검색을 위한 통합된 해결책을 제안한다. 핸재 일반적인 비디오의 자동 인덱싱은 불가능하지만 뉴스 비디오와 같은 구조가 명확한 경우는 가능하다. 이러한 뉴스의 구조화된 지식을 이용하여 키 프레임들을 자동 추출하기 위해서 제안된 우리의 모델은 뉴스사건 분할, 자막 인식, 검색 브라우저 모듈로 구성되어 있다. 첫 번째로 뉴스사건의 분할 모듈은 얼굴인식에 기반하여 사건의 중심인 앵커 장면을 인식하고 앵커 장면의 공간적 정보를 이용하여 뉴스사건을 분할한다. 다음으로 뉴스아이콘을 추출한다. 자막인식 모듈은 먼저 자막의 특성을 이용하여 자막 프레임을 검출하고 분리병합 방법을 이용하여 문자열을 추출한다. 다음으로 문자인식기(OCR)를 이용하여 문자인식을 한다. 마지막으로 검색 브라우저 모듈은 다양한 검색 방법이 가능하도록 하였다.

  • PDF

워드넷 신셋에 대한 사건구조 프레임 반자동 태깅 (Semi-automatic Event Structure Frame tagging of WordNet Synset)

  • 임서현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

한국주식시장에 적합한 사건연구 방법론의 고안

  • 정형찬
    • 재무관리연구
    • /
    • 제14권2호
    • /
    • pp.273-312
    • /
    • 1997
  • 본 연구는 우리나라의 실제 일별 주식수익률 자료를 이용한 시뮬레이션을 통해 우리나라 주식시장에 가장 적합한 사건연구방법론을 도출하고자 하였다. 이를 위해, 1980년에서부터 1995년까지 우리나라 주식시장에 상장된 675개 주식을 대상으로 무작위 복원추출 방법에 의해 50개의 개별주식으로 구성된 250개 표본을 선정하였다. 이들 250개 표본을 이용하여 시뮬레이션 기법에 의해 다양한 사건연구 모형의 통계적 오류와 검정력에 미치는 영향을 종합적으로 분석하였다. 시뮬레이션 실험 결과에 의하면, 먼저 사건일을 정확히 포착할 수 있는 경우에는 산업별주가지수를 시장지수로 선택한 시장모형 혹은 시장조정모형으로 초과수익률을 측정하고, 횡단면 독립성을 가정한 검정법이 가장 우수한 사건연구방법으로 나타났다. 한편, 사건일을 정확하게 포착할 수 없는 경우에는, 동일가중지수를 시장지수로 선택한 시장모형 혹은 시장조정모형으로 초과수익률을 측정하고, 횡단면 독립성을 가정한 검정법이 가장 적합한 모형으로 나타났다. 그리고, 사건일 집중현상으로 인한 제1종 오류를 감소시키는 데에는 개별주식의 초과수익률 간의 횡단면 독립성을 가정한 검정법보다는 횡단면 중속성을 조정한 검정법을 사용하는 것이 더욱 효과적이다.

  • PDF