• 제목/요약/키워드: 사건 추출

검색결과 174건 처리시간 0.044초

자동 추출된 시간정보를 이용한 사건 클러스터링 (Event Clustering Using Automatically Extracted Temporal Information)

  • 김평;남덕윤;최기석;맹성현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.466-468
    • /
    • 2005
  • 신문기사를 대상으로 사건 단위로 문서를 클러스터링 하기 위해서, 기존의 연구에서는 기사의 발행일 또는 기사의 내용만 사용하여 하나의 사건을 다른 사건과 구분하는 방법을 사용해 오고 있다. 하지만 사건의 전개가 시간 차이를 두고 진행되는 경우 또는 비슷한 시간대에 같은 범주에 속하는 사건이 발생하는 경우 기사의 발행일만 사용하여 사건 관련 기사를 구분하는 것은 한계가 있다. 본 연구에서는 한국어 신문기사를 대상으로 신문기사에 나타난 시간정보를 자동 추출하고, 이를 기사의 발행일을 기준으로 정규화 한 후 사용하여 사건단위로 기사를 클러스터링 하는 방법을 개발하였다. 즉 한국어 신문 기사를 대상으로 기사에 나타난 시간 표현을 자동으로 추출한 후, 사건과의 유사도 비교에 사용함으로써 사건 단위 클러스터링의 정확도를 높이기 위한 방법을 제안한다.

  • PDF

격틀 정보를 이용한 한국어 공간 사건 관계 추출 (Korean Space Event Relation Extraction Using Case-frame)

  • 곽수정;김보겸;박용민;이재성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.798-801
    • /
    • 2014
  • 문서에서 공간 개체와 사건을 찾아내고, 이들 간의 위상적 관계나 의미적 관계를 찾아내는 것을 공간정보 추출이라고 한다. 본 논문에서는 언어분석 결과와 세종사전을 활용해 자연언어 문서에서 동작(motion) 사건 관계 중심의 공간 정보를 추출하는 규칙 기반 시스템을 제안하였다. 수동으로 구축한 20문장의 평가 집합에 대해 사건 관계 추출은 27.45%의 F-measure 성능을 보였다. 공간보다 비교적 많은 연구가 진행된 시간 관계 추출에 대한 최신 연구의 성능이 30~35% 수준[1]인 것을 고려하여 볼 때, 본 연구는 공간 사건 관계 추출의 기초 연구로 의미가 있다.

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출 (Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus)

  • ;이경순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.69-74
    • /
    • 2012
  • 인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

소셜 데이터에서 재난 사건 추출을 위한 사용자 행동 및 시간 분석을 반영한 토픽 모델

  • 촐몽 바야르;이경순
    • 정보와 통신
    • /
    • 제34권6호
    • /
    • pp.43-50
    • /
    • 2017
  • 본고에서는 소셜 빅데이터에서 공공안전에 위협되고 사회적으로 이슈가 되는 재난사건을 추출하기 위한 방법으로 소셜 네트워크상에서 사용자 행동 분석과 시간분석을 반영한 토픽 모델링 기법을 알아본다. 소셜 사용자의 글 수, 리트윗 반응, 활동주기, 팔로워 수, 팔로잉 수 등 사용자의 행동 분석을 통하여 활동적이고 신뢰성 있는 사용자를 분류함으로써 트윗에서 스팸성과 광고성을 제외하고 이슈에 대해 신뢰성 높은 사용자가 쓴 트윗을 중요하게 반영한다. 또한, 트위터 데이터에서 새로운 이슈가 발생한 것을 탐지하기 위해 시간별 핵심어휘 빈도의 분포 변화를 측정하고, 이슈 트윗에 대해 감성 표현 분석을 통해 핵심이슈에 대해 사건 어휘를 추출한다. 소셜 빅데이터의 특성상 같은 날짜에 여러 이슈에 대한 트윗이 많이 생성될 수 있기 때문에, 트윗들을 토픽별로 그룹핑하는 것이 필요하므로, 최근 많이 사용되고 있는 LDA 토픽모델링 기법에 시간 특성과 사용자 특성을 분석한 시간상에서의 중요한 사건 어휘를 반영하고, 해당이슈에 대한 신뢰성 있는 사용자가 쓴 트윗을 중요시 반영하도록 토픽모델링 기법을 개선한 소셜 사건 탐지 방법에 대해 알아본다.

소셜 사건에 대한 사용자의 행동 분석에 기반한 신뢰성 높은 사용자의 트윗 추출 (Extracting Reliable User's Tweet for Social Events Based on User Behavior in Twitter)

  • 촐몽 바야르;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.608-611
    • /
    • 2012
  • 소셜 사건이 일어나면 그 사건과 관련된 트윗이 폭발적으로 증가하는데 트윗 일부 내용을 살펴보면 스팸, 광고와 같은 트윗이 많이 포함되어 있다. 수 많은 트위터 데이터에서 사용자가 사건과 직접 관련된 신뢰성 높은 트윗을 찾아 읽는데 시간이 많이 걸릴 수 있다. 이러한 문제를 해결하기 위해 본 논문에서 트위터의 리트윗 정보, 사용자 신뢰도 측정 및 활동 분석, 팔로잉과 팔로워간의 정보 등 사용자의 행동 분석을 이용하여 소셜 사건과 직접 관련된 신뢰성 높은 사용자의 트윗을 추출하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 소셜 이슈 4 개에 대한 트윗 데이터에서의 실험을 통하여 상위 100 개의 결과에서의 정확률(P@100) 76.6%의 성능을 보였다. 실험을 통해 제안 방법이 신뢰성 높은 사용자의 트윗을 추출하는데 효과적인 방법임을 알 수 있다.

사건 탐지/추적을 위한 시간 정보 추출 (Temporal Information Extraction from Korean News for Event Detection and Tracking)

  • 김평;성기윤;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.22-29
    • /
    • 2003
  • 시간정보는 사건 탐지/추적 시스템은 물론 정보 추출, 질의/응답 시스템 등에서 매우 중요한 역할을 한다. 본 연구에서는 한국어 신문 기사를 대상으로 시간 표현을 추출하고 정규화한 후 사건 관련 동사와 연결하는 자동화된 방법들을 제안하였다. 시간 표현을 추출하기 위해서 품사정보로 구축된 패턴과 시간 표현 어휘가 사용되었고, 정규화 과정과 사건 관련 동사와의 연결을 위한 규칙이 만들어졌다. 한국어 신문을 대상으로 제안한 방법의 단계별 평가를 수행하였고, 제안하는 방법의 확장성을 보이기 위해 서로 다른 도메인에도 실험을 하였다.

  • PDF

개체명 인식과 이벤트 추출을 통한 판결문 범죄사실 구성요소 및 스토리라인 시각화방안 연구 (A Study on Elements of Crime Facts and Visualizing the Storyline through Named Entity Recognition and Event Extraction)

  • 이유나;박성미;박노섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.490-492
    • /
    • 2022
  • 최근 사법분야에 지능형 법률 서비스를 제공하게 되면서 학습데이터로서 판결문의 중요성이 높아지고 있다. 그중 범죄사실은 수사자료와 유사하여 범죄수사에 귀중한 자료역할을 하고 있지만, 주체가 생략되거나 긴 문장의 형태로 인해 구성요건을 추출하고 사건의 인과관계 파악이 어려울 수 있어 이를 분석하는데 적지 않은 시간과 인력이 소비될 수밖에 없다. 따라서, 본 논문에서는 사전학습모델을 활용한 개체명 인식과 형태소 분석기반 이벤트 추출기법을 범죄사건 재구성에 적용하여 핵심 사건추출을 간편화하고 시각적으로 표현해 전체적인 사건 흐름 이해도를 향상할 수 있는 방법론을 제안하고자 한다.

사건 탐지 및 추적을 위해 신문기사에서 자동 추출된 시간정보의 유용성 판단 (Judgment about the Usefulness of Automatically Extracted Temporal Information from News Articles for Event Detection and Tracking)

  • 김평;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권6호
    • /
    • pp.564-573
    • /
    • 2006
  • 시간정보는 정보 추출, 질의응답 시스템, 자동 요약과 같은 자연언어 처리 응용분야에서 중요한 역할을 한다. 사건 탐지 및 추적 분야에서는 기사의 발행일이 기사간 유사도 계산에 많이 사용되고 있지만 그 유용성에는 한계가 있다. 본 연구에서는 사건 탐지 및 추적 시스템의 성능을 향상시키기 위해서, 한국어 신문기사를 대상으로 비교적 간단한 자연언어 처리 기술을 사용해서 시간정보를 추출하는 방법을 개발하였다. 시간표현 어구를 추출하기 위해 품사패턴과 어휘사전이 사용되었고, 추출된 시간표현 어구는 정규화 과정을 통해 특정 시각 또는 기간으로 변환되었다. 실험을 통해 시간표현 추출과정의 정확도를 측정하였고, 기사에서 자동으로 추출된 시간을 사용함으로써 사건 탐지 및 추적 시스템의 성능을 향상시킬 수 있었다.

트위터 자료의 시간별 분석과 감성 자질을 이용한 핵심 사건 추출 (Extracting Core Event Feature Based on Timeline Analysis and Sentiment Feature in Twitter Corpus)

  • 김희환;촐몽 바야르;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.395-398
    • /
    • 2011
  • 트위터 사용자들은 어떠한 이슈에 대해 트위터를 통해 빠르고 간결하게 다른 사람들과의 지속적인 커뮤니케이션을 원하고, 이러한 특징은 이슈 별 사건에 따라 트윗 개수에 영향을 미치게 된다. 만약 어느 하나의 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그때의 트윗 개수는 폭발적으로 증가하게 된다. 본 논문에서는 이러한 특징을 이용하여 트위터 자료를 시간별로 분석하여 사건을 인식하고, 감성 자질과 카이제곱 값을 이용해 해당 날짜에 대한 핵심 사건을 추출한다.

비디오 감시 데이터로부터 사람의 자동 인식을 통한 비디오 주석 시스템 (A Video Annotation System with Automatic Human Detection from Video Surveillance Data)

  • 김주성;김학일;김유성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(A)
    • /
    • pp.340-342
    • /
    • 2012
  • 사람관련 사건을 실시간으로 인지하거나 빠르게 사건 관련 증거를 확보하기 위해서는 대량의 비디오 감시 데이터로부터 사람 관련 정보를 빠르게 찾을 수 있어야 하는데 기존의 시스템에서는 모든 프레임으로부터 주석 편집자가 수작업으로 관련 정보를 추출하여 색인해야 하기 때문에 많은 주석 시간을 필요로 하는 문제를 갖고 있었다. 본 논문에서는 대량의 방범용 비디오 감시 데이터로부터 사람 관련 사건 정보를 빠르게 찾을 수 있도록 지원하기 위해 전체 비디오 데이터 중에서 사람의 출현과 퇴장을 기준으로 키 프레임 구간을 추출하고, 키 프레임에서만 사람 관련 정보를 추출하여 사람 관련 주요 정보를 자동으로 추출하여 XML 스키마 형식으로 색인하는 비디오 주석 시스템을 개발하였다. 또한, 색인된 XML 데이터에 대해 구조 및 내용 기반 질의를 이용하여 쉽고 빠르게 검색할 수 있도록 하기 위해 XPATH 질의 인터페이스를 구현 하였다.