• 제목/요약/키워드: 정보추출

검색결과 14,072건 처리시간 0.041초

정보 추출을 위한 이벤트 문장 추출 (Event Sentence Extraction for Information Extraction)

  • 김태현;임수종;윤보현;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.325-331
    • /
    • 2002
  • 정보추출 시스템의 목적은 관심의 대상이 되는 특정 정보를 선택적으로 찾아내 제시하는데 있다. 따라서 도메인 정보에 의존적인 방법으로 정보추출이 이루어질 수밖에 없고, 이에 따른 도메인 정보 구축의 부담이 컸다. 이러한 부담을 줄이기 위해 본 연구에서는 특정 주제영역과 관련한 문서로부터 자동으로 이벤트 문장을 추출하는 시스템을 제안한다. 이벤트 문장이란, 특정도메인에서 다루어지는 이벤트의 구체적인 내용을 포함하고 있는 문장이다. 이러한 문장을 추출함으로써 기본적인 수준의 정보추출 요구를 만족시킬 수 있을 뿐만 아니라, 주출된 이벤트 문장을 도메인 정보 구축에 활용할 수 있을 것이다. 본 연구에서는 동사, 명사, 명사구, 및 3W 자질을 이용하여 문장추출의 성능을 최대화하기 위한 방안을 제안하고, 세 개의 평가 도메인을 대상으로 실험을 수행하였다. 실험 결과, when 및 where 자질과 동사, 명사. 명사구의 가중치를 이용하여 문장 가중치를 계산함으로써 최적의 이벤트 문장추출 성능을 얻을 수 있음을 알 수 있었다.

  • PDF

분석 배제 정보와 후절어를 이용한 한국어 명사추출 (Korean Noun Extraction Using Exclusive Segmental ion Information and Post-noun morpheme sequences)

  • 이도길;류원호;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.19-25
    • /
    • 2000
  • 명사 추출기는 정보검색, 문서분류, 문서요약, 정보추출 등의 분야에서 사용되고 있으며, 정확한 명사 추출과 빠른 색인 속도는 이들 시스템 성능과 밀접한 관계가 있다. 한국어에서 명사를 추출하기 위해서는 형태소 분석이 필요한데, 본 논문에서는 대량의 품사부착된 말뭉치로부터 추출한 분석배제 정보와 후절어를 이용함으로써 형태소 분석을 생략하거나 보다 단순한 처리에 의해 명사를 추출하는 방법을 제안한다. 또한 형태소 분석시 복잡한 음운 현상을 처리하기 위해 많은 음운 규칙을 적용하는 대신 음운 복원 정보를 사용하여 음운 현상을 처리하는 방법을 제안한다. 실험결과에 의하면, 제안된 방법에 의한 명사추출기는 비교적 높은 정확률과 재현율을 나타내며, 빠른 속도를 보였다.

  • PDF

Hybrid Method를 이용한 객체 추출 시스템 (An Object Extraction System Using Hybrid Method)

  • 이상신
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.535-537
    • /
    • 2000
  • 본 논문에서는 정지영상의 색상을 이용하여 객체의 영역 및 경계선을 추출하고, 각각의 추출된 정보의 정점을 혼합하여 보다 정확한 객체를 추출할 수 있는 Hybrid method를 제안한다. 그리고 이 방법을 사용하여 추출된 독립영력간의 연관관계(포함, 인접)를 파악하여 사용자가 원하는 객체를 보다 쉽게 추출하는 객체 추출 시스템을 개발한다.

  • PDF

Bidirectional LSTM-CRF 앙상블을 이용한 공간 개체 추출 (Spatial Entities Extraction using Bidirectional LSTM-CRF Ensemble)

  • 민태홍;이재성
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.133-136
    • /
    • 2017
  • 공간 정보 추출은 대량의 텍스트 문서에서 자연어로 표현된 공간 관련 개체 및 관계를 추출하는 것으로 질의응답 시스템, 챗봇 시스템, 네비게이션 시스템 등에서 활용될 수 있다. 본 연구는 한국어에 나타나 있는 공간 개체들을 효과적으로 추출하기 위한 앙상블 기법이 적용된 Bidirectional LSTM-CRF 모델을 소개한다. 한국어 공간 정보 말뭉치를 이용하여 실험한 결과, 기존 모델보다 매크로 평균이 향상되어 전반적인 공간 관계 추출에 유용할 것으로 기대한다.

  • PDF

이벤트 템플릿을 이용한 정보 추출에 관한 연구 (A Study on Information Extraction Using Event Template)

  • 임수종;정의석;황이규;윤보현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.585-588
    • /
    • 2002
  • 본 논문에서는 개체형 인식이 된 일반 문서에서 정보 추출을 하기 위하여 이벤트 템플릿 구조를 사용하는 방법을 제안한다. 제한된 도메인 지식을 주로 사용하는 기존의 정보 추출 방법과 달리 predicate-argument 구조를 갖는 이벤트 템플릿은 일반적인 지식을 주로 사용하여 정보 추출을 한다. 이벤트 템플릿을 추출하기 위해서는 형태소 분석 결과 용언의 하위범주 정보를 이용하고 이벤트 템플릿의 논항 구조를 이용하여 필요시 이벤트 템플릿을 통합한다. 문서에서 생성된 일반적인 이벤트 템플릿은 정보수용자의 요구에 맞는 도메인 지식을 사용하여 최종적인 결과를 생성한다. 이벤트 템플릿을 사용하는 정보 추출 실험 결과는 제한된 도메인 정보를 사용하는 시스템에 비해 정확율은 떨어지지만 기존 정보 추출시스템의 문제인 이식성을 높일 수 있다.

  • PDF

유전자 온톨로지의 자동 확장과 용어 분석 (Automatic Gene Ontology Extension and Terminology Analysis)

  • 이진복;박종철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.229-231
    • /
    • 2002
  • 생물학 분야의 방대한 지식을 효율적으로 다루기 위하여 생물정보학이 주요한 연구 분야가 되었다. 이중 특히 생물학 문헌에서 정보를 자동으로 추출하는 연구가 활발히 진행되고 있는데, 이러한 정보추출 결과를 이용하여 유전자 온톨로지와 같은 유용한 지식베이스를 자동으로 확장함으로써 폭발적으로 증가하는 생물학 분야의 연구 결과들을 지식베이스에 통합할 수 있다. 자동으로 확장된 온톨로지는 신뢰성을 보장하기 위한 검증 과정을 거쳐, 정보추출 시스템의 성능을 향상시키기 위한 지식베이스로 사용되게 된다. 본 연구에서는 단백질 간의 상호작용에서 나타나는 조건을 추출하는 시스템과 유전자 온톨로지를 이용하여 추출된 생물학 용어를 분석하는 시스템을 제안하고 유전자 온톨로지의 자동 확장 및 검증 시스템에 대하여 논의한다.

  • PDF

정보추출을 위한 학습 가능한 인터페이스 에이전트 (Trainable Interface Agents for Informal ion Extract ion)

  • 김용기;양재영;최중민
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.61-63
    • /
    • 2001
  • 본 논문의 목적은 기계 학습 방법을 이용하여 정보 추출 규칙의 패턴을 학습할 수 있는 인터페이스 에이전트의 개발에 있다. 인터페이스 에이전트는 사용자와 상호작용이 가능한 지능형 에이전트이다. 사용자는 인터페이스 에이전트와 상호작용을 하게 되며 에이전트는 이 상호 작용에서 사용자가 원하는 정보 추출 규칙을 학습하게 된다. 사용자는 웹 문서에서 원하는 정보의 위치를 지정하여 데이터를 인터페이스 에이전트에게 학습시킨다. 인터페이스 에이전트는 학습된 추출 규칙으로부터 사용자가 원하는 정보를 추출한다.

  • PDF

색과 형태 정보를 이용한 교통 안전 표지판 인식 (Traffic Sign Recognition Using Color and Shape Information)

  • 이승우;김욱현
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2000년도 추계종합학술대회논문집
    • /
    • pp.141-144
    • /
    • 2000
  • 본 논문은 교통 안전 표지판 인식에 적용이 가능한 새로운 영상의 특징 정보 추출 방법을 제안한다. 제안된 방법은 인간의 인식 시스템에서 이용하는 기본 특징인 색과 형태정보를 이용하여 영상 인식에 적용한다. 색 정보의 추출은 RGB성분의 히스토그램 분포를 이용하고 형태 정보의 추출은 기하학적인 형태 정보 추출 방법과 모멘트를 이용한다. 본 논문은 유사 영상 검색을 위한 새로운 특징 정보 추출 방법과 간단한 특징 정보 표현 그리고 계산량의 감소 효과를 얻었다.

  • PDF

생의학 문헌에서의 관계 정보 추출 시스템 (A Relational Information Extraction System from Biomedical Literature)

  • 임준호;임재수;장현철;박수준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.932-937
    • /
    • 2007
  • 생의학 분야 문헌의 양이 빠르게 증가함에 따라, 생의학 연구자들이 필요로 하는 정보를 얻기가 어렵게 되었다. 이를 해결하기 위해, 인간-컴퓨터 상호작용 분야에서는 생의학 문헌 검색 시스템, 또는 생의학 문헌의 정보 추출 시스템 등에 대한 연구가 진행되고 있다. 본 논문에서는 생의학 문헌으로부터 정보를 자동으로 추출하기 위한 관계정보 추출 시스템에 대해 소개한다. 소개하는 시스템은 크게 요약 수집 모듈, 관계 추출 모듈, 관계 가시화 모듈로 구성되어 있다. 우선, 요약 수집 모듈에서는 특정 주제의 문헌들을 검색 및 수집한다. 그리고, 관계 추출 모듈에서는 수집된 문헌들에 대해서, 단백질/유전자 등의 생물학 개체를 인식하고, 구문분석을 통하여 인식된 개체들 사이의 관계를 추출한다. 마지막으로, 관계 가시화 모듈에서는 추출된 관계를 통합하여 네트워크 형태로 가시화한다. 이 시스템은 생물학 실험 이전의 문헌 기반 타당성 검사, 단백질-단백질 상호작용 또는 특정 질병과 유전자의 조절관계 분석, 또는 대용량 문헌 처리를 통한 패스웨이 데이터베이스 구축 등에 활용될 수 있다.

  • PDF

마커 정보와 방향성 정보를 이용한 자궁 경부진 암종세포 추출에 관한 연구 (A Study on Detection of Carcinoma Cell of Uterine Cervical Using Marker Information and Directional Information)

  • 이동균;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.364-368
    • /
    • 2009
  • 자궁경부암은 다른 암과 달리 전암(前癌) 단계가 존재하므로 조기에 발견할 경우 생존율이 높다. 그러나 검체 적정성의 부족과 검체 체취의 오류로 인해 질병이 있음에도 음성으로 나타나는 위음성률이 높다. 따라서 본 논문에서는 세포 도말검사에서 사용되는 자궁 경부진 세포에서 암종 세포를 추출하는 방법을 제안한다. 영상의 배경 그리고 핵과 세포질 영역의 구분이 중요하기 때문에 조기 자궁 경부 세포진 영상에서 핵의 추출은 Lighting Compensation을 적용하여 영상을 보정하고, 명암도 분포가 가장 작은 B 채널과 명암도 분포가 높은 R채널과의 OR 연산을 적용한 후, $3{\times}3$마스크를 이용하여 잡음을 제거한다. 잡음이 제거된 영상을 이진화하고 Grassfire 알고리즘을 이용하여 암종 세포의 후보 객체를 추출한다. 추출된 세포 객체에서 핵의 크기, 핵의 면적과 핵의 외곽의 방향성 정보를 이용하여 백혈구와 잡음으로 구성된 객체를 제거한다. 세포 도말검사 과정에서 겹쳐진 부분은 거리 함수와 명암도를 이용하여 마커를 추출하고 추출된 마커 정보와 워터쉐드 알고리즘을 적용하여 겹쳐진 암종 세포를 분리한다. 자궁경부 편평 세포진 400 배율 영상과 자궁 경부 상피내 종양 400 배율 영상을 대상으로 실험한 결과, 기존의 자궁 경부진 암종 세포 추출 방법보다 효과적으로 암종 세포 영역이 추출되는 것을 확인하였다.

  • PDF