• 제목/요약/키워드: 정보추출

검색결과 14,072건 처리시간 0.034초

국어정보 질의응답을 위한 키워드 추출 (Keyword Extraction for Korean Language Q&A)

  • 전석종;이수인;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF

언어모델에서 엔티티 정보를 이용한 관계 추출 성능 향상 기법 (A Technique for Improving Relation Extraction Performance using Entity Information in Language Model)

  • 허윤아;오동석;황태선;이설화;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.124-127
    • /
    • 2020
  • 관계 추출은 문장에서 두 개의 엔티티가 주어졌을 때 두 개의 엔티티에 대한 의미적 이해를 통해 관계를 분류하는 작업이다. 이와 같이 관계 추출에서 관계를 분류하기 위해서는 두 개의 엔티티에 대한 정보가 필요하다. 본 연구에서는 관계 추출을 하기 위해 문장에서 엔티티들의 표현을 다르게하여 관계 추출의 성능을 비교 실험하였다. 첫번째로는 문장에서 [CLS] 토큰(Token)으로 관계를 분류하는 Standard 엔티티 정보 표현과 두번째로는 엔티티의 앞과 뒤에 Special Token을 추가하여 관계를 분류하는 Entity-Markers 엔티티 정보 표현했다. 이를 기반으로 문장의 문맥 정보를 학습한 사전 학습(Pre-trained)모델인 BERT-Large와 ALBERT-Large를 적용하여 실험을 진행하였다. 실험 결과 Special Token을 추가한 Entity-Markers의 성능이 높았으며, BERT-Large에서 더 높은 성능 결과를 확인하였다.

  • PDF

표 방법을 이용한 한국어 공간 관계 추출의 상한 계산 (Upper Bound of Tabular Method for Korean Spatial Relation Extraction)

  • 민태홍;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.301-304
    • /
    • 2018
  • 기존의 공간 관계 추출은 관계 속성 추출 후 적합한 개체와의 관계 형성이 불명확한 점과 한 개체가 다중관계에 속할 때 관계 형성이 불확실한 문제가 있다. 이를 해결하기 위하여 본 논문은 최근 개체명 관계 추출에서 사용하는 표 방법을 공간 관계 추출에 적용하였다. 기존 모델과 제안 모델을 비교하기 위하여 상한 성능을 측정하였으며, 그 결과 제안 모델이 더 우수함을 보였다.

  • PDF

홍채인식을 위한 효율적인 홍채영역추출 방법 (An Efficient Method of Extracting Iris Area for Iris Recognition System)

  • 임재경;기균도;이관용;이일병
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.601-603
    • /
    • 2002
  • 기존의 홍채인식 시스템에서 사용된 홍채영역추출 방법의 경우 불필요한 정보를 포함하여 추출하기 때문에 효과적인 특징추출이 어렵게 된다. 본 논문에서는 홍채영역을 효율적으로 추출하기 위한 새로운 접근방법으로서, 통계 정보를 이용하여 홍채영역을 추출하는 방법을 제안한다. 획득된 그레이레벨의 눈 영상에서 홍채영역의 경우 다른 영역보다 픽셀들간의 값의 변화율이 크기 때문에 간단한 영상처리를 통해 홍채영역이라 판단되는 영역을 강조한 뒤 그 값들의 통계정보를 이용한다. 본 논문에서 제안하는 방법은 실세계의 눈 영상을 이용한 실험을 통하여 그 성능을 검증하였다.

  • PDF

사용자 인터페이스 에이전트를 통한 정보추출 규칙의 자동 생성 (Automatic Generation of Information Extraction Rules Through User-interface Agents)

  • 김용기;양재영;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.447-456
    • /
    • 2004
  • 정보추출은 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업으로서, 이질적인 여러 정보소스로부터 균일화된 정보추출을 수행하기 위해서는 각 정보소스에 맞는 정보추출 규칙을 생성해야 한다. 기존 정보추출 규칙의 생성 방법에는 전문가에 의한 수동 생성 방법과 에이전트 프로그램에 의한 자동 생성 방법이 있는데, 수동 생성은 규칙의 정확성은 보장되나 확장성과 효율성에 문제가 있고, 자동 생성은 확장성은 있으나 규칙 생성 자체의 어려움과 생성된 규칙의 신뢰성이 문제점으로 대두된다. 본 논문에서는 이러한 두 가지 방법의 문제점을 보완하여 추출 규칙의 정확성과 확장성을 동시에 제공하기 위해 지도 학습(supervised teaming)을 적용한 정보추출 규칙 생성 기법을 제안한다. 본 논문에서 제시하는 방법은 사용자 인터페이스 에이전트를 사용하여 정보추출 규칙 생성을 위한 단서 정보를 사용자로부터 받고 이 정보를 바탕으로 에이전트가 XML로 표현된 규칙을 생성하는 것이다. 결과적으로 정보추출 규칙의 수동 생성과 자동 생성을 혼합한 형태가 된다. 사용자 인터페이스 에이전트는 규칙의 생성 뿐 아니라 기존의 규칙을 수정하거나 확장하는데도 이용된다. 구인 광고와 논문모집 공고와 관련된 정보소스에 대해 이 방법을 테스트한 결과 다른 기법에서 추출하지 못했던 정보를 추출할 수 있었고, 성능 면에서도 80% 이상의 정확도와 재현 율을 보였다. 본 시스템은 추후 정보 중재자 에이전트와 같은 응용 분야에 적용시킬 수 있을 것으로 기대한다.

패턴 정보를 이용한 효모 관련 문서에서의 이벤트 자동 추출 (Automatic Event Extraction from the Yeast Literature by Pattern Matching)

  • 전홍우;황영숙;임해창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.464-466
    • /
    • 2003
  • 생명과학 관련 문서에서 자동으로 이벤트를 추출하는 것은 관련 연구자들의 연구에 많은 도움을 줄 수 있다. 본 논문에서는 생명과학 관련 문서 중 특히 효모와 관련된 문서를 대상으로 간단한 자연언어 처리 기술을 적용하여 유의미한 정보를 추출한 결과를 제시하고자 한다. 실험은 효모 관련 문서에서 고빈도의 이벤트 표현 동사에 대한 패턴 정보를 조사한 후, 패턴 정보에 의거하여 이벤트를 추출하였다. 평가 결과, 비교적 간단한 자연언어 처리 기술 안으로도 유의미한 정보들을 추출할 수 있었다.

  • PDF

상위어 자동추출 알고리즘 개발 (Development of the Algorithm for the Automatic Extraction of Broad Term)

  • 최유미;사공철
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 1998년도 제5회 학술대회 논문집
    • /
    • pp.227-230
    • /
    • 1998
  • 문헌정보학분야의 용어사전을 이용한 자동시소러스 구축을 위한 첫단계로$\ulcorner$문헌정보학 용어사전$\lrcorner$ MRD를 구성하고 이를 이용하여 상위어 자동 추출알고리즘을 개발하였다. MRD구성시 전처리과정을 통하여 상위어 추출에 불필요한 정보가 수록되는 것을 방지하였다. 상위어 추출을 위한 알고리즘 개발은 무작위 표본추출을 통하여 $\ulcorner$문헌정보학 용어사전$\lrcorner$에 기술된 문장의 구문적 특성을 분석한 후, 이 구문정보를 이용하여 수행하였다. 본 연구에서 제시된 알고리즘의 효율성 평가결과 89.4%의 정확도를 보였다.

  • PDF

생명정보학에서의 거대규모 특징추출을 위한 종분화 GA의 활용 (Applying Speciated GA to Huge-scale Feature Selection in Bioinformatics)

  • 황금성;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.229-231
    • /
    • 2002
  • 최근 생물 유전자 정보에 대한 관심이 커지면서 이를 위한 효과적인 분석 방법이 요구되고 있다. 특히, 분류기의 데이터로 사용하기 위해서 필요한 특징만을 뽑는 과정인 특징 추출은 대량의 유전자 정보에서 의미 있는 정보를 선별하는 중요한 과정이다. 그러나 유전자 정보는 사용되는 데이터의 특징규모가 매우 크기 때문에 일반적인 데이터 마이닝 기법으로는 분석이 힘들다. 본 논문에서는 효율적인 거대규모 특징 추출을 위해 유전자 알고리즘(GA)파 신경망을 사용한 특징추출 방법을 소개하고, 종분화 기법을 사용한 효과적인 특징추출 방법을 제시한다. 그리고, CAMDA 2000에 공개된 암 DNA Microarray로 안종류를 분류하는 문제에 대하여 성능을 평가하였다.

  • PDF

용어 선별 기법에 의한 유사 문서 판별 시스템 (Text Similarity Decision System by Term Selection Method)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.534-536
    • /
    • 2003
  • 대부분의 정보 검색 시스템은 문서 내어서 추출된 모든 용어를 이용해서 문서간 유사도 계산이나 문서 분류, 문서 클러스터링 등에 활용한다. 그러나 실질적으로 문서 내외 모든 용어를 추출해야만 이러한 정보 검색 시스템을 활용할 수 있는 것은 아니며, 오히려 용어 빈도수 같은 가중치가 낮은 용어를 용어 추출에서 제외시킴으로써 모든 용어 추출로 인해서 발생하는 시간과 공간을 많이 소비하는 문제를 해결할 수 있다. 또한 정확하고 자동적인 문서 분류를 위한 문서 클러스터링보다 유사 문서 검색의 활용은 검색효율의 증가를 가져 올 수 있다. 본 논문에서는 유사 문서 판별 시스템을 이용해 용어 추출의 효율성을 실험하였으며, 모든 용어를 추출한 경우보다 중요 용어만 추출한 경우에 더 좋은 성능을 보였다.

  • PDF

3차원 특징을 이용한 DOT 분류 코드 추출 (DOT Classification Code Extraction through 3-Dimensional Features)

  • 김재한;심재창
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.394-396
    • /
    • 2001
  • 본 논문의 목적은 타이어에 각인되어 있는 DOT 코드 문자를 효과적으로 추출하는데 있다. 기존의 DOT 문자 인식 방법에서는 카메라와 조명에 의한 2차원 영상에서 DOT 문자 추출을 시도하였는데, 타이어는 DOT 문자와 배경이 동일한 색상이고, 조명에 민감해서 DOT 문자의 추출이 용이하지 않았다. 그래서, 본 논문에서는 타이어의 DOT 문자를 조명에 거의 영향을 받지 않는 3자원 레이저 스캐너를 이용해서 획득하고, 획득된 영상에서 높이 값 정보를 추출했으며 추출된 높이 값 정보를 가진 영상에 패턴 인식 기법을 적용하여 DOT 문자를 효과적으로 추출할 수 있었다.

  • PDF