• Title/Summary/Keyword: 자동정보 추출

Search Result 1,995, Processing Time 0.03 seconds

Design and Implementation of Automatic Wrapper Generation for a Comparison-Shopping Agent (비교 쇼핑 에이전트를 위한 Wrapper의 자동생성 설계 및 구현)

  • 강준규;김병만;김주연;임은기;오득환
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.358-360
    • /
    • 2000
  • 본 논문에서는 비교 쇼핑 에이전트에 필수 요소인 wrapper를 자동으로 생성하는 방법에 대하여 제안한다. 상품 정보들을 추출하기 위하여 사용자로부터 URL, 질의 형식(Get 또는 Post), 입력 매개변수들, 검색된 HTML 페이지에서 출력 위치들(상품명, 모델명, 판매가...)을 추출한다. 또한, 상품명을 이용하여 검색을 실시하고, 검색 결과 문서들을 분석하여 상품가격을 추출하는 규칙을 생성하며, 생성된 규칙을 WIDL로 기술하여 데이터베이스에 저장한다.

  • PDF

A Method of Descriptor Extraction for Automatic Document Clustering (자동 문서 클러스터링을 위한 디스크립터 추출 방안)

  • Yun, Bo-Hyun;Kang, Hyun-Kyu;Ko, Hyung-Dae
    • Annual Conference of KIPS
    • /
    • 2000.04a
    • /
    • pp.230-233
    • /
    • 2000
  • 기존의 검색엔진은 검색결과를 적합도 순서로 나열하여 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제의 해결책으로 검색결과 문서에 대해 자동 클러스터링을 수행하여 문서 내용이 유사한 문서가 하나의 클러스터내에 존재하도록 한다. 본 논문에서는 검색 결과 문서의 클러스터링에서 필요한 디스크립터 추출 방안을 제안한다. 각 클러스터 내에서 디스크립터를 추출하기 위해 정보검색의 색인과정에서 사용하는 용어 가중치 계산 방법을 이용한다.

  • PDF

Keyword Automatic Extraction Scheme with Enhanced TextRank using Word Co-Occurrence in Korean Document (한글 문서의 단어 동시 출현 정보에 개선된 TextRank를 적용한 키워드 자동 추출 기법)

  • Song, KwangHo;Min, Ji-Hong;Kim, Yoo-Sung
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.62-66
    • /
    • 2016
  • 문서의 의미 기반 처리를 위해서 문서의 내용을 대표하는 키워드를 추출하는 것은 정확성과 효율성 측면에서 매우 중요한 과정이다. 그러나 단일문서로부터 키워드를 추출해 내는 기존의 연구들은 정확도가 낮거나 한정된 분야에 대해서만 검증을 수행하여 결과를 신뢰하기 어려운 문제가 있었다. 따라서 본 연구에서는 정확하면서도 다양한 분야의 텍스트에 적용 가능한 키워드 추출 방법을 제시하고자 단어의 동시출현 정보와 그래프 모델을 바탕으로 TextRank 알고리즘을 변형한 새로운 형태의 알고리즘을 동시에 적용하는 키워드 추출 기법을 제안하였다. 제안한 기법을 활용하여 성능평가를 진행한 결과 기존의 연구들보다 향상된 정확도를 얻을 수 있음을 확인하였다.

  • PDF

Automatic Named Entities Extraction Using the Graph-based Measurement Technique of the Mutual Importance (그래프 기반의 상호 중요도 측정 기법을 이용한 영역별 개체명 자동 추출)

  • Bae, Sangjoon;Ko, Youngjoong
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.17-22
    • /
    • 2008
  • 본 논문에서는 영역별로 자동으로 개체명을 추출하기 위하여 씨앗단어를 이용하고, 웹페이지와 개체명 후보들 간의 상호 중요도를 측정하여 개체명 후보들의 순위를 정하는 방식을 제안한다. 제안된 방식은 크게 세 단계에 의해서 수행되어 지는데 먼저 씨앗단어 정보를 이용하여 웹페이지를 검색하고, 검색되어진 웹 페이지와 씨앗단어 정보를 이용하여 패턴 규칙을 추출한다. 추출된 패턴 규칙을 웹페이지에 적용하여 개체명 후보들을 추출하고 추출된 후보들과 웹페이지 사이의 상호 중요도를 재귀적으로 계산하여 최종적으로 개체명 후보들의 순위가 정해 진다. 한국어와 영어 개체명 영역에 제안된 기법을 적용하여 실험한 결과 한국어에서는 78.72%의 MAP를 얻을 수 있었고, 영어에서는 96.48%의 MAP를 얻었다. 특히 영어 개체명 인식에서의 성능은 구글에서 제공하고 있는 구글셋의 결과보다도 높은 성능을 보였다.

  • PDF

Semi-Automatic Tree Annotating Workbench Using Neural-Networks (신경망을 이용한 반자동 구문분석 말뭉치 구축도구)

  • 임준호;곽용재;박소영;임해창
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.483-485
    • /
    • 2003
  • 구문분석 말뭉치는 통계적 구문분석 분야의 필수적인 항목으로 많은 유용성을 가지지만, 말뭉치를 구축할 때 막대한 시간과 비용이 요구되기 때문에 구축자의 수작업을 감소시키는 방법에 대한 연구가 필요하다. 본 논문에서는 대량의 신뢰도 있는 구문분석 말뭉치를 구축하기 위해 신경망을 사용하는 반자동 구문 분석 말뭉치 구축도구에 대해서 설명한다. 개발된 도구는 구문패턴 추골, 신경망 학습, 반자동 구축의 세 단계로 구성된다. 구문패턴 추출 단계에서는 사용자가 정의한 자질집합을 사용하여 기존에 구축된 말뭉치에서 구문패턴들을 추출하고, 신경망 학습의 단계에서는 추출된 구문패턴들을 사용하여 신경망을 학습한다. 그리고, 반자동 구축 단계에서는 학습된 신경망을 사용하여 반자동으로 구문분석 말뭉치를 구축한다. 본 논문에서 제안하는 방법은 다양한 자질집합을 조합하여 사용할 수 있고, 학습을 사용하기 때문에 학습 집합에 나타나지 않은 경우에 대해서도 합리적인 결정을 내릴 수 있다. 소량의 구문분석 말뭉치를 대상으로 실험한 결과, 본 논문에서 제안하는 방법이 약 42.5%의 수작업 횟수 감소율을 보였음을 알 수 있었다.

  • PDF

Automatic Extraction and Usage of Terminology Dictionary Based on Definitional Sentences Patterns in Technical Documents (기술문서 정의문 패턴을 이용한 전문용어사전 자동추출 및 활용방안)

  • Han, Hui-Jeong;Kim, Tae-Young;Doo, Hyo-Chul;Oh, Hyo-Jung
    • Journal of the Korean Society for information Management
    • /
    • v.34 no.4
    • /
    • pp.81-99
    • /
    • 2017
  • Technical documents are important research outputs generated by knowledge and information society. In order to properly use the technical documents properly, it is necessary to utilize advanced information processing techniques, such as summarization and information extraction. In this paper, to extract core information, we automatically extracted the terminologies and their definition based on definitional sentences patterns and the structure of technical documents. Based on this, we proposed the system to build a specialized terminology dictionary. And further we suggested the personalized services so that users can utilize the terminology dictionary in various ways as an knowledge memory. The results of this study will allow users to find up-to-date information faster and easier. In addition, providing a personalized terminology dictionary to users can maximize the value, usability, and retrieval efficiency of the dictionary.

Facial Caricaturing System using Facial Features information (얼굴 특징정보를 이용한 캐리커처 생성 시스템)

  • 이옥경;박연출;오해석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.404-406
    • /
    • 2000
  • 캐리커처 생성 시스템은 입력된 인물 사진을 세그먼테이션을 통하여 특징(이목구비)을 추출하고, 추출된 특징정보를 이용하여 그와 유사한 특징정보를 가지는 캐리커처 이미지를 검색하여 매핑시키는 시스템이다. 캐리커처 생성 시스템에서는 얼굴의 대칭 구조를 이용하고 색상과 모양에 대한 정보를 이용하여 얼굴 각각의 특징(이목구비)을 캐리커처의 특징을 구분하는 특징정보로써 활용한다. 본 논문은 인물 사진을 세그멘테이션 처리하여 얻은 부분 영역 특징정보를 이용하여 그와 유사한 캐리커처를 자동으로 생성하는데 목적이 있다. 이 때 사용하는 대칭 구조는 씨앗 픽셀(seed pixel)을 추출한다. 특징정보는 색상의 경우 지역적인 색상정보는 이목구비를 더 뚜렷이 해주고, 전체적인 색상정보는 그 이미지의 피부색의 정보를 나타낸다. 모양의 경우 이목구비의 특징정보를 위해 불변모멘트가 주요하게 사용된다. 또한 데이터베이스는 얼굴의 세부사항(이목구비)에 대한 각각의 캐리커처로 구축되어 있고, 각 세부사항은 특징별 분류되어 있어야 한다. 이런 데이터베이스의 캐리커처와 추출된 얼굴 영상에서의 세부사항을 비교하여 유사도를 계산하고 이를 매핑하므로 개인의 특징을 가진 캐리커처를 자동으로 생성한다.

  • PDF

Automatic salient-object extraction using the contrast map and salient point (Contrast map과 Salient point를 이용한 중요객체 자동추출)

  • 곽수영;고병철;변혜란
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.808-810
    • /
    • 2004
  • 본 논문에서는 Contrast map과 Salient point를 이용하여 영상에서 중요한 객체를 자동으로 추출하는 방법을 제안한다. 우선 인간의 시각 체계와 유사한 밝기(luminance), 색상(color) 그리고 방향성(orientation) 3가지의 특징정보를 이용하여 각각의 특징정보로부터 feature map을 생성하고 이 3가지의 feature map을 선형 결합하여 contrast map을 생성한다. 이렇게 생성된 하나의 contrast map을 이용하여 대략적인 Attention Window (AW)의 위치를 결정한다. 다음으로, 영상으로부터 웨이블릿 변환을 적용하여 salient point를 찾고, salient point의 분포와 contrast map의 중요도에 따라 AW의 크기를 실제 중요 객체의 크기와 가장 유사하도록 축소시킨다. 이렇게 선택되고 축소된 AW안에서 실제 중요 객체를 추출하기 위해 AW 내부에 존재하는 영상에 대해서만 영상 분할을 하고 불필요한 영역을 제거하여 자동으로 중요객체를 추출하도록 한다.

  • PDF

Method to improve the Quality of Training Data for Automatic Summarization of Judgments (판결문 자동요약을 위한 학습 데이터의 품질 개선방안)

  • Sang-Young Go
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.461-464
    • /
    • 2022
  • 법원도서관이 발간하는 판례공보를 기반으로 판결문 자동요약을 위한 학습 데이터들이 구축되고 있다. 그런데 판결문 요약에서는 뉴스 요약과는 달리 추출요약과 생성요약 방식이 함께 사용되는 특수성이 있고, 이러한 특수성 때문에 현재 판결문 요약 데이터셋이 요약 프로그램의 성능 향상을 이끌지 못하고 있다고 생각된다. 따라서 법률가들이 판결문을 요약하는 방식을 반영하여, 추출요약 방식으로 작성된 판결요지와 생성요약 방식으로 작성된 판결요지를 분리해서 요약 데이터셋을 만들 필요가 있다. 추출요약과 생성요약에 관한 데이터셋을 따로 구축하기 위해서는 판례공보의 판결요지를 추출요약과 생성요약으로 분류하는 작업이 필요한데, 감성 분석에 사용되는 알고리즘이 판결요지의 분류 작업에 응용될 수 있다는 것을 실험 결과로 알 수 있었다.

  • PDF

An Abstraction Mechanism of Low-Level Video Features for Explosion Scene Retrievals (폭발장면 자동 검출을 위한 저급 수준 비디오 정보의 추상화 방법)

  • 이상혁;남종호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.526-528
    • /
    • 2000
  • 디지털 비디오 정보를 효율적으로 관리 검색하기 위한 내용 기반 검색 시스템을 위해서는 내용정보의 추상화가 필수적이다. 지금까지 비디오의 내용정보의 추상화, 특히 의미적 내용 정보의 추출은 사람에 의한 수동적인 방법에 의존한 것이 대부분이었다. 본 논문에서는 MPEGgudtlr의 영화 데이터를 대상으로 폭발 장면 자동 추출을 위한 저급 수준 비디오 내용정보의 추상화 방법을 제안하고, 실제 구현을 통하여 그 유용성을 보인다.

  • PDF