• 제목/요약/키워드: 자동정보 추출

Search Result 1,995, Processing Time 0.034 seconds

Automatic Wrapper Generating Agent based on XML (XML 기반의 Wrapper 자동 생성 에이전트)

  • 서희경;양재영;정현섭;최중민
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.48-50
    • /
    • 2000
  • 본 논문은 사용자를 대신해서 웹상의 여러 곳에 존재하는 정보를 추출하고 통합하여 사용자에게 제공하기 위한 에이전트 시스템을 설계하고자 한다. 정확한 정보 추출을 위해서는 추출하고자 하는 정보의 위치를 찾아내는 정보 추출 규칙이 요구된다. 이러한 규칙을 알아내기 위해서 본 논문에서 제안하는 시스템은 XML로 기술된 도메인 지식을 이용한다. 이 도메인 지식은 논리적 라인의 의미 분석에 사용되며, 논리적 라인의 의미를 기반으로 도메인 문서에서 추출해야 하는 정보의 패턴을 학습한다. 학습된 패턴에서 XML로 기술된 규칙을 생성하는데, 이 규칙은 Wrapper이 된다. 이렇게 생성된 규칙을 이용해서 정보를 추출하게 되며, 추출된 정보를 통합해서 사용자에게 제공하게 된다.

  • PDF

Comparison of Document Features Extraction Methods for Automatic Classification of Real World FAQ Mails (실세계의 FAQ 메일 자동분류를 위한 문서 특징추출 방법의 성능 비교)

  • 홍진혁;류중원;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.271-273
    • /
    • 2001
  • 최근 문서 자동분류의 중요성이 널리 인식되어 다양한 연구가 진행되고 있다. 본 논문에서는 한글 문서의 효과적인 자동분류를 위한 다양한 특징추출 방법들을 구현하고 실제 질의메일에 대한 효율적인 특징주출 방법을 제시한다. 실험을 위해 문서 빈도(document frequency), 정보획득(information gain), 상호 정보량(mutual information), x$^2$등 7가지 특징추출 방법을 사용하였으며 463개의 실제 테스트 질의메일에 적용한 결과, x$^2$ 방법이 74.7%의 인식률을 내어 성능이 가장 좋음을 알 수 있었다. 반면에 x$^2$와 함께 가장 자주 쓰이는 방법 중의 하나인 정보 이득은 인식률이 최대 40.6%밖에 되지 않았다.

  • PDF

A Replay Shot Detection Algorithm for the Soccer Video Abstraction (축구 동영상 요약을 위한 재연 장면 자동 추출 알고리즘)

  • 정진국;김주영;낭종호;김경수;하명환;정병희
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10b
    • /
    • pp.277-279
    • /
    • 2001
  • 최근 디지털 비디오 데이터의 사용이 급격히 증가하면서 저급 수준의 정보를 이용하여 고급 수준의 내용 정보를 자동으로 추출하는 기술이 필요하게 되었다. 축구와 같은 분야에서는 그 중에서도 골, 프리킥, 파울 장면 등의 고급 수준 내용 정보가 중요한 의미를 갖게 되는데 특히, 이러한 장면 중 중요하다고 여기는 장면은 재연 장면을 통하여 다시 시청자에게 보여주게 되며, 축구 비디오에 대한 요약에서는 이런 장면들이 꼭 포함되어야 한다. 본 논문에서는 이러한 축구 비디오 데이터에서 재연 장면을 자동으로 추출하는 방법을 제안한다. 기본적으로는 축구 고유의 특징들을 이용하는데 첫 번째 특징은 샷의 길이가 너무 짧거나 너무 길지 않다는 것이고, 두 번째 특징은 재연 장면이라는 것은 장면이 느리게 다시 재생되는 것이기 때문에 움직임 특징이 일반적인 장면과는 다르다는 것이다. 본 논문에서는 오브젝트의 움직임을 구분하기 위하여 재연 장면을 두 가지 종류로 나누었다. 하나는 확대 상태의 재연 장면이고 다른 하나는 축소 상태의 재연 장면이다. 본 논문의 알고리즘을 적용하여 실험한 결과 Recall과 precision 모두 77% 이상 나오는 것을 알 수 있었다.

  • PDF

Automatic Bookmarking System to Improve Web Accessibility (웹의 접근성 향상을 위한 자동 북마크 시스템)

  • 이시은;황인준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.187-189
    • /
    • 2002
  • 웹 환경이 복잡해짐에 따라 시각 장애인이 웹 페이지에서 원하는 정보와 서비스를 찾는데 많은 시간이 소요된다. 본 논문에서는 웹의 접근성 향상을 위해 웹 페이지를 분석해사용자가 접근하는 객체와 관련 된 객체 주변의 정보를 추출하여 자동으로 북마크를 생성하고, 이를 이용하여 재접근 시에 저장된 북마크가 반영된 페이지로 변환시키는 시스템을 제안한다. 본 시스템의 특징은 전체 페이지가 아닌 사용자의 접근 구역을 자동 추출함으로써 재접근 시의 소요시간을 단축시키고 페이지에 변화가 있을 경우에도 저장된 북마크 정보와 가장 상응되는 객체나 구역을 추출하여 유동적으로 제공한다는 것이다. 또한 이전에 접근한 객체나 구역만으로 구성된 변환 페이지를 생성하여 사용자에게 원본(original) 페이지와 변환 페이지 사이를 필요에 따라 전환할 수 있게 한다.

  • PDF

Automatically Registering Schedules from Text Messages on Handheld Devices (휴대폰 문자 메시지로부터 자동 일정 등록)

  • Kim, Hyung-Chul;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.86-93
    • /
    • 2010
  • 개인 휴대용 단말기의 보급률이 높아짐에 따라, SMS 메시지가 또 하나의 새로운 의사소통 수단으로 발전하였다. 특히 통화보다 가격이 저렴하고, 통화 후 따로 적어두지 않아도 자동으로 저장되는 특징으로 인해 약속 등을 정할 때 많은 도움이 된다. 본 논문은 일반적인 정보추출 방법을 적용하여 이러한 SMS 메시지에서 자동으로 약속 시간과 장소를 추출한다. 기계학습 기법으로는 CRF를 이용하였으며, 비속어나 신조어가 많고 줄임말이 많은 SMS 메시지의 특징상 토큰분리나 품사 부착 등의 전처리 언어엔진을 사용하지 않았으며, 대신 Bi-Gram 언어모델을 사용하였으며, 학습 시 사전이나 어휘 등의 다양한 자질들을 적용하여 시스템의 정확도를 높였다.

  • PDF

Automatic Extraction of Semantic Relationships from Images Using Ontologies and SVM Classifiers (SVM과 온톨로지를 이용한 이미지 의미 관계 자동 추출 기법)

  • Jeong, Jin-Woo;Joo, Young-Do;Lee, Dong-Ho
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.13-18
    • /
    • 2007
  • 효과적인 이미지 검색을 위하여, 이미지의 저수준 시각 정보로부터 고수준 의미 정보를 추출하는 기술에 관한 많은 연구가 이루어지고 있다. 특히 최근에는 Support Vector Machine과 같은 기계 학습 기법을 이용한 이미지 어노테이션 시스템의 개발이 활발히 진행중이이다. 그러나 기존의 연구들은 단편적인 이미지 정보만을 추출함에도 불구하고, 그 성능이 여전히 만족스럽지 못하다. 본 논문에서는 Support Vector Machine과 온톨로지를 이용하여 이미지의 다양한 정보를 효과적으로 추출 및 기술할 수 있는 시스템을 제안한다. 특히 온톨로지는 특정 도메인의 상세한 지식 표현과 추론을 위한 지식베이스로서, 본 논문에서는 Support Vector Machine을 이용하여 이미지 안에 존재하는 객체들의 컨셉을 판별하고 이미지 어노테이션 온톨로지와 생태계 온톨로지를 이용하여 공간 관계, 천적 관계와 같은 객체간 의미 관계를 자동적 자동적으로 추출하는 방법을 제안한다.

  • PDF

Automatic Detection Method of Defects Using Non-Destructive Testing (비파괴 검사를 이용한 자동 결함 검출 기법)

  • Kim, Ji-hyun;Shin, Byung-chul;Song, Doo Heon;Kim, Kwang-Beak
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2009.10a
    • /
    • pp.157-159
    • /
    • 2009
  • 본 논문에서는 세라믹을 비파괴 검사를 통하여 얻어진 영상에서, 조직의 이상이나 결함의 정도를 자동으로 확인하는 방법을 제안한다. 비파괴 검사를 통하여 얻어진 영상에서 소벨 마스크를 적용하여 윤곽선을 추출하고, 추출된 윤곽선의 방향 정보를 $9{\times}9$ 마스크에 적용하여 영역을 분류한다. 그리고 분류된 각 영역을 히스토그램 스트레칭을 적용하여 영상을 보정하고, 4 방향 윤곽선 알고리즘을 적용하여 객체를 추출한다. 그리고 추출된 객체의 영역에 대해 형태학적 정보를 이용하여 잡음을 제거한 후, 손상된 영역을 추출한다. 본 논문에서 제안한 방법을 비파괴검사를 통하여 얻어진 영상을 대상으로 실험한 결과, 손상된 영역을 비교적 정확히 검출되는 것을 확인하였다.

  • PDF

Automatic Text Summarization Using Thesaurus (시소러스를 이용한 문서 자동 요약)

  • 이창범;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.352-354
    • /
    • 2001
  • 문서 자동요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 의미기반 정보검색용 시소러스(thesaurus)를 이용한 문서 자동요약을 제안한다. 제안한 방법에서는 단어간의 연관 관계 즉, 동의어, 유의어, 상위어, 하위어 관계를 문서 요약에 이용한다. 크게 연관 사슬 형성 단계, 중심 문장 추출 단계, 요약 생성 단계의 새단계로 나누어 요약을 생성한다. 수동 요약된 신문기사를 대상으로 평가한 결과 평균 66%가 일치하였다.

  • PDF

Korean Web Content Extraction using Tag Rank Position and Gradient Boosting (태그 서열 위치와 경사 부스팅을 활용한 한국어 웹 본문 추출)

  • Mo, Jonghoon;Yu, Jae-Myung
    • Journal of KIISE
    • /
    • v.44 no.6
    • /
    • pp.581-586
    • /
    • 2017
  • For automatic web scraping, unnecessary components such as menus and advertisements need to be removed from web pages and main contents should be extracted automatically. A content block tends to be located in the middle of a web page. In particular, Korean web documents rarely include metadata and have a complex design; a suitable method of content extraction is therefore needed. Existing content extraction algorithms use the textual and structural features of content blocks because processing visual features requires heavy computation for rendering and image processing. In this paper, we propose a new content extraction method using the tag positions in HTML as a quasi-visual feature. In addition, we develop a tag rank position, a type of tag position not affected by text length, and show that gradient boosting with the tag rank position is a very accurate content extraction method. The result of this paper shows that the content extraction method can be used to collect high-quality text data automatically from various web pages.

Measurement Criteria for Ontology Extraction Tools (온톨로지 자동추출도구의 기능적 성능 평가를 위한 평가지표의 개발 및 적용)

  • Park, Jin-Soo;Cho, Won-Chin;Rho, Sang-Kyu
    • Journal of Intelligence and Information Systems
    • /
    • v.14 no.4
    • /
    • pp.69-87
    • /
    • 2008
  • The Web is evolving toward the Semantic Web. Ontologies are considered as a crucial component of the Semantic Web since it is the backbone of knowledge representation for this Web. However, most of these ontologies are still built manually. Manual building of an ontology is time-consuming activity which requires many resources. Consequently, the need for automatic ontology extraction tools has been increased for the last decade, and many tools have been developed for this purpose. Yet, there is no comprehensive framework for evaluating such tools. In this paper, we proposed a set of criteria for evaluating ontology extraction tools and carried out an experiment on four popular ontology extraction tools (i.e., OntoLT, Text-To-Onto, TERMINAE, and OntoBuilder) using our proposed evaluation framework. The proposed framework can be applied as a useful benchmark when developers want to develop ontology extraction tools.

  • PDF