• 제목/요약/키워드: 웹 응용 분석

검색결과 386건 처리시간 0.026초

SOA에서 서비스 조합의 강건성 테스트 방법 및 테스트 프레임워크 (A Robustness Test Method and Test Framework for the Services Composition in the Service Oriented Architecture)

  • 국승학;김현수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권10호
    • /
    • pp.800-815
    • /
    • 2009
  • 최근 웹 서비스 기반 서비스 지향 구조는 네트워크 상에 분산된 다양한 애플리케이션을 효과적으로 통합하기 위한 방법으로 널리 활용되고 있다. 서비스 지향 구조에서 BPEL은 비즈니스 프로세스 모델 언어로, 다양한 서비스들을 통합하는 방법을 제시하고 있다. 현재 이러한 BPEL을 이용한 서비스 통합 및 조합에 관해 많은 연구가 진행되고 있으며 서비스들 간의 호환성을 검증하려는 노력, 비즈니스 프로세스의 식별과 추적에 관한 몇몇 연구가 진행되었다. 그러나 다양한 서비스의 조합으로 인해 발생하는 문제를 해결하려는 연구는 부족하다. 특히 조합된 서비스가 얼마나 신뢰할 수 있는지, 예외 상황에 대해 얼마나 강건하게 대처할 수 있는지 평가하고자 하는 노력은 거의 이루어지지 않았다. 이에 본 논문에서는 BPEL을 이용한 서비스 조합에 있어서 조합된 서비스의 강건성을 테스트하기 위한 방법과 이 방법을 지원하기 위한 테스트 프레임워크를 제시한다. 본 논문의 방법은 BPEL 프로세스와 참여하는 다양한 서비스를 분석하고, 분석된 정보를 바탕으로 실제 서비스들에서 발생 가능한 다양한 예외 상황을 발생시키는 가상의 환경을 구축하여 강건성 테스트를 수행한다. 이는 BPEL 프로세스로 표현된 서비스 조합이 얼마나 예외 상황에 강건하게 대처하는지 검증하는 방법이다.

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

자동 위성영상 수집을 통한 다종 위성영상의 시계열 데이터 생성 (Generation of Time-Series Data for Multisource Satellite Imagery through Automated Satellite Image Collection)

  • 남윤지;정성우;김태정;이수암
    • 대한원격탐사학회지
    • /
    • 제39권5_4호
    • /
    • pp.1085-1095
    • /
    • 2023
  • 위성데이터를 활용한 시계열 데이터는 다양한 분야에서 변화 탐지와 모니터링에 필수적인 자료로 활용되고 있다. 시계열 데이터 생성에 관한 선행 연구에서는 데이터의 통일성을 유지하기 위해 주로 단일 영상을 기반으로 분석하는 방식이 사용되었다. 또한 공간 및 시간 해상도 향상을 위해 다종 영상을 활용하는 연구도 활발하게 진행되고 있다. 시계열 데이터의 중요성은 계속해서 강조되지만, 데이터를 자동으로 수집하고 가공하여 연구에 활용하기 위한 산출물은 아직 제공되지 않고 있다. 따라서 이러한 한계를 극복하기 위해 본 논문에서는 사용자가 설정한 지역의 위성정보를 자동으로 수집하고 시계열 데이터를 생성하는 기능을 제안한다. 본 연구는 한 종류의 위성영상뿐만 아니라 동일 지역의 여러 위성데이터를 수집하고 이를 시계열 데이터로 변환하여 산출물을 생성하는 것을 목표로 하며, 이를 위한 위성영상 자동 수집 시스템을 개발하였다. 이 시스템을 활용하면 사용자는 관심 있는 지역을 설정함으로써 해당 지역에 맞게 데이터가 수집되고 Crop되어 즉시 활용할 수 있는 데이터를 생성할 수 있다. 실험 결과로는 웹 상에서 무료로 제공되는 Landsat-8/9 OLI 및 Sentinel-2 A/B 영상의 자동 획득이 가능함을 확인하였으며, 수동 입력을 통해 별도의 고해상도 위성영상도 함께 처리할 수 있었다. 고해상도 위성영상을 기준으로 자동 수집 및 편집된 영상 간의 정확도를 비교하고 육안 분석을 수행한 결과, 큰 오차 없이 결과물을 생성할 수 있음을 확인했다. 이후 시계열 데이터 간 상대적 위치 오차 최소화 및 좌표가 획득되어 있지 않은 데이터 처리 등에 대한 연구 및 다양한 위성영상을 활용한 시계열 데이터 생성 기능 추가가 계획되어 있다. 위성영상을 활용한 시계열 데이터의 생성 방법이 정립되고, 국토위성, 농림위성과 같은 국내 위성정보를 이용한 시계열 데이터가 효과적으로 활용될 경우, 국토·농림·산업·해양 분야에서 다양한 응용 가능성이 기대된다.

개방형 환경에서의 개인 맞춤형 TV 서비스 (A personalized TV service under Open network environment)

  • 류지혜;표신지;임정연;김문철;임선환;김상기
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2006년도 학술대회
    • /
    • pp.279-282
    • /
    • 2006
  • IP망을 이용한 IPTV 방송 서비스가 새로운 수익 모델로 인정받고 현재 국내의 KT, SKT 등이 IPTV 시범서비스를 준비하거나 진행 중에 있다 이 IPTV 서비스는 이전의 단방향 방송과는 달리 사용자와의 인터렉션을 중시하는 양방향 방송을 표방하기 때문에 지금까지의 방송과는 다른 혁신적인 방송서비스가 기대된다. 하지만 IPTV 서비스에 있어서 여러 통신사와 방송사가 참여할 수 있을 것으로 보여지는 것과는 달리 실상은 몇몇 거대 통신기업이 자신들의 망을 이용하는 가입자들을 상대로 한정된 사업을 벌이고 있다. 이는 IPTV 서비스를 위한 인프라가 구축되어 있지 않고 방통융합망의 개념을 만족시키기 위해 서비스 개발자가 알아야 할 프로토콜들이 너무나 많기 때문이다. 따라서 본 논문에서는 이러한 상황을 타개할 수 있는 수단을 Open API로 제안한다. 맞춤형 방송을 위한 시나리오를 TV-Anytime의 벤치마킹과 유저 시나리오를 참고하여 재구성하고 이 시나리오로부터 IPTV 방송 서비스를 위한 방통융합망의 기본적이고 강력한 기능들을 Open API 함수로 정의하였다. 여기에서의 방송 서비스는 NDR, EPG, 개인 맞춤형 광고 서비스를 말하며 각 서비스를 위한 서버는 통합망 위에 존재하고 이 서버들이 개방하는 API들은 다른 응용프로그램에 의해 사용되는 것이기 때문에 가장 기본적인 기능을 정의하게 된다. 또한, 제안한 Open API 함수를 이용하여 개인 맞춤형 방송 응용 서비스를 구현함으로써 서비스 검증을 하였다. Open API는 웹서비스를 통해 공개된 기능들로써 게이트웨이를 통해 다른 망에서 사용할 수 있게 된다. Open API 함수의 정의는 함수 이름, 기능, 입 출력 파라메터로 이루어져 있다. 사용자 맞춤 서비스를 위해 전달되는 사용자 상세 정보와 콘텐츠 상세 정보는 TV-Anytime 포럼에서 정의한 메타데이터 스키마를 이용하여 정의하였다.가능하게 한다. 제안된 방법은 프레임 간 모드 결정을 고속화함으로써 스케일러블 비디오 부호화기의 연산량과 복잡도를 최대 57%감소시킨다. 그러나 연산량 감소에 따른 비트율의 증가나 화질의 열화는 최대 1.74% 비트율 증가 및 0.08dB PSNR 감소로 무시할 정도로 작다., 반드시 이에 대한 검증이 필요함을 알 수 있었다. 현지관측에 비해 막대한 비용과 시간을 절약할 수 있는 위성영상해석방법을 이용한 방법은 해양수질파악이 가능할 것으로 판단되며, GIS를 이용하여 다양하고 복잡한 자료를 데이터베이스화함으로써 가시화하고, 이를 기초로 공간분석을 실시함으로써 환경요소별 공간분포에 대한 파악을 통해 수치모형실험을 이용한 각종 환경영향의 평가 및 예측을 위한 기초자료로 이용이 가능할 것으로 사료된다.염총량관리 기본계획 시 구축된 모형 매개변수를 바탕으로 분석을 수행하였다. 일차오차분석을 이용하여 수리매개변수와 수질매개변수의 수질항목별 상대적 기여도를 파악해 본 결과, 수리매개변수는 DO, BOD, 유기질소, 유기인 모든 항목에 일정 정도의 상대적 기여도를 가지고 있는 것을 알 수 있었다. 이로부터 수질 모형의 적용 시 수리 매개변수 또한 수질 매개변수의 추정 시와 같이 보다 세심한 주의를 기울여 추정할 필요가 있을 것으로 판단된다.변화와 기흉 발생과의 인과관계를 확인하고 좀 더 구체화하기 위한 연구가 필요할 것이다.게 이루어질 수 있을 것으로 기대된다.는 초과수익률이 상승하지만, 이후로는 감소하므로, 반전거래전략을 활용하는 경우 주식투자기간은 24개월이하의 중단기가 적합함을 발견하였다. 이상의 행태적 측면과 투자성과측면의 실증결과를 통하여 한국주식시장에 있어서 시장수익률을 평균적으로 초과할 수 있는 거래전략은 존재하므로 이러한 전략을 개발 및 활용할 수 있으며, 특히, 한국주식시장에 적합한 거래전략은 반전거래전략이고, 이 전략의 유용성은 투자자가 설정한 투자기간보다

  • PDF

모바일 플랫폼을 위한 전자해도 소형화 연구 (Study of the ENC reduction for mobile platform)

  • 심우성;박재민;서상현
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2003년도 춘계공동학술대회논문집
    • /
    • pp.181-186
    • /
    • 2003
  • 날씨와 지역에 관계없이 언제나 지구상의 위치를 파악할 수 있도록 하는 위성항법시스템은 해양분야에도 많은 응용기술과 시스템의 개발을 촉진하고 있으며 이러한 경향은 LBS(Location Based Service)라고 하는 기술분야로 응용분야가 확대되고 있다. 해양의 LBS는 아직 본격적인 개발이 이루어지고 있는 것은 아니지만, 이러한 시스템들은 일반적으로 지형정보를 사용하게 되는데, 해양의 기본 지형정보로는 전자해도 (ENC, Electronic Navigational Chart)를 사용하게 될 것이다. 그러나 앞에서 말한 시스템들과 전자해도는 그 규모에 있어 대형선과 고용량의 처리능력을 갖는 시스템에 사용되므로 어선이나 레저용 보트와 같은 소형선용 시스템에는 적합하지 않다. 이를 해결하기 위해 시스템의 소형화 및 사용 데이터의 소형화가 필요하며 근래 각광을 받고 있는 PDA, 웹패드와 같은 모바일 플랫폼 기반의 시스템이 그 대안이 될 수 있다. 본 논문에서는 이러한 배경으로 대두된 소형시스템에의 지형정보 사용, 특히 국가공인 데이터인 전자해도를 모바일 플랫폼에서 사용하기 위한 전자해도의 소형화 방안을 연구하였다. 전자해도는 그 구조와 내용에 많은 부가정보와 형식을 갖고 있다. 그러므로 소형시스템에 필요한 데이터의 내용과 형식의 측면을 고려하여 데이터를 소형화하기 위한 방안을 제시하였고, 또한 전자해도의 갱신을 수용할 수 있어야 한다는 점을 함께 고려하였다. 데이터의 소형화는 상당한 데이터 및 정보의 손실을 감수해야하는 경우가 많다. 본 논문을 통해 가능한 적은 데이터와 정보의 손실만으로 모바일 플랫폼기반의 시스템에 부담없이 사용 가능한 전자해도의 소형화 방안을 제시하여 향후 도출될 수많은 소형시스템 응용분야에 활용할 수 있을 것으로 기대한다.작용 등의 복잡한 물리적 과정을 포함하고 있다. 이러한 물리적 과정 중 난류연소, 고체연료 벽면 근방에서의 대류 열전달 및 연소과정에서 생성되는 soot 입자로부터의 복사 열전달, 그리고 고체연료 열 분해시 표면반응들은 고체연료의 regression율에 큰 영향을 미친다. 특히 고체연료의 난류화염면의 위치와 폭, 그리고 비 예혼합 난류화염장에서 생성되는 soot의 체적분율의 예측은 난류연소모델, 열전달 모델, 그리고 regression율 모델에 의해 크게 영향을 받기 때문에 수치모델의 예측 능력 향상시키기 위하여 이러한 물리적 과정을 정확히 모델링해야 할 필요가 있다. 특히 vortex hybrid rocket내의 난류연소과정은 아래와 같은 Laminar Flamelet Model에 의해 모델링 하였다. 상세 화학반응 과정을 고려한 혼합분율 공간에서의 화염편의 화학종 및 에너지 보존 방정식은 다음과 같다. 화염편 방정식과 혼합분률과 scalar dissipation rate의 관계식을 이용하여 혼합분률과 scalar dissipation rate에 따른 모든 reactive scalar들을 구하게 된다. 이러한 화염편 방정식들을 mixture fraction space에서 이산화시켜서 얻은 비선형 대수방정식은 TWOPNT(Grcar, 1992)로 계산돼 flamelet Library에 저장되게 된다. 저장된 laminar flamelet library를 이용하여 난류화염장의 열역학 상태량 평균치는 presumed PDF approach에 의해 구해진다. 본 연구에서는 강한 선회유동을 가지는 Hybrid Rocket 연소장내의 난류와 화학반응의 상호작용을 분석하기 위하여 Laminar Flamelet Model, 화학평형모델, 그리고 Eddy Dissipat

  • PDF

퍼지관계 이론에 의한 집단지성의 도출 (Elicitation of Collective Intelligence by Fuzzy Relational Methodology)

  • 주영도
    • 지능정보연구
    • /
    • 제17권1호
    • /
    • pp.17-35
    • /
    • 2011
  • 집단지성은 개인들의 협업과 경쟁을 통한 공통이해에 기반한 생산으로서 대중의 지혜를 창출하는 개별 지성들의 통합체라고 할 수 있다. 집단지성의 활용은 공개와 공유 그리고 참여의 기본 철학을 갖고 있는 웹 2.0의 주요한 설계원칙으로 자리잡은 후로, 이와 관련된 연구가 다양하게 진행되고 있다. 이 논문은 개인들간의 관계와 상호작용에 대한 인식을 기반으로 집단지성을 밝혀보려는 방법론을 제안한다. 응용대상은 정보검색과 분류 분야이며, 개인지성의 표현과 도출을 위해 개인 컨스트럭트 이론과 지식 그리드 기법에 퍼지관계이론을 적용한다. 개인의 개별적인 지성은 헤세 다이어그램의 형태로 구현된 지성 구조로 표현하여 내재된 지식적인 의미를 분석한다. 논문의 목적인 집단지성의 도출은 개인지성들의 비교를 통해 상호간 공유와 일치를 찾아낼 수 있는 유사성 이론의 도입에 의해 이루어진다. 제안하는 방법론은 퍼지관계 이론 및 퍼지 매칭 알고리즘을 기반으로 실험 데이터로부터 유사성을 측정하고, 개인지성들을 대표할 수 있는 최적의 집단지성을 이끌어내고자 한다.

도시 지역 이동을 위한 랜드마크의 공유 온톨로지 연구 (Communal Ontology of Landmarks for Urban Regional Navigation)

  • 홍일영
    • 대한지리학회지
    • /
    • 제41권5호
    • /
    • pp.582-599
    • /
    • 2006
  • 최근 정보기술의 발달과 대중화로 인해, 일반인들에게 지리정보의 보급이 확대되었고, 길찾기를 위한 인터넷 지도서비스나 혹은 차량항법장치 등은 공간의사결정에 지리정보시스템을 활용하는 좋은 사례라고 할 수 있다. 기존의 시스템이 제공하는 서비스에서 발견할 수 있는 문제점 중 하나는, 사용자가 그 지역에 처음 방문한 여행자이든 혹은 사용자가 그 지역에 지리를 어느 정도 알고 있는 거주자이든, 동일한 방식의 길찾기 방식이 적용된다는 점이다. 주어진 도시지역에 대한 공간지식은 거주기간에 따라 발달하게 되고, 도시이동은 공간에 대한 경험 속에서 발달된 인지지도에 많은 영향을 받게 되며, 이들의 공간적 지식의 발달은 그들이 속한 사회적 관계에 밀접한 영향을 받게 된다. 따라서 보다 인지적인 길찾기를 위한 서비스를 위해서는, 주어진 지역 내에서 사람들에게 잘 알려진 장소들, 다시 말해, 랜드마크를 통한 위치 인식이 중요한 역할을 하게 된다. 본 연구는 사회적 관계를 공유하는 한 지역 내 커뮤니티의 지역이동에 있어서 발달하는 인지지도를 하나의 공유된 지식으로 보고 이를 활용하는 도시공간이동에 대한 개념적 모델을 제시하였다. 이와 함께, 개념적 모델에 지식공학의 접근방식 중 하나인 온톨로지 방법론의 응용가능성을 살펴보았다. 지역 내 잘 알려진 공유된 랜드마크 지식을 지식모델링 기법의 하나인 온톨로지 방법으로 모델링하여 재사용가능한 지역지식으로 구조화하여 이를 공유 온톨로지라 정의하였다. 사례연구에서는 설문조사와 웹 내용분석의 방식을 통해 랜드마크의 추출하고, 온톨로지 방법론을 통해 사례지역 내 랜드마크 정보를 데이터베이스로 구성하여 활용하는 방안에 대하여 고찰하였다. 본 연구는 기계적 알고리듬으로만 제한된 현재의 GIS 기능을 인지적 모델과 접목을 도모하는데 큰 의미를 갖는다.

내용기반의 인쇄체 영문 문서 영상 검색을 위한 특징 기반 단어 검색 (A Feature -Based Word Spotting for Content-Based Retrieval of Machine-Printed English Document Images)

  • 정규식;권희웅
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1204-1218
    • /
    • 1999
  • 문서영상 검색을 위한 디지털도서관의 대부분은 논문제목과/또는 논문요약으로부터 만들어진 색인에 근거한 제한적인 검색기능을 제공하고 있다. 본 논문에서는 영문 문서영상전체에 대한 검색을 위한 단어 영상 형태 특징기반의 단어검색시스템을 제안한다. 본 논문에서는 검색의 효율성과 정확도를 높이기 위해 1) 기존의 단어검색시스템에서 사용된 특징들을 조합하여 사용하며, 2) 특징의 개수 및 위치뿐만 아니라 특징들의 순서를 포함하여 매칭하는 방법을 사용하며, 3) 특징비교에 의해 검색결과를 얻은 후에 여과목적으로 문자인식을 부분적으로 적용하는 2단계의 검색방법을 사용한다. 제안된 시스템의 동작은 다음과 같다. 문서 영상이 주어지면, 문서 영상 구조가 분석되고 단어 영역들의 조합으로 분할된다. 단어 영상의 특징들이 추출되어 저장된다. 사용자의 텍스트 질의가 주어지면 이에 대응되는 단어 영상이 만들어지며 이로부터 영상특징이 추출된다. 이 참조 특징과 저장된 특징들과 비교하여 유사한 단어를 검색하게 된다. 제안된 시스템은 IBM-PC를 이용한 웹 환경에서 구축되었으며, 영문 문서영상을 이용하여 실험이 수행되었다. 실험결과는 본 논문에서 제안하는 방법들의 유효성을 보여주고 있다. Abstract Most existing digital libraries for document image retrieval provide a limited retrieval service due to their indexing from document titles and/or the content of document abstracts. This paper proposes a word spotting system for full English document image retrieval based on word image shape features. In order to improve not only the efficiency but also the precision of a retrieval system, we develop the system by 1) using a combination of the holistic features which have been used in the existing word spotting systems, 2) performing image matching by comparing the order of features in a word in addition to the number of features and their positions, and 3) adopting 2 stage retrieval strategies by obtaining retrieval results by image feature matching and applying OCR(Optical Charater Recognition) partly to the results for filtering purpose. The proposed system operates as follows: given a document image, its structure is analyzed and is segmented into a set of word regions. Then, word shape features are extracted and stored. Given a user's query with text, features are extracted after its corresponding word image is generated. This reference model is compared with the stored features to find out similar words. The proposed system is implemented with IBM-PC in a web environment and its experiments are performed with English document images. Experimental results show the effectiveness of the proposed methods.

다양한 OWL-DL 추론 엔진에서 대용량 ABox 추론에 대한 성능평가 (A Performance Analysis of Large ABox Reasoning in OWL-DL Reasoners)

  • 서은석;박영택
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권7호
    • /
    • pp.655-666
    • /
    • 2007
  • RacerPro, Pellet 등 지금까지의 전혈적인 추론 시스템들은 주로 Tableaux Algorithm 기반의 추론 시스템으로 Tableaux Algorithm의 특성상 대용량 ABox 추론에서 문제점을 나타낸다. 이를 해결하기 위한 연구로 Tableaux Algorithm 기반에 DBMS를 함께 사용한 영국 Manchester 대학의 Instance Store와 Disjunctive Datalog Approach를 사용한 독일 Karlsruhe 대학의 KAON2가 있다. 현재 추론 시스템들에 대한 벤치마크 실험은 대부분 Tableaux Algorithm 기반의 TBox 추론 위주이며 ABox 추론에 대한 평가는 거의 진행되지 않았다. 특히 최근 이슈로 부각된 (대용량 ABox 추론을 위한 추론 시스템)의 특성별 벤치마크 실험은 거의 보고되지 않았다. 이에 본 논문에서는 각 추론엔진들의 이론적 배경을 근간으로 전형적 추론엔진들과 최근 이슈에 따른 대용량 ABox론 위한 추론엔진들을 상호 비교를 통해 살펴보며 특히, 대용량 ABox 처리론 위한 추론엔진인 Manchester 대학의 Instance Store와 Karlsruhe 대학의 KAON2를 LUBM을 통하여 분석 평가함으로 사용자의 요구에 따른 대용량 ABox 추론엔진을 제시한다. 평가방법에서는 LUBM(Lehigh University BenchMark)에 대한 소개와 이를 이용한 벤치마크 실험 방법 및 평가 시스템에 대하여 소개한다. 본 논문은 결론을 통해 실험 결과와 각 추론엔진의 사용 Algorithm 특성을 기초로 다양한 환경에서의 대용량 ABox 처리에 적합한 추론엔진을 제시한다.

준구조화된 정보소스에 대한 지식기반의 Wrapper 학습 에이전트 (A Knowledge-based Wrapper Learning Agent for Semi-Structured Information Sources)

  • 서희경;양재영;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.42-52
    • /
    • 2002
  • 정보추출은 한 문서에서 그 문서의 중심적 의미를 나타내는 특정 구성요소를 인식하여 추출하는 작업이다. 기존의 정보추출 시스템은 대부분 정보추출 규칙인 wrapper를 수동으로 구성하여 적용하였기 때문에 추출의 정확성은 높지만 유연성, 확장성, 효율성의 측면에서 문제점이 발생하였다. Wrapper를 자동으로 생성하는 일부 연구에서도 도메인 지식의 획득과 표현의 어려움, 그리고 여러 정보소스 사이에 나타나는 문서형태의 구조적 이질성 때문에 정확한 정보추출이 이루어지지 못했다. 본 논문에서는 이러한 이질적이고 복잡한 형태의 실세계 정보소스로부터의 정확한 정보추출을 추구하는 정보추출 에이전트인 XTROS를 제안한다. XTROS는 도메인 지식을 이용하여 준구조화된 형태의 정보소스에서 제공하는 문서를 분석하고 학습하여 wrapper들을 자동으로 생성하고, 이 wrapper들을 모두 XML 문서의 형태로 구성하는 새로운 표현기법을 제시함으로써 도메인 지식표현의 용이성과 wrapper 해석기 구현의 간결함, XML이 지닌 이식성 등을 최대한 활용하고자 하였다. Wrapper의 정보추출 규칙은 도메인 지식과 샘플 문서를 이용하여 자동으로 생성된다. 정보추출 규칙을 자동으로 생성하는 알고리즘의 핵심은 도메인 지식을 바탕을 샘플 문서의 각 논리 라인에 의미를 부여하고 이 논리 라인 의미의 나열로부터 반복되는 패턴을 찾아내는 것이다. 이 패턴의 위치와 구조를 XML 문서로 표현한 것이 wrapper가 된다. XTROS 시스템을 부동산 매물정보를 제공하는 다수의 실제 웹 정보소스에 대해서 테스트한 결과 이질성과 복잡성을 가진 대부분의 정보소스로부터 정확한 wrapper 생성과 정보추출이 가능하였다.