• Title/Summary/Keyword: 문서이용

Search Result 3,530, Processing Time 0.028 seconds

Web Site Evaluation Using Structure Analysis Agents (구조분석 에이전트를 사용한 웹사이트의 평가)

  • 정윤경;조성배
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.143-145
    • /
    • 2000
  • 인터넷이 보편화되면서 그에 따른 정보량도 급증하고 있다. 웹문서량이 많아짐에 따라 웹문서를 구조를 이용하여 저장, 분석하는 연구가 활발히 이루어지고 있다. 본 논문에서는 웹사이트를 사용자가 평가하기 위해 계층적인 웹문서들의 관계를 사이트맵으로 구성하며 웹문서 내의 계층구조를 추출, 저장하고 그래픽적으로 표시하였다. 이를 위해 웹문서 내의 계층구조를 위해 W3기관의 공용으로 사용되는 Tidy 라이브러리를 이용하여 URL에 대한 HTML 문서를 얻고 이를 XML로 변환하였다. 변환된 XML 결과로 이진트리를 구성하고 계층구조를 표현하였다. 웹문서들의 사이트맵은 그래프형식과 계층구조형식으로 표현했는데 그래프형식을 이용하여 사이트맵의 연결구조를 파악할 수 있게 하였으며, 계층구조를 이용하여 웹문서간의 계층구조에 따른 정보를 얻을 수 있었다. 사이트맵을 구성하기 위해 URL들의 구조를 인접리스트로 저장하였으며, 방향성 그래프형식을 이용하였다. 또한 웹문서 구조를 계층적으로 구성하기 위해 웹문서의 그래프형식에 대해 BFS(Breadth First Search)방식을 이용했다. 또한 계층적 사이트맵을 이용한 평가항목을 이용하여 증권사이트에 대해 실험하였다. 실험을 통해 본 시스템이 웹사이트 평가에 유용성함을 입증하였다.

  • PDF

The Method of Document Comparison using Document Hierarchy (문서의 계층화를 이용한 문서비교 방법)

  • Hwang, Myung-Gwon;Kong, Hyun-Jang;Hwang, Kwang-Su;Kim, Pan-Koo
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.143-147
    • /
    • 2006
  • 오늘날 웹의 비약적인 성장으로 텍스트, 이미지, 비디오, 그리고 사운드 등의 다양한 데이터 형식의 많은 정보가 축적되었으며 날마다 늘어나고 있다. 이들 정보의 효율적 검색을 위해 많은 연구가 이루어졌으며, 특히 텍스트 문서의 효율적인 검색을 위해 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다. 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 사용자가 원하는 문서와 비슷한 문서를 의미적으로 찾아내기 위한 방법을 제안한다. 본 방법론은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두어 각 문서들의 계층들의 도메인 비중과 도메인 내의 개념 일치도를 이용하여 문서들 간에 유사도를 구한다.

  • PDF

Document Reranking Model Using Clusters (문서 클러스터를 이용한 재순위화 모델)

  • Lee, Kyung-Soon;Park, Young-Chan;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.81-87
    • /
    • 1998
  • 본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.

  • PDF

Automatic Text Summarization Using Thesaurus (시소러스를 이용한 문서 자동 요약)

  • 이창범;박혁로
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.352-354
    • /
    • 2001
  • 문서 자동요약은 입력된 문서에 대해 컴퓨터가 자동으로 요약을 생성하는 과정을 의미한다. 즉, 컴퓨터가 문서의 기본적인 내용을 유지하면서 문서의 복잡도 즉 문서의 길이를 줄이는 작업이다. 효율적인 정보 접근을 제공함과 동시에 정보 과적재를 해결하기 하기 위한 하나의 방법으로 문서 자동요약에 관한 연구가 활발히 진행되고 있다. 본 논문에서는 의미기반 정보검색용 시소러스(thesaurus)를 이용한 문서 자동요약을 제안한다. 제안한 방법에서는 단어간의 연관 관계 즉, 동의어, 유의어, 상위어, 하위어 관계를 문서 요약에 이용한다. 크게 연관 사슬 형성 단계, 중심 문장 추출 단계, 요약 생성 단계의 새단계로 나누어 요약을 생성한다. 수동 요약된 신문기사를 대상으로 평가한 결과 평균 66%가 일치하였다.

  • PDF

XML Document Selection and Query Expansion Modules (XML 문서선별과 질의확장을 위한 자동화 모듈 개발)

  • 김명숙;권혁돈;공용해
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2004.05a
    • /
    • pp.455-458
    • /
    • 2004
  • 본 연구는 다양한 형식을 가지는 XML 문서의 효율적인 정보검색을 위한 다음과 같은 자동화 모듈들을 개발하였다 구현된 모듈은 XML 문서를 획득하는 문서추출 모듈, 온톨로지를 이용한 포괄적 DTD 생성 모듈 생성된 포괄적 DTD와 XML 파서를 이용하여 정보검색 대상 XML 문서를 사전에 선별하는 문서여과 모듈, XML 질의를 확장하는 질의확장 모듈, JDOM의 XPath를 이용한 질의엔진 모듈로 구성된다. 이와 같이 구현한 모듈들을 샘플 XML 문서에 적용하여 XML 문서추출, DTD 생성, 문서여과, 질의확장, 질의엔진의 효과를 실험하였다.

  • PDF

XML Document Structure Comparison based on Function Transform and FFT (함수 변환과 FFT에 의한 XML 문서의 구조 비교)

  • Lee Ho-Suk
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.06c
    • /
    • pp.28-30
    • /
    • 2006
  • XML 문서의 유사성을 비교하는 연구는 XML 문서의 저장 및 검색에 유용하기 때문에 많은 연구가 진행되었다. XML 문서의 유사성 연구는 크게 edit-distance를 이용하는 방법, 문서의 그래프 모델을 이용하는 방법, 문서의 매트릭스 모델을 이용하는 방법 등이 있다. 최근에는 문서를 encoding 하고 푸리에 변환을 이용하는 방법이 보고되었다. 본 논문에서는 XML 문서를 함수로 변환하고 FFT를 적용하여 문서의 구조적 유사성을 비교하는 새로운 방법을 제안한다. 제안하는 방법은 JAXP로 구현하였으며 XML 문서의 구조를 분석하여 함수로 변환하였다. 그리고 함수에 FFT를 적용하여 XML 문서의 구조적 유사성을 비교하였다. FFT 비교 결과는 XML 문서의 함수 변환이 적합한 것임을 보여주었으며 비교 결과는 예상된 결과를 보여주었다.

  • PDF

A Web Crawler using Hyperlink Structure and Hypertext Categorization Method (Hyperlink구조와 Hypertext 분류방법을 이용한 Web Crawler)

  • Lee, Dong-Won;Hyun, Soon-J.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04b
    • /
    • pp.1337-1340
    • /
    • 2002
  • 웹 정보검색에서 웹 문서를 수집하고, 색인을 구축하는 작업에서 Web Crawler 의 역할은 매우 중요하다. 그러나, 웹 문서의 급속한 증가로 인하여 Web Crawler 가 모든 웹 문서를 수집하는 것은 불가능하며, 웹 정보검색의 정확성을 증가시키기 위한 방법으로 특정한 영역의 문서를 수집하는 focused web crawler에 대한 연구가 활발히 진행되어 왔다. 이와 함께, 웹 문서의 link구조를 이용하여 문서의 집합에서 중요한 문서를 찾는 연구들이 많이 진행되었다. 그러나, 기존의 연구에서는 문서의 link 구조에만 초점이 맞추어져 있으며, hypertext 전체의 연결 구조를 알아야 한다는 문제점이 있다. 본 연구에서는 hyperlink의 구조와 hypertext 분류방법을 이용하여 문서에 연결된 다른 문서 중 중요한 문서를 결정하는 방법을 제시하고 이를 이용한 web crawler 를 통하여 특정영역에서 정확한 문서를 수집함을 보였다.

  • PDF

Automatic Generation of XML Documents Using Rule-Based Document Classifier (규칙기반 문서 분류기를 이용한 XML 문서 의 자동생성)

  • 김효정;민미경
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2000.11a
    • /
    • pp.125-128
    • /
    • 2000
  • 인터넷 중심의 정보화 사회가 되면서 기존의 문서는 대부분 전자 문서로 대치되어 가고 있다. 전자 문서간의 호환과 표준화를 위하여 XML(eXtensible Markup Language)이 웹 문서의 표준으로 지정되었으나, 현재까지 사용되고 있는 문서들이 XML 형태의 문서가 아니므로 이를 수동으로 변환해야 하는 어려움이 있다. 본 논문에서는 규칙기반 분서 분류기(Rule-Based Document Classifier)를 설계하여 다양한 형태의 문서를 자동으로 분류하고 그룹화한다. 그룹화된 문서를 이용하여 자동으로 DTD(Document Type Definition)를 생성하고, 자동 생성된 DTD를 이용하여 XML 형태의 문서로 자동 변환할 수 있는 자동 XML 변환기를 제시한다. 이러한 방법은 문서들을 자동으로 분류하고, 문서의 행태에 변화가 있을 때에도 유사한 문서로 분류할수 있을 뿐만 아니라 문서를 재분류할 때 DTD의 중복 생성을 줄일 수 있는 등의 장점을 갖는다.

  • PDF

The Comparison of Neural Network and k-NN Algorithm for News Article Classification (신경망 또는 k-NN에 의한 신문 기사 분류와 그의 성능 비교)

  • 조태호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.363-365
    • /
    • 1998
  • 텍스트 마이닝(Text Mining)이란 텍스트형태의 문서들의 패턴 또는 관계를 추출하여 사용자가 원하는 새로운 정보를 가공하거나 기존의 정보를 변형하는 과정을 말한다. 텍스트 마이닝의 기능에는 문서 범주화(Document Categorization), 문서 군집화(Document Clustering), 그리고 문서 요약(Document Summarization)이 이에 해당된다. 문서 범주화란 문서에게 사전에 정의한 범주를 부여하는 과정을 말하고, 문서 군집화란 문서들을 계층적 구조로 형성하는 과정을 말하고, 문서 요약이란 문서의 전체 내용을 대표할 수 있는 내용의 일부만을 추출하는 과정을 말한다. 이 논문에서는 문서 범주화만을 다룰 것이며 그 대상으로는 신문기사로 설정하였다. 그의 범주는 4가지로 정치, 경제, 스포츠, 그리고 정보통신으로 설정하였다. 문서 범주화는 문서 분류(Document Classification)라고도 하며 문서에 범주를 자동으로 부여하여 기존에 인위적으로 부여함으로써 소요되는 시간과 비용을 절감하는 것이 목적이다. 문서 범주화에 대하여 k-NN(k-Nearest Neighbor)와 신경망을 이용하였으며, 신경망을 이용한 경우가 k-NN을 이용한 경우보다 성능이 우수하였다.

  • PDF

Design and Implementation of Form Generator for Creating Web Form and XML Message On Business (비즈니스 웹 폼과 XML 메시지 작성을 위한 폼 생성기의 설계 및 구현)

  • 조준구;김창수;정회경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04a
    • /
    • pp.313-315
    • /
    • 2001
  • 인터넷 기반의 B2B(Business To Business) 및 B2C(Business To Customer)의 거래 확대에 따른 비즈니스 상에 이용되어질 문서 양식도 웹(Web)화 되거나 전자화된 전용 양식 형태로 변환되어질 필요가 있다. 이러한 점은 기존의 비즈니스 상에서 이용되어진 종이 형태나 특정 포맷에 의존한 문서 양식이 제작 과정의 여러 단계와 그에 따른 고 비용의 문제를 안고 있으며, 거래 파트너간의 문서 교환을 통한 상호 운용성(Interoperability)을 확보 할 수 없는 문제점을 가지고 있기 때문이다. 이에 본 논문에서는, 인터넷 문서 표준인 XML(eXtensible Markup Language)과 그 표현을 위한 XSL(eXtensible Stylesheet Language) 문서를 이용하여 비즈니스 DTD(Document Type Definition) 문서를 기반을 한 XML 폼 생성기(Form Generator)를 개발하였으며, 그 결과인 폼 XML 문서를 XSL 문서를 이용하여 기존 웹 상에서 이용할 수 있는 HTML 형태의 웹 문서로 생성하고, 사용자 입력을 통해서 비즈니스 DTD 문서 구조에 유효한 비즈니스 XML 메시지를 작성할 수 있도록 설계 및 구현하였다.