• 제목/요약/키워드: 문서

검색결과 7,087건 처리시간 0.035초

인터넷 멀티미디어 전자 문서 질의 언어의 세계 (Design of A Query Language Internet Electronic Documents)

  • 김용훈;연제원;장동준;조정수;이강찬;이규철;김완석
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 추계학술발표논문집
    • /
    • pp.407-412
    • /
    • 1998
  • 21세기는 고도의 정보화 사회가 될 것이다. 이러한 정보화의 사회의 가장 중요한 요소는 수많은 문서 정보를 전자 문서로 만들고 관리하는 것인데, 최근 들어 OIS(Office Information System), 디지털 도서관, CALS/EC 등의 다양한 응용 분야에서 일한 전자 문서의 저장, 처리, 검색이 요구되고 있다. 이러한 상황에서 다양한 전자 문서의 표준들이 나오고 있고, 그 중 차세대 전자 문서의 표준의 선두로서 XML이 대두되고 있다. 따라서 최근에는 XML 문서를 저장하고 검색하는 다양한 응용들이 개발중이고, 이러한 응용들은 XML 문서의 다양한 문서 정보를 모두 만족할 수 있는 검색 기능들을 요구하고 있다. 본 논문에서는 이러한 다양한 XML 응용들의 요구에 따라서 XML 문서가 지닌 다양한 문서 정보에 대해서 검색할 수 있는 XML 질의 언어의 개발에 목적이 있다.

  • PDF

Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류 (Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm)

  • 고수정;이정현
    • 정보처리학회논문지B
    • /
    • 제8B권3호
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

웹기반 전자결재 시스템 상호간의 공문서 교환에 관한 연구 (A Study On Public Document Interchange In the Web-Based Electronic Approval System)

  • 정화자;박동현;이춘원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.412-414
    • /
    • 2001
  • 정보시스템 구축이란 필연적인 수단의 대안으로 제시되고 있는 것이 인트라넷 환경이다. 그러나 사용자들은 단지 전자메일이나 전자게시판만보다 효율적으로 인트라넷 환경을 이용할 수 있는 Workflow 개념을 절실히 요구하고 있으며, 그 대표적인 예인 전자결재시스템이 기업의 업무에 적용되기를 원하고 있다. 하지만, 상용화된 현재의 그룹웨어 시스템간의 문서 호환성 결여는 인터넷이라는 통합 패러다임에 역행하는 결과를 낳게 되었고, 그룹웨어 시스템간의 정보의 공유와 확장성을 고려하지 않을 수 없게 되었다. 컴퓨터 환경의 보편화로 문서의 전자화와 문서관리 전자문서화로 변하고 있으며, 전자상거래와 전자문서교환, 전자문서관리시스템에서는 기본적으로 종이 문서를 사용하지 않지만, 아직도 문서 교환의 많은 부분이 팩스나 종이로 이루어지고 있다. 본 논문에서는 웹 표준 문서 포맷 기술로 자리잡고 있는 SML(eXtensible Markup Language)을 이용하여 웹기반 전자결재시스템 상호간의 문서호환성을 해결하기 위한 표준 문서 교환 시스템에 대한 프로토타입을 설계하고 이를 구현하였다.

  • PDF

문서의 계층화를 이용한 문서비교 방법 (The Method of Document Comparison using Document Hierarchy)

  • 황명권;공현장;황광수;김판구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.143-147
    • /
    • 2006
  • 오늘날 웹의 비약적인 성장으로 텍스트, 이미지, 비디오, 그리고 사운드 등의 다양한 데이터 형식의 많은 정보가 축적되었으며 날마다 늘어나고 있다. 이들 정보의 효율적 검색을 위해 많은 연구가 이루어졌으며, 특히 텍스트 문서의 효율적인 검색을 위해 확률을 이용한 방법, 통계적인 기법을 이용한 방법, 벡터 유사도를 이용한 방법, 베이지안 자동문서 분류 방법 등이 제안되었다. 그러나 이러한 기존의 방법들은 문서의 특징을 정확하게 반영할 수 없고, 의미적 검색이 이루어지지 않는 단점을 가지고 있다. 이에 본 논문은 문서를 미리 분류하는 기존의 방법을 개선하기 위해, 사용자가 원하는 문서와 비슷한 문서를 의미적으로 찾아내기 위한 방법을 제안한다. 본 방법론은 문서의 내용을 의미적인 계층으로 표현하고 중요 도메인에 가중치를 두어 각 문서들의 계층들의 도메인 비중과 도메인 내의 개념 일치도를 이용하여 문서들 간에 유사도를 구한다.

  • PDF

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

문서의 효율적인 검색을 위한 HTML 문서 변환 시스템 (HTML Document Conversion System for Effective Retrieval of Text Document)

  • 김수의;장대용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.184-186
    • /
    • 2000
  • 이 연구에서는 텍스트 문서를 웹에서 HTML 문서 형태로 효율적으로 검색할 수 있는 변환 시스템을 개발하였다. 웹상에 사용자가 원하는 부분만을 HTML 문서 형태로 제공하도록 문서의 논리적인 구조를 파악하며 그 구조에 대한 정보와 각 논리 단위에 해당하는 부분의 범위 정보를 저장할 수 있도록 관계형 데이터베이스 스키마를 개발하였다. 개발한 시스템은 문서의 목차 테이블을 자동으로 구축하고 목차 테이블의 각 항목에 하이퍼링크를 설정한다. 문서를 웹에서 검색하기 위한 첫 화면은 목차 테이블이며, 그 중 한 항목이 클릭되면 그 항목의 내용이 제공되고, 만약 그 하위에 속하는 항목들이 있다면 그들에 대한 링크를 역시 제공한다. 이러한 방법으로 한 문서의 전체를 그 논리 구조에 따라 사용자가 원하는 대로 검색할 수 있다. 이 시스템은 멀티미디어 타입의 문서를 하이퍼미디어 문서 형식으로 변환할 수 있도록 확장하여 보완 개발될 수 있고, 장래에 전자 출판과 전자 도서관에 응용될 수 있다.

  • PDF

유연성있는 웹 기반의 문서관리 시스템 (A Flexible Web-based Document Management System)

  • 김규완;김인호;정재훈;정수권;이명준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.222-224
    • /
    • 1998
  • 정보통신 분야에서의 최근의 기술적인 발전에 힘입어 인트라넷을 기반으로 한 조직내 업무를 자동화하고, 또한 정보 공유를 통해 생산성을 향상하기 위하여 많은 정보시스템이 구축되고 있다. 이러한 정보시스템은 조직의 성격에 따라 유연성있게 변화하면서 기술문서 등 여러 가지 종류의 문서들을 효과적으로 관리할 수 있도록 지원하는 것이 바람직하다. 본 연구에서는 각종 기술문서 등의 다양한 문서를 효과적으로 관리하기 위한 정보시스템을 설계하였다. 설계된 웹 문서관리 시스템은 체계적인 사용자인증을 통하여 조직내의 다양한 문서들에 대하여 계층적으로 문서 정보조직을 구성하고 이를 이용하여 문서를 등록하고, 등록된 문서 정보를 통하여 문서를 검색하는 기능을 지원한다.

  • PDF

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교 (Empirical Analysis & Comparisons of Web Document Classification Methods)

  • 이상순;최정민;장근;이병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2002
  • 인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

  • PDF

전문용어 및 정보추출에 기반한 문서분류시스템 (Text Categorization Based on Terminology and Information Extraction)

  • 이경순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.79-84
    • /
    • 1999
  • 본 연구에서는 문서분류시스템에서 자질의 표현으로 전문분야사전을 이용한 분야정보와 개체정보추출을 통한 개체정보를 이용한다. 또한 지식정보를 보완하기 위해 통계적인 방법으로 범주 전문용어를 인식하여 자질로 표현하는 방법을 제안한다. 문서에 나타난 용어들이 어떤 특정 전문분야에 속하는 용어들이 많이 나타나는 경우 그 문서는 용어들이 속한 분야의 문서일 가능성이 높다. 또한, 정보추출을 통해 용어가 어떠한 개체를 나타내는지를 인식하여 문서를 표현함으로써 문서가 내포하는 의미를 보다 잘 반영할 수 있게 된다. 분야정보나 개체정보를 알 수 없는 용어에 대해서는 학습문서로부터 전문분야를 자동 인식함으로써 문서표현의 지식정보를 보완한다. 전문분야, 개체정보 및 범주전문용어에 기반해서 표현된 문서의 자질에 대해서 지지벡터기계 학습에 기반한 문서분류기틀 이용하여 각 범주에 대해 이진분류를 하였다. 제안된 문서자질표현은 용어기반의 자질표현에 비해 좋은 성능을 보이고 있다.

  • PDF

E-비즈니스 XML 문서 생성을 위한 Form 생성기의 설계 및 구현 (Design and Implementation of Form Generator System for Creating E-Business XML Document)

  • 조준구;김창수;정회경
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2001년도 e-Biz World Conference
    • /
    • pp.385-390
    • /
    • 2001
  • 본 논문은 인터넷 환경에서의 전자 비즈니스(E-Business) 상황에서 거래 주체들(Trading Partner)간에 교환되어 지는 비즈니스 문서 양식을 생성하기 위해 연구되어 졌다. 기존의 종이 형태 또는 특정 포맷을 갖는 문서 양식이 갖는 문제점은 많은 단계의 제작 과정과 그에 따른 고 비용의 문제, 거래 파트너간의 문서 교환을 통한 상호 운용성(Interoperability)을 확보 할 수 없는 문제들을 가지고 있다. 이에, 인터넷 문서 표준인 XML(extensible Markup Language)과 그 표현을 위한 XSL(extensible Stylesheet Language) 문서를 이용하여 비즈니스 DTD 문서를 기반으로 한 XML 폼 생성기(Form Generator)를 개발하였으며, 그 결과인 폼 XML 문서를 XSL 문서를 이용하여 기존 웹 상에서 이용할 수 있는 HTML 문서로 생성하고, 사용자 입력을 통해서 비즈니스 DTD 문서 구조에 유효한 비즈니스 XML 메시지를 작성할 수 있도록 설계 구현하였다.

  • PDF