• Title/Summary/Keyword: 문서과

Search Result 2,265, Processing Time 0.027 seconds

A Hypertext Categorization Method using Incrementally Computable Class Link Information (점진적으로 계산되는 분류정보와 링크정보를 이용한 하이퍼텍스트 문서 분류 방법)

  • Oh, Hyo-Jung;Myaeng, Sung-Hyoun
    • Journal of KIISE:Software and Applications
    • /
    • v.29 no.7
    • /
    • pp.498-509
    • /
    • 2002
  • As WWW grows at an increasing speed, a classifier targeted at hypertext has become in high demand. While document categorization il quite mature, the issue of utilizing hypertext structure and hyperlinks has been relatively unexplored. In this paper, we propose a practical method for enhancing both the speed and the quality of hypertext categorization using hyerlinks. In comparison against a recently proposed technique that appears to be the only one of the kind, we obtained up to 18.5% of improvement in effectiveness while reducing the processing time dramatically. We attempt to explain through experiments what factors contribute to tile improvement.

Sentence Interaction-based Document Similarity Models for News Clustering (뉴스 클러스터링을 위한 문장 간 상호 작용 기반 문서 쌍 유사도 측정 모델들)

  • Choi, Seonghwan;Son, Donghyun;Lee, Hochang
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.401-407
    • /
    • 2020
  • 뉴스 클러스터링에서 두 문서 간의 유사도는 클러스터의 특성을 결정하는 중요한 부분 중 하나이다. 전통적인 단어 기반 접근 방법인 TF-IDF 벡터 유사도는 문서 간의 의미적인 유사도를 반영하지 못하고, 기존 딥러닝 기반 접근 방법인 시퀀스 유사도 측정 모델은 문서 단위에서 나타나는 긴 문맥을 반영하지 못하는 문제점을 가지고 있다. 이 논문에서 우리는 뉴스 클러스터링에 적합한 문서 쌍 유사도 모델을 구성하기 위하여 문서 쌍에서 생성되는 다수의 문장 표현들 간의 유사도 정보를 종합하여 전체 문서 쌍의 유사도를 측정하는 네 가지 유사도 모델을 제안하였다. 이 접근 방법들은 하나의 벡터로 전체 문서 표현을 압축하는 HAN (hierarchical attention network)와 같은 접근 방법에 비해 두 문서에서 나타나는 문장들 간의 직접적인 유사도를 통해서 전체 문서 쌍의 유사도를 추정한다. 그리고 기존 접근 방법들인 SVM과 HAN과 제안하는 네 가지 유사도 모델을 통해서 두 문서 쌍 간의 유사도 측정 실험을 하였고, 두 가지 접근 방법에서 기존 접근 방법들보다 높은 성능이 나타나는 것을 확인할 수 있었고, 그래프 기반 접근 방법과 유사한 성능을 보이지만 더 효율적으로 문서 유사도를 측정하는 것을 확인하였다.

  • PDF

XML Representation of a Sheet Music for Chorus (합창곡 악보의 XML 표현)

  • 김정훈;김선호;채진석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10a
    • /
    • pp.72-74
    • /
    • 1999
  • XML은 HTML의 단순성과 SGML의 복잡성을 동시에 극복하기 위한 노력으로 시작되어 HTML이나 SGML과는 다른 새로운 세계를 만들어 내고 있으며, 인터넷 문서 표현과 관련된 여러 분야에서 활발하게 연구되고 있다. 이 논문에서는 차세대 인터넷 문서 표현 언어로 주목받고 있는 XML을 이용하여 합창곡의 악보를 표현하는 기법을 제시한다. 이 논문에서는 합창곡 악보를 표현하기 위해 정의된 새로운 마크업 언어인 ScoreML(Score Markup Language)을 소개하고, ScoreML로 작성된 XML 문서를 웹에서 볼 수 있도록 ScoreML 브라우저의 설계 및 구현에 대해 기술한다. ScoreML을 사용하여 작성된 XML 문서는 악보 표현뿐만 아니라 음악 데이터의 저장과 검색에도 사용될 수 있다.

  • PDF

Document Understanding using Partial Matching Method (부분 매칭을 이용한 서식 이해에 관한 연구)

  • 변영철;윤성수;김경환;최영우;이일병
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.443-445
    • /
    • 1999
  • 여러 가지 유형의 서식 문서를 자동으로 처리하려면 서식을 이해하는데 필요한 항목 영상을 추출하기에 앞서 서식을 분류(classification)해야 한다. 서식을 분류함에 있어서 서식 영상 전체를 다룰 경우 상당한 시간이 걸릴 수 있다. 왜냐하면 일반적으로 서식 문서 영상의 크기는 일반 문자 영상에 비해 상당히 클 뿐만 아니라 대상 서식 문서의 유형도 많아질 수 있기 때문이다. 본 연구에서는 이러한 문제를 해결하기 위한 방법으로서 DP 매칭에 의한 부분 매칭 방법을 제안하고자 한다. 실험 결과, 제안하는 방법은 서식 문서의 전체가 아닌 일부 영역만을 비교함으로써 인식 시간과 인식률 면에서 서식 문서를 효과적으로 처리할 수 있었다.

  • PDF

Automatic Event Extraction from the Yeast Literature by Pattern Matching (패턴 정보를 이용한 효모 관련 문서에서의 이벤트 자동 추출)

  • 전홍우;황영숙;임해창
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.464-466
    • /
    • 2003
  • 생명과학 관련 문서에서 자동으로 이벤트를 추출하는 것은 관련 연구자들의 연구에 많은 도움을 줄 수 있다. 본 논문에서는 생명과학 관련 문서 중 특히 효모와 관련된 문서를 대상으로 간단한 자연언어 처리 기술을 적용하여 유의미한 정보를 추출한 결과를 제시하고자 한다. 실험은 효모 관련 문서에서 고빈도의 이벤트 표현 동사에 대한 패턴 정보를 조사한 후, 패턴 정보에 의거하여 이벤트를 추출하였다. 평가 결과, 비교적 간단한 자연언어 처리 기술 안으로도 유의미한 정보들을 추출할 수 있었다.

  • PDF

Design and Implementation of the XML-based Software Development Document Management Tool (XML에 기반한 SW 개발 문서 관리 도구의 설계 및 구현)

  • 민만기;이승진;우치수
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.541-543
    • /
    • 1998
  • 본 연구에서는 PSEE 환경 하에서 사용 가능한 XML 기반의 개발 문서 관리 도구를 제안한다. 먼저 PSEE 환경에 대하여 간략하게 알아보고 PSEE 하의 개발 문서 관리 도구가 가져야 할 특성을 살펴보겠다. 이러한 특성을 만족하도록 개발 문서의 형식으로 정한 XML에 대하여 간략히 살펴보고 본 연구에서 설계 및 구현한 개발 문서 관리 도구에 대하여 설명하겠다. 본 논문에서 설계한 내용은 대형 컴퓨터 기반의 소프트웨어 개발 환경의 일부로써 구현되었다.

Design of XML Document Storage System Using ORDBMS (ORDBMS를 이용한 XML 저장 시스템 설계)

  • 한상웅;홍의경
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.3-5
    • /
    • 2000
  • XML은 최근 인터넷상에서 정보 교환의 표준으로 자리잡고 있다. 따라서, 그동안 semistructured date와 XML 데이터를 데이터베이스에 저장하고 검색하기 위한 많은 연구들이 진행되어 왔다. 본 논문에서는 기존에 개발된 RDBMS를 이용한 시스템과 OODBMS를 이용한 시스템의 장단점을 수용하여 ORDBMS상에서 XML 문서를 저장하고 검색할 수 있는 시스템을 설계하였다. 이 시스템은 DTD 독립적인 XML 문서를 저장하기 위해 스키마와 분할저장 방법을 이용하여 임의의 XML 문서를 저장하고 저장된 문서의 갱신을 용이하게 처리할 수 있도록 하였다. 전체적인 시스템은 웹상에서 문서를 저장, 검색할 수 있는 웹 기반 시스템과 XML을 이용하는 응용프로그램의 데이터베이스 연동을 지원하는 응용기반 시스템으로 구분하였다.

  • PDF

Design of A Hybrid Storage Structure For Managing XML Documents (XML 문서 관리를 위한 혼합 저장 구조 설계)

  • 황종욱;정재희;강현석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.78-80
    • /
    • 2000
  • XML로 기술된 전자 문서를 논리적 구조에 따라 분할하여 객체 지향 데이터베이스에 저장하기 위한 연구가 많이 이루어지고 있다. 그러나, 그러한 접근은 몇몇 기본적인 접근 연산에 대해 성능이 떨어진다. 이 경우, 비분할 저장 구조 모델을 이용하면 이러한 문제를 어느 정도 보완할 수 있다. 본 논문에서는 구조화된 XML 문서의 효율적인 관리를 위해 혼합 저장 구조 모델을 제안한다. XML 문서를 분할과 비분할 모델이 혼합된 형태의 물리적 저장 구조로 구조 정보를 표현하면서 투명성을 제공하기 위한 객체 지향 메타 스키마를 제안하고, 이 메타 스키마로부터 동적으로 생성된 응용 데이터베이스 스키마를 통해 구조화된 문서를 객체 지향 데이터베이스에서 관리하는 방법을 제안한다.

  • PDF

Model of Workflow based Document Management CSCW Environment (CSCW환경에서의 워크플로우 기반 문서 관리 모델)

  • 정성진;이승근;김남용;왕창종
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10c
    • /
    • pp.267-269
    • /
    • 1998
  • 본 연구는 공동작업환경에서 워크플로우 개념을 도입한 문서 관리 모델을 제안하고 이를 시스템으로 설계하였다. 제안된 모델은 문서를 관계, 상태, 흐름의 세가지 측면에서 모델링 할 수 있으며, 오류를 자동 검출 할 수 있는 규칙들을 내장하고 있다. 이러한 모델을 기반으로 문서 관리 시스템을 설계하여, 모델이 구현 및 적용 가능함을 보였다. 제안한 모델과 시스템은 전자 결제 시스템이나 전자상거래 등의 문서의 절차적 처리가 필요한 응용들에서 사용될 수 있다.

  • PDF

A Method of an Automatic Increment of Class Representatives for an Automatic Document Classification (자동 문서 분류를 위한 분류 주제어의 자동 증식 방법)

  • 정호석;임종태;나혜숙;민철호
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10a
    • /
    • pp.151-153
    • /
    • 2000
  • 현재의 자동 문서 분류 시스템에서는 문서분류는 지식베이스를 구축하고 전문가가 클레스의 분류 주제어를 수동 입력함으로써 이루어진다. 이것은 대단히 어렵고 번거로운 일이며 많은 시간과 노력이 소요되고 지속적으로 이루어지기 힘들다. 본 논문에서는 지식베이스와 문서의 구조적 정보, 통계적 정보, 키워드 간의 응집도를 이용하여 자동 문서 분류를 위한 분류 주제어의 자동 증식 방법을 제안한다.

  • PDF