• 제목/요약/키워드: Web documents

검색결과 831건 처리시간 0.029초

한글 형태소 및 키워드 분석에 기반한 웹 문서 분류 (Web Document Classification Based on Hangeul Morpheme and Keyword Analyses)

  • 박단호;최원식;김홍조;이석룡
    • 정보처리학회논문지D
    • /
    • 제19D권4호
    • /
    • pp.263-270
    • /
    • 2012
  • 최근 초고속 인터넷과 대용량 데이터베이스 기술의 발전으로 웹 문서의 양이 크게 증가하였으며, 이를 효과적으로 관리하기 위하여 문서의 주제별 자동 분류가 중요한 문제로 대두되고 있다. 본 연구에서는 한글 형태소 및 키워드 분석에 기초한 문서 특성 추출 방법을 제안하고, 이를 이용하여 웹 문서와 같은 비구조적 문서의 주제를 예측하여 문서를 자동으로 분류하는 방법을 제시한다. 먼저, 문서 특성 추출을 위하여 한글 형태소 분석기를 사용하여 용어를 선별하고, 각 용어의 빈도와 주제 분별력을 기초로 주제 분별 용어인 키워드 집합을 생성한 후, 각 키워드에 대하여 주제 분별력에 따라 점수화한다. 다음으로, 추출된 문서 특성을 기초로 상용 소프트웨어를 사용하여 의사 결정 트리, 신경망 및 SVM의 세 가지 분류 모델을 생성하였다. 실험 결과, 제안한 특성 추출 방법을 이용한 문서 분류는 의사 결정 트리 모델의 경우 평균 Precision 0.90 및 Recall 0.84 로 상당한 정도의 분류 성능을 보여 주었다.

동시링크를 이용한 웹 문서 클러스터링 실험 (Clustering of Web Document Exploiting with the Co-link in Hypertext)

  • 김영기;이원희;권혁철
    • 한국도서관정보학회지
    • /
    • 제34권2호
    • /
    • pp.233-253
    • /
    • 2003
  • 인간은 지식의 조직을 통해 세계를 이해한다. 정보검색분야에서 연구되고 있는 정보의 조직화에는 분류와 클러스터링이라는 두 가지 유형이 있다. 분류는 미리 정의된 범주에 각 항목을 배정하는 행위인 반면, 클러스터링은 유사하거나 관련된 항목을 집단화함으로써 정보를 조직한다. 인터넷 정보자원의 조직은 웹 문서에 출현하는 단어들에서 키워드를 추출하여 역파일을 작성함으로써 검색에 활용하는 것이 일반적인 방법이다. 그러나 키워드의 출현 위치나 단어빈도를 통한 문서유사도 기법은 사용된 언어가 다르거나 대부분이 앵커텍스트만으로 구성되어 있는 대문페이지처럼 적용하기 어려운 경우가 많다. 이 연구는 계량정보학적 분석 기법 중에서 동시인용 기법을 웹 문서의 하이퍼링크에 적용하여, 웹 문서의 클러스터링 가능성을 실험한다.

  • PDF

XML을 이용한 철근콘크리트 건물 구조계산서 전자화 (XML-Based Digitalization of Structural Design Sheets for RC Buildings)

  • 정종현;강경수
    • 한국전산구조공학회논문집
    • /
    • 제18권4호통권70호
    • /
    • pp.435-443
    • /
    • 2005
  • 본 연구의 목적은 XML을 기반으로 하여 웹(web)을 통한 교환이 가능한 철관콘크리트 건물의 구조계산서를 전자화(digitalization)하는 방안을 제시하는 것이다. 이를 위해서 철근콘크리트 건물의 구조계산서를 XML로 표현하기 위한 자료 구조(data structure)를 정의하였다. 여기에는 수식과 그래픽 등 웹에서는 교환하기 어려운 형식의 자료들도 포함된다. 다음에는 이 자료구조에 따라 구조계산서를 XML문서로 작성하였다. 그리고 이 XML문서를 웹에서 효과적으로 출력(presentation)하는 방안을 도출하였다. 마지막에는 XML로 표현된 구조계산서를 웹에서 교환할 수 있는 웹 응용프로그램(web application)을 부분적으로 구현하였고, 이를 간단한 예제에 적용하여 본 연구결과의 타당성을 검토하였다.

XML기반의 전자문서 처리방안에 관한 연구 (A Study on XML-Based Electronic Documents)

  • 남철기;장길상
    • 한국산업경영시스템학회:학술대회논문집
    • /
    • 한국산업경영시스템학회 2002년도 춘계학술대회
    • /
    • pp.57-62
    • /
    • 2002
  • Recently, due to the development of internet based information technology, organizations Is utilizing electronic documents as important media for processing business work and sharing Information exchange. These electronic documents are mos4 form like documents and are important user interfaces for business applications. But, presently web-based electronic documents are lack of the characteristics that are taken in documents, such as document writing rules and its workflow. This Paper deals with XML-based business document that include the structure, data, and logic and proposes the framework for validating the data and logic included within business documents using Prolog.

  • PDF

B2B, B2G 환경에서 전자문서의 상호운용을 지원하는 DTD 상호운용 구조의 설계 (Design of Interoperable DTD Architecture supporting Interoperability of Digital Documents for B2B, B2G Environments)

  • 박상윤
    • 경영과정보연구
    • /
    • 제21권
    • /
    • pp.99-114
    • /
    • 2007
  • According as Internet based EC(Electronic Commerce) has been activated, More requirements for exchanging digital documents are being proposed in B2B(Business to Business) and B2G(Business to Government) environments. However, the documents can not be processed automatically, because the structures of documents in each site(companies, central/local governments) do not match. Therefore, W3C(World Wide Web Consortium) has proposed XML(eXtensible Markup Language) DTD(Document Type Declaration) technology to support structuring documents. The XML DTD technology can support interoperability between EC sites. And, XML DTD based documents can be processed automatically in every sites. They will improve efficiency of services in B2B and B2G environments. In this paper, we propose interoperable DTD architecture and IDEP(Interoperable DTD Exchange Protocol) protocol which supports searching DTDs and exchanging DTDs. This technology can popularize DTDs and digital documents.

  • PDF

개인화 정보 검색에 대한 연구 (A Study of Personalized Information Retrieval)

  • 김태환;전호철;최중민
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.683-687
    • /
    • 2008
  • 사람들은 월드 와이드 웹(World Wide Web)상에서 사용자가 원하는 정보를 검색하는 여러 알고리즘들을 구현해 왔다. 이렇게 구현된 검색 알고리즘 중 가장 좋은 기술을 가지고 있는 곳은 페이지랭크(PageRank)방식의 구글이다. 하지만 페이지랭크 방식, 즉 외부에서 강조하는 링크가 많은 문서로 검색하여 가장 많은 링크를 가기고 있는 문서를 상위에 보여주는 방식으론 사용자가 원하는 문서를 찾기 힘들다. 개인에게 가치가 있는 문서를 찾기보다 대중에게 가치가 있는 문서를 찾기 때문이다. 이러한 문제를 해결하기 위하여 본 논문에서는 대중적 가치와 개인적 가치를 혼합한 개인화 검색 엔진을 제안한다.

  • PDF

XML을 이용한 요양기관 청구 전자문서거래(EDI) 시스템 (Electronic Data Interchange System for Hospital Demand Using XML)

  • 김진호;김경태
    • Journal of Information Technology Applications and Management
    • /
    • 제9권1호
    • /
    • pp.97-110
    • /
    • 2002
  • Many companies are using EDI (Electronic Data Interchange) for the electronic transmission of documents and information to and from other companies. The appearance of Internet can enhance existing EDI systems. Existing EDI systems have several problems such as poor system interoperability and high expense of VAN. This paper prognoses a new EDI system utilizing Internet to provide open communication environment by using XML (extensible Markup language) and this applies it to the EDI service for Hospital Demand. XML is a mark-up language extending HTML which is a standard language for the expression of WWW (World-Wide Web) pages. XML is more structural than HTML, thus it is more suitable for the repetitive tasks of EDI and for the maintenance of databases. XML can transmit EDI documents in the open communication environment of Internet and users can easily access the documents with web browsers. Therefore we can provide EDI services within more open environment and we can build an EDI system with lower expense.

  • PDF

웹을 기반으로 한 지방청 공사현황 정보시스템 구축 (The Regional Construction & Management Office Construction Management System Based On The Web)

  • 서명배;강의석;김남곤
    • 한국전자거래학회:학술대회논문집
    • /
    • 한국전자거래학회 2003년도 종합학술대회 논문집
    • /
    • pp.84-89
    • /
    • 2003
  • For running various construction processing information and technological information, it is supplied by Construction CALS/EC systems properly during whole facilities life cycle. So it is urgently necessary to change Regional Construction 8t Management Office (RCMO) equipment construction administration business to electron processing system (CALS/EC). From construction work plan to completion, a present storage documents system is unsystematic. Therefore, it needs management system to store documents and to read in turn documents properly. This research suggest that it is to connect with various information systems and Construction CALS/EC for RCMO which is running public construction field. So it can be driven systematic and effective administration system about public construction business by Web-based present construction situation information system.

  • PDF

HTML 문서의 무결성 유지 시스템의 설계 및 구현 (The Design and Implementation of HTML Document Integrity Management System)

  • 조이기;이영운;황인문;양수영;김원중
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2002년도 춘계종합학술대회
    • /
    • pp.380-383
    • /
    • 2002
  • KLDP(리눅스 한글 문서 프로젝트, http://kldp.org)와 같이 많은 분량의 HTML 문서들로 이루어진 매뉴얼 사이트를 관리하는데 가장 어려운 점은 현수 참조(dangling reference), 오문 참조 (inaccurate content reference)와 같은 깨진 링크(broken link)를 관리하는 것이다. 본 논문에서는 웹사이트의 HTML 문서들 사이에 존재하는 관계성(Relationship)과 제약 조건(Constraints)을 정의하여, HTML 문서의 삽입, 삭제, 변경이 발생할 경우 사용자에게 통지하거나, 트리거를 수행하여 HTML 문서들의 무결성(Integrity)을 유지할 수 있도록 하는 HIMS(HTML Document Integrity Management System)시스템을 설계 및 구현하였다.

  • PDF

SUSTAINABLE DESIGN AUTOMATION AND MANAGEMENT USING XML

  • Byeong Cheol Lho;Jeong Hoon Kim;Ok Youn Yu;Julian Kang
    • 국제학술발표논문집
    • /
    • The 1th International Conference on Construction Engineering and Project Management
    • /
    • pp.592-595
    • /
    • 2005
  • Concrete slab bridge is one of most common structures employed for local road constructions because of its simplicity in design and construction. Computer applications were developed to automate the repetitive computation for these simple structures. However, in most cases, managing the electronic documents produced by these applications has not been incorporated with design automation application yet. Resultant documents are often managed by individuals and disappear as time goes by due to lack of systemic management. This paper introduces a Web-based application developed to not only speed up the design process but also enhance the collection and manipulation of resultant electronic documents.

  • PDF