• 제목/요약/키워드: Document Based Database

검색결과 197건 처리시간 0.022초

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.35-46
    • /
    • 2023
  • 본 연구에서는 문서 분류기의 정확도를 높이기 위해 문맥 정보와 키워드 정보를 모두 사용하는 이중 접근(Dual Approach) 방법론을 제안한다. 우선 문맥 정보는 다양한 자연어 이해 작업(Task)에서 뛰어난 성능을 나타내고 있는 사전학습언어모델인 Google의 BERT를 사용하여 추출한다. 구체적으로 한국어 말뭉치를 사전학습한 KoBERT를 사용하여 문맥 정보를 CLS 토큰 형태로 추출한다. 다음으로 키워드 정보는 문서별 키워드 집합을 Autoencoder의 잠재 벡터를 통해 하나의 벡터 값으로 생성하여 사용한다. 제안 방법을 국가과학기술정보서비스(NTIS)의 국가 R&D 과제 문서 중 보건 의료에 해당하는 40,130건의 문서에 적용하여 실험을 수행한 결과, 제안 방법이 문서 정보 또는 단어 정보만을 활용하여 문서 분류를 진행하는 기존 방법들에 비해 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

Retrieval of Broadcast News Using Audio Content Analysis

  • Kim, Hyoung-Gook
    • The Journal of the Acoustical Society of Korea
    • /
    • 제26권3E호
    • /
    • pp.74-79
    • /
    • 2007
  • In this paper, we report our recent work on a indexing and retrieval system of broadcast news using audio content analysis. Key issues addressed in this work are two major parts of the audio indexing system: anchorperson detection based on audio segmentation, and phone-based spoken document retrieval, developed in the framework of the emerging MPEG-7 standard. Experiments are conducted on a database of Britisch broadcast news videos. We discuss the development of the retrieval system, and the evaluation of each part and the retrieval system.

상이한 구조의 XML문서들에서 경로 질의 처리를 위한 RDBMS기반 역 인덱스 기법 (An RDBMS-based Inverted Index Technique for Path Queries Processing on XML Documents with Different Structures)

  • 민경섭;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.420-428
    • /
    • 2003
  • XML은 웹을 비롯한 모든 문서들을 표현할 수 있는 데이타 중심 표준 언어이다. XML 기반의 여러 문서 개발 도구들의 등장과 이를 이용한 사유 XML 문서의 증가, XML 문서로의 기존 데이타 변환가속화로 인해, 우리는 대량의 서로 상이한 구조로 표현된 XML 문서들을 가지게 되었으며, 이러한 문서 집합으로부터 원하는 정보를 담은 문서를 추출해 내는 것이 중요해 졌다. 하지만, 기존의 XML 문서에 대한 연구들은 한 개의 대규모 XML 문서나 동일한 구조를 가진 문서들에 대한 저장, 검색에 초점이 맞춰져 있거나. 상이한 구조를 지원하더라도, 구조적인 정보를 이용한 빠른 검색을 지원하지 못하는 단점을 가지고 있었다. 이에, 본 논문에서는 상이한 구조를 가진 문서들에 대해서도 빠른 경로 질의를 제공할 수 있도록 지원하기 위한 새로운 기법으로, 관계형 데이타베이스 시스템을 이용한 새로운 역 인덱스를 제안하였다. 우리는 제안된 기법이 기존의 방법에 비해 높은 성능을 보임을 실험을 통해 확인하였다. 특히, 간접 포함 관계를 포함한 모든 진의에서 논은 성능을 제공함으로서, 상이한 구조를 가진 문서들에 대해 적합한 인덱스 구조임을 보여 주었다.

모델 매핑 접근법을 이용한 XML 스키마 저장 메타모델에 대한 연구 (A Meta-Model for the Storage of XML Schema using Model-Mapping Approach)

  • 김훈태;임태수;홍근희;강석호
    • 산업공학
    • /
    • 제17권3호
    • /
    • pp.330-337
    • /
    • 2004
  • Since XML (eXtensible Markup Language) was highlighted as an information interchange format, there is an increasing demand for incorporating XML with databases. Most of the approaches are focused on RDB (Relational Databases) because of legacy systems. But these approaches depend on the database system. Countless researches are being focused on DTD (Document Type Definition). However XML Schema is more comprehensive and efficient in many perspectives. We propose a meta-model for XML Schema that is independent of the database. There are three processes to build our meta-model: DOM (Document Object Model) tree analysis, object modeling and storing object into a fixed DB schema using model mapping approach. We propose four mapping rules for object modeling, which conform to the ODMG (Object Data Management Group) 3.0 standard. We expect that the model will be especially useful in building XML-based e-business applications.

XML 스키마 기반의 데이터베이스 스키마 생성기 설계 (Design of Automatic Database Schema Generator Based on XML Schema)

  • 임종선;김경수
    • 융합보안논문지
    • /
    • 제7권3호
    • /
    • pp.79-86
    • /
    • 2007
  • 현재, 기업간 전자상거래는 XML 문서를 이용하여 기업간 정보유통에 부분적으로 적용되고 있으나 웹서비스가 본격 구현되면 기업 기간시스템도 XML 기반으로 점차 전환될 것으로 보고 많은 업체들이 XML DBMS 개발에 경쟁적으로 나서고 있다. 기존의 XML DBMS 연구들에서는 XML 문서의 구조를 표현하기 위하여 XML DTD를 사용하였다. 이러한 XML DTD는 단순한 형태의 표현을 정의하고 있어서 XML 문서의 구조를 정의하는데 많은 어려움이 있다. 이를 극복하기 위하여, 본 논문에서는 W3C의 표준으로 채택된 XML 스키마를 기반으로 데이터의 컨텐츠 저장에 일반적으로 사용되고 있는 관계형 데이터베이스에 XML 데이터를 저장하기 위하여 XML 스키마를 이용한 관계형 데이터베이스 스키마의 자동 변환 메커니즘을 통한 알고리즘을 제안하였다. 이 알고리즘을 토대로 XML 스키마를 관계형 데이터베이스 스키마로 변환하는 모듈을 개발하면, XML 데이터의 관리를 관계형 데이터베이스를 통하여 효과적으로 할 수 있을 것이다.

  • PDF

데이터베이스의 개념구조에 기반한 XML 문서의 색인 및 질의 스키마의 설계 및 구현 (Design and Implementation of XML Indexing and Query Scheme Based on Database Concept Structure)

  • 추교남;우요섭
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.317-324
    • /
    • 2006
  • 본 논문에서는 다양한 질의 처리를 위하여 데이터베이스 색인 스키마의 특징인 반구조적 정보를 구조 정보화할 수 있는 방법과 보다 빠르고 최적화된 질의처리 방법을 제안하고자 한다. XML 트리에 추가된 번호 정보를 비트열로 변형하여 트리의 구조 변경없이 트리 노드간의 구조 정보를 나타낸다. 그리고 이 과정에서 생성되는 기타 구조 정보들을 검색하여 색인 스키마에 추가한다. 또한, 질의 스키마에서는 색인 스키마를 이용하여 절대 경로 질의 표현식 뿐만 아니라 상대 경로 질의 표현식의 경우에도 주어진 노드 정보를 통하여 상위의 노드를 복원한다. 이러한 점은 하나의 질의를 통하여 파생 질의 표현식을 작성할 수 있다는 장점이 있다. 그리고 질의 처리 과정에서는 색인 스키마와 질의 스키마를 이용하여 비트열 사이의 비트 연산을 함으로써 응답시간을 최소화하고 색인 파일의 노드별 레코드의 정보만으로 정확한 결과를 검색할 수 있다.

멀티미디어 프리젠테이션을 위한 데이타베이스 질의어 설계 (Design of a Database Query Language for Multimedia Presentation)

  • 이중화
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권2호
    • /
    • pp.213-225
    • /
    • 2003
  • 멀티미디어 데이타베이스 시스템에서는 멀티미디어 데이타를 질의하고 질의 결과를 어떻게 프리젠테이션 할 것인가에 대한 연구는 매우 중요하다. 또한 질의의 결과를 다양한 응용에서 사용하기 위해서는 보다 일반화된 형태로 질의결과를 제공해야할 필요가 있다. 본 논문에서는 멀티미디어 데이타베이스 시스템에서 질의결과를 프리젠테이션 하기 위한 프리젠테이션 모델과 멀리미디어 프리젠테이션을 지원하는 MMSQL을 제안하고 MMSQL 질의를 처리하기 위한 질의처리기를 설계하고 구현하였다. 또한 질의 결과 프리젠테이션을 보다 일반화된 형태인 SMIL제공하도록 함으로써 질의 결과를 다양한 응용에서 쉽게 사용할 수 있도록 하였다.

통신 가입자 데이터 관리를 위한 MSSQL Server와 NoSQL MongoDB의 성능 비교 (A Comparison of Performance Between MSSQL Server and MongoDB for Telco Subscriber Data Management)

  • ;구흥서
    • 전기학회논문지
    • /
    • 제65권3호
    • /
    • pp.469-476
    • /
    • 2016
  • Relational Database Management Systems have become de facto database model among most developers and users since the inception of Data Science. From IoT devices, sensors, social media and other sources, data is generated in structured, semi-structured and unstructured formats, in huge volumes, thereby the difficulty of data management greatly increases. Organizations that collect large amounts of data are increasingly turning to non relational databases - NoSQL databases. In this paper, through experiments with real field data, we demonstrate that MongoDB, a document-based NoSQL database, is a better alternative for building a Telco Subscriber Data Management System which hitherto is mainly built with Relational Database Management Systems. We compare the existing system in various phases of data flow with our proposed system powered by MongoDB. We show how various workloads at some phases of the existing system were either completely removed or significantly simplified on the new system. Based on experiment results, using MongoDB for managing telco subscriber data turned out to offer performance better than the existing system built with MSSQL Server.

워드문서 콘텐츠의 사용자 XML 콘텐츠로의 변환 및 저장 시스템 개발 (Rule Based Document Conversion and Information Extraction on the Word Document)

  • 주원균;양명석;김태현;이민호;최기석
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.555-559
    • /
    • 2006
  • 본 논문은 HWP, DOC와 같은 워드 문서를 대상으로 사용자가 작성한 구조적인 규칙과 XML 기반 워드 문서 변환 기법을 이용함으로써, 사용자의 관심 영역에 해당하는 다양한 형태(표, 리스트 등)의 정보를 효과적으로 추출(변환)하여 저장하기 위한 방법에 관한 것이다. 본 논문에서 제시한 시스템은 3가지의 중요한 요소들로 구성되어 있는데, 1)워드문서의 원시 XML문서로의 변환방법, 2)XML 기반 구조적인 규칙 작성과 규칙을 이용하여 원시 XML 문서에서 정보를 추출(변환)하는 방법, 3)추출 된 정보에서 최종 XML을 생성하거나 DB에 저장하는 방법이 그것이다. 워드문서의 변환을 위해서 독립적으로 동작하는 OCX 기반의 워드문서 변환 데몬(daemon)을 개발하였고, 사용자의 정보 추출(변환)과정을 돕기 위해서 XSLT를 확장한 형태의 스크립트 언어를 개발하였다. 스크립트 언어는 비교적 간단한 문법 구조를 가지고 있고, 데이터 처리를 위한 자체 정의 함수와 변수를 사용한다. 추출된 정보는 원하는 형태의 구조적인 문서로 생성하거나 DB에 저장할 수 있다. 개발한 시스템(PPE)은 워드 문서 원문 정보에 대한 데이터베이스 구축 및 서비스의 제공, 혹은 구축된 데이터베이스를 이용하여 다양한 처리를 하거나 현황 통계를 제공하는 분야에서 유용하게 사용할 수 있다. 실제로 연구과제관리 시스템과 성과정보시스템에 시범 적용하였다.

  • PDF

분할 시그너춰 화일을 위한 효율적인 디렉토리 관리 기법 (An efficient method for directory management of the partitioned signature file)

  • 김상욱;황환규;최황규;윤용익
    • 전자공학회논문지C
    • /
    • 제35C권3호
    • /
    • pp.32-45
    • /
    • 1998
  • A partitioned signature file is an enhancement of the signature file that divides all the signatures into blocks in such a way that each block contains the signatures with the same key. Its directory storesall the keys as meta information for avoiding unnecessary block accesses by examming them first before the acture searching of the blocks.. Efficient directory management is very important in large databasse environments since ist size gets larger proportionally to that of the database. In this paper, we first point out the problems in the directory management methods of the previous partitioned signature files, and then present a new one solving them. OUr method offers good features in the followint three aspects: (1) suitability for large database environments, (2) adaptability to dynamic situations, and (3) storage overhead for the directory. Moreover, we can seamlessly integrate it as a subcomponent into previously-developed general-purpose storage engines. These features show that our method is applicableto signature-based access structures for the content-based retrieval in various multimedia applications such as hypermedia systems, digital library systems, multimedia document systems, multimedia mailing systems, and so on.

  • PDF