• Title/Summary/Keyword: 데이터 구조 유사도

Search Result 548, Processing Time 0.031 seconds

A Study on Gene Algorithm Application for Efficient Clustring of Data Mining (데이터 마이닝의 능률적인 군집화를 위한 유전자 알고리즘 적용에 관한 연구)

  • Choi, Ho-Jin;Hong, Sung-Pye
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.41-44
    • /
    • 2009
  • 데이터 마이닝의 대표적인 기법인 군집화는 군집내의 유사성을 최대화하고, 군집들간의 유사성을 최소화 시키도록 데이터의 집합을 분할하는 것이다. 대용량의 데이터베이스에서 최적의 효율화를 내기 위해서는 원시데이터에 대한 접근 횟수를 줄이고, 이것을 알고리즘 적용 대상이 데이터 구조의 크기를 줄이는 군집화 기법에 많은 관심이 보이고 있다. 본 논문에서는 유전자 알고리즘을 이용하여 자동으로 군집의 개수를 결정하는 군집화 알고리즘을 제안하는 적합도 함수는 보다 양질의 군집을 찾아내는 것으로 평가 되었다. 또한 유전자 알고리즘 중 8가지를 세부 분석하여 평가하였다.

  • PDF

An Implementation of XML document searching system based on Structure and Semantics Similarity (구조와 내용 유사도에 기반한 XML 웹 문서 검색시스템 구축)

  • Park Uchang;Seo Yeojin
    • Journal of Internet Computing and Services
    • /
    • v.6 no.2
    • /
    • pp.99-115
    • /
    • 2005
  • Extensible Markup Language (XML) is an Internet standard that is used to express and convert data, In order to find the necessary information out of XML documents, you need a search system for XML documents, In this research, we have developed a search system that can find documents that matches the structure and content of a given XML document, making the best use of XML structure, Search metrics take account of the similarity in tag names, tag values, and the structure of tags, After a search, the system displays the ranked results in the order of aggregate similarity, Three methods of query are provided: keyword search which is conventional; search with tag names and their values; and search with XML documents, These three methods enable users to choose the method that best suits their preference, resulting in the increase of the usefulness of the system.

  • PDF

Calculation of Relation between Secondary Structures for Protein Structure Comparison (단백질 구조 비교를 위한 이차구조의 상관관계 계산)

  • 조민수;안건태;이명준;이수현
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.890-892
    • /
    • 2003
  • 단백질 구조의 표현 방법을 정형화하고 호환성 및 상호작용성을 향상하기 위하여 단백질의 이차구조 구성요소와 그들 사이의 관계를 이용하여 단백질 구조를 기술하는 PSA가 제안되었다. 본 논문에서는 PSA에서 정의된 단백질의 이차구조 사이에 정의된 요소 중에서 네 가지의 각도관계와 다섯 가지의 거리관계를 계산하는 방법에 대하여 기술하였으며, 이를 자바로 구현하여 그 결과를 확인하였다. 본 논문에서 제안한 방법은 단백질의 이차구조 사이의 상관관계를 포함하는 PSAML 데이터로부터 단백질의 구조 및 유사성을 비교하기 위한 단백질 구조비교 시스템에서 사용할 수 있다.

  • PDF

Performance Analysis of High-Dimensional Index Structure for Vector Data in Content-Based Video Retrieval (동영상 내용기반 검색을 위한 고차원 벡터 데이터 색인 구조의 성능 분석)

  • Lee, Hyun-jo;Chang, Jae-woo;Park, Soon-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.211-214
    • /
    • 2007
  • 최근 멀티미디어 데이터, 특히 UCC를 중심으로 동영상 데이터가 급증하고 있다. 그러나 현재 대부분의 검색 시스템은 키워드 기반의 동영상 데이터 검색만을 지원하고 있으며, 따라서 사용자가 원하는 동영상 데이터를 효율적으로 검색하지 못하는 실정이다. 동영상 데이터에 대한 효율적인 검색을 지원하기 위해서는, 동영상의 내용(이미지, 색, 모양 등)을 고차원의 특징 벡터 데이터로 표현하여 유사한 동영상을 검색하는 내용-기반 검색이 요구된다. 본 논문에서는 내용-기반 검색을 위해 제안된 기존의 고차원 벡터 데이터 색인 구조를 실험을 통하여 성능을 비교하며, 이를 통해 동영상 내용-기반 검색에 가장 효율적인 색인 기법을 제시한다. 아울러 보다 효율적인 내용-기반 검색을 위한, 근사 k-NN 질의 탐색 기법의 유용성을 검증한다.

Analyzing data-related policy programs in Korea using text mining and network cluster analysis (텍스트 마이닝과 네트워크 군집 분석을 활용한 한국의 데이터 관련 정책사업 분석)

  • Sungjun Choi;Kiyoon Shin;Yoonhwan Oh
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.28 no.6
    • /
    • pp.63-81
    • /
    • 2023
  • This study endeavors to classify and categorize similar policy programs through network clustering analysis, using textual information from data-related policy programs in Korea. To achieve this, descriptions of data-related budgetary programs in South Korea in 2022 were collected, and keywords from the program contents were extracted. Subsequently, the similarity between each program was derived using TF-IDF, and policy program network was constructed accordingly. Following this, the structural characteristics of the network were analyzed, and similar policy programs were clustered and categorized through network clustering. Upon analyzing a total of 97 programs, 7 major clusters were identified, signifying that programs with analogous themes or objectives were categorized based on application area or services utilizing data. The findings of this research illuminate the current status of data-related policy programs in Korea, providing policy implications for a strategic approach to planning future national data strategies and programs, and contributing to the establishment of evidence-based policies.

Reconsideration of Research Framework for RRM in the Perspective of Linked Open Data (차세대 학술연구 데이터 공유 활성화를 위한 연구기록의 구조적 요건에 대한 연구)

  • Yoo, Sarah
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.53 no.3
    • /
    • pp.101-120
    • /
    • 2019
  • The cognition of Research Record Management (RRM) scholars about research framework is important as a pre-condition for future Linked Open Data (LOD). Researchers will be directly engaged to the research data-process with Cloud Computing Data-Infra, which is considered as a Nation-wide R&D Data Projects. The purpose of this paper is to diagnose researcher's cognition of research framework and to provide some guidance of finding a new meaning of the structural requirements of resarch record.

The Study of Class Library Design for Reusable Object-Oriented Software (객체지향 소프트웨어 재사용을 위한 클래스 라이브러리 설계에 관한 연구)

  • Lee, Hae-Won;Kim, Jin-Seok;Kim, Hye-Gyu;Ha, Su-Cheol
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.9
    • /
    • pp.2350-2364
    • /
    • 1999
  • In this paper, we propose a method of class library repository design for provide reuser the object-oriented C++ class component. To class library design, we started by studying the characteristics of a reusable component. We formally defined the reusable component model using an entity relationship model. This formal definition has been directly used as the database schema for storing the reusable component in a repository. The reusable class library may be considered a knowledge base for software reuse. Thus, we used that Enumerative classification of breakdown of knowledge based. And another used classification is clustering of based on class similarity. The class similarity composes member function similarity and member data similarity. Finally, we have designed class library for hierarchical inheritance mechanism of object-oriented concept Generalization, Specialization and Aggregation.

  • PDF

The Study on Improvement of Broadcast Metadata about Clip Video at Broadcast Content Managements (방송용콘텐츠관리에서 분절형동영상에 대한 메타데이터 개선연구)

  • Cho, Young-Joon
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.06a
    • /
    • pp.59-63
    • /
    • 2014
  • 최근 미디어 간 컨버전스가 가속화되면서 그 사이를 흐르는 콘텐츠 유형이 방송과 인터넷 양쪽을 충족시키고 또한 모바일 환경에 최적화된 서비스를 위해 클립화 되어 가고 있다. 다수의 미디어 콘텐츠를 공급하는 방송사의 입장에서는 콘텐츠서비스를 위한 콘텐츠 관리방안이 중요한 이슈가 되고 있으며 ID, 메타데이터 등 관리를 위한 체계를 잡는 것의 중요성도 증대되고 있으며 또한 분절된 동영상을 어떻게 만들고 어떻게 서비스 할것인가도 중요한 이슈이다. 이번연구는 대표적인 방송용 콘텐츠 메타데이터 표준인 EBU Core, PB Core와 우리나라 KBS 메타데이터의 분절형동영상 관련하여 메타데이터 구조를 파악하고 어떻게 구성되어 있는지 비교분석하여 보았다. 분석결과 메타데이터가 근간을 이루는 기본구조는 거의 유사하였고 각각 관점의 차이에 따라 추가되는 항목이 존재함을 발견할 수 있었다. 그리고 최근 미디어 환경변화에 따라 분절형동영상을 표현하는 메타데이터 항목에 대한 개선방향을 몇가지 제안하였다.

  • PDF

신약설계를 위한 화합물 DB-chemical Database for Drug Design-

  • Lee, Seong-Gwang;No, Gyeong-Tae
    • Journal of Scientific & Technological Knowledge Infrastructure
    • /
    • s.5
    • /
    • pp.41-50
    • /
    • 2001
  • 화학구조 D B는 그 목적에 다양하게 분류될 수 있는데, 유사한 약효를 검색하기 위한 유사도 검색(similarity search) DB와 유기합성을 위한 reaction DB, 실험이나 계산으로 얻은 물성을 모은 property DB, 생물학적 검증 데이터를 모은 activity DB등이 있다. 이러한 화학 D B는 신약을 설계하는 입장에서 볼 때, 앞에서 말한 다양한 D B로서의 목적을 모두 충족시킬 수 있는 유기적인 설계가 바람직하다.

  • PDF

Appraisal Method for Similarity of Large File Transfer Software (대용량 파일 전송 소프트웨어의 동일성 감정 방법)

  • Chun, Byung-Tae
    • Journal of Software Assessment and Valuation
    • /
    • v.17 no.1
    • /
    • pp.11-16
    • /
    • 2021
  • The importance of software is increasing due to the development of information and communication, and software copyright disputes are also increasing. In this paper, the source of the submitted programs and the files necessary for the execution of the program were taken as the scope of analysis. The large-capacity file transfer solution program to be analyzed provides additional functions such as confidentiality, integrity, user authentication, and non-repudiation functions through digital signature and encryption of data.In this paper, we analyze the program A, program B, and the program C. In order to calculate the program similarity rate, the following contents are analyzed. Analyze the similarity of the package structure, package name, source file name in each package, variable name in source file, function name, function implementation source code, and product environment variable information. It also calculates the overall similarity rate of the program. In order to check the degree of agreement between the package structure and the package name, the similarity was determined by comparing the folder structure. It also analyzes the extent to which the package structure and package name match and the extent to which the source file (class) name within each package matches.