• 제목/요약/키워드: 데이터 구조 유사도

검색결과 546건 처리시간 0.026초

인간 miRNA 전구체 탐색을 위한 계산학적 방법 (Computational Method for Searching Human miRNA Precursors)

  • Nam, Jin-Wu;Joung, Je-Gun;Lee, Wha-Jin;Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2003년도 제2차 연례학술대회 발표논문집
    • /
    • pp.288-297
    • /
    • 2003
  • 본 논문은 진화 알고리즘(Evolutionary algorithm)의 기법중의 하나인 유전자 프로그래밍(Genetic programming)을 이용하여 miRNA 유전자를 발굴하기 위한 알고리즘을 소개하고 있다 miRNA는 세포내에서 유전자의 전사를 중지시킴으로써 유전자의 발현을 직접적으로 조절하게 되는 작은 RNA 집단 중의 하나이다. 그러므로 miRNA를 유전체 데이터에서 동정해내는 작업은 생물학적으로 상당히 중요하다. 한편 유전체 데이터에서 miRNA를 동정해내는 알고리즘은 생물학적 실험에서의 시간과 비용을 상당히 절감할 수 있으며, 생물학적으로 miRNA를 동정하는 많은 어려움을 덜어주게 된다. 하지만 계산학적으로 miRNA의 동정은 1차 염기서열상의 통계적인 중요도가 부족하여 기존의 유전자 예측 알고리즘을 적용하기에는 어려움이 있다. 따라서 본 연구에서는 miRNA의 염기서열보다는 2차구조에서 더 많은 유사성을 갖는다는 점을 착안하여, 2차구조내에서 공통적인 구조를 찾아내고, 그 정보를 이용하여 miRNA를 동정해내는 방법으로 접근하였다. 이 알고리즘의 성능평가를 위해 우리는 test set을 이용하여 학습된 모델의 특이도(= 34/38)와 민감도(= 38/67)를 계산하였다. 평가결과 본 알고리즘이 기존의 miRNA 예측 프로그램보다 높은 특이도를 갖고 있으며, 유사한 수준의 민감도를 갖고 있음을 보여 주고 있다.

  • PDF

온톨로지 기반의 인식을 위한 데이터 구조 소개 (The Data Structure for Ontology-Based Recognition Process)

  • 박재우;박종희
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2010년도 춘계 종합학술대회 논문집
    • /
    • pp.434-436
    • /
    • 2010
  • 가상 세계는 현실과 유사하게 디자인된 가상 환경과 인간처럼 행동 하도록 설계된 agent들로 구성되어 있다. 이 agent는 입력된 행동들만 수행하는 기존의 시스템과는 달리, 자신의 감각 기관을 통해 지각된 정보를 자신이 가진 knowledge schema와 비교하여 판단한 후, Agent 스스로 행동하는 것이 특징이다. 이 과정에서 새로운 정보를 저장하기도 하고, 기존의 정보를 수정하기도 하며 때로는 실수를 범하기도 한다. 가상 세계에 존재하는 Agent는 지각, 인식, 판단, 행동의 단계를 끊임없이 반복한다. 이 가운데 '지각'의 주된 목적은 Agent의 인식 성공률을 높이는데 있다. 이것을 위해서는 인식에서 비교 가능한 최적의 데이터 형태로 지각의 데이터들을 전달해야한다. 이 연구에서 지각 단계의 데이터 구조는 어떻게 구성되어야하고 또, 어떤 방식으로 인식 단계에 전달되는지에 대해 소개할 것이다.

  • PDF

TypeIII 수소저장용기 가동 중 안전 검사를 위한 음향방출시험 기반 딥러닝 CFRP 소재 결함 분류 (Deep Learning CFRP Failure Classification based on Acoustic Emission Testing for Safety Inspection during TypeIII Hydrogen Vessel Operation)

  • 김다현;황병일;김경영;김동주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.7-10
    • /
    • 2023
  • 최근 기후 변화가 심각해짐에 따라 수소 에너지에 대한 관심이 집중되고 있으며 이를 안전하게 운송/보관할 수 있는 용기에 대한 연구도 활발히 진행되고 있다. 특히 고압 가스를 저장하는 TypeIII 용기의 노후화 및 안전과 관련되어 결함을 인지하는 연구가 활발하다. 그러나 이 용기의 외각층을 이루는 CFRP 소재는 탄소 섬유와 에폭시가 복잡한 구조로 구성되어 결함별 탐지가 매우 어렵다. 본 논문에서는 음향방출시험과 딥러닝을 활용하여 CFRP 결함 데이터셋을 구축하고 이를 분류할 수 있는 모델을 제안한다. 특히 CFRP 시편을 직접 제작하여 AE 센서를 부착하고 파괴하여 파형 데이터를 수집하였다. 이후 표현 학습을 통해 데이터의 특징을 압축/추출하고 유사도를 비교해 결함별 데이터를 판별하는 알고리즘을 개발하였다. 구축된 데이터셋의 실루엣 계수는 0.86으로 높은 군집도를 보였다. 마지막으로 구축된 데이터셋을 실시간으로 분류할 수 있는 1D-CNN 딥러닝 모델을 개발하였으며 99.33%의 높은 분류 정확도를 보였다.

  • PDF

한국학 연구 논문의 텍스트 구조 기반 메타데이터 검색 시스템 개발 연구 (A Study on Developing a Metadata Search System Based on the Text Structure of Korean Studies Research Articles)

  • 송민선;고영만;이승준
    • 정보관리학회지
    • /
    • 제33권3호
    • /
    • pp.155-176
    • /
    • 2016
  • 본 연구는 한국학 연구 논문 텍스트의 의미 구조를 기반으로 하는 메타데이터를 적용한 학술정보시스템을 구축하여 기존 유사 시스템과의 비교를 통해, 텍스트 구조 기반 메타데이터의 활용 가능성을 확인해 보고자 하는 것을 목적으로 한다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)에서 일정 기준을 충족하는 한국학 분야 연구 논문 데이터를 대상으로 의미 구조 메타데이터 항목을 적용한 시범적 검색 시스템(Korean Studies Metadata Database, KMD)을 구축하였으며, 동일한 검색 키워드를 적용하여 기존의 KCI 시스템과 비교했을 때 어떤 특징과 차이점을 갖는지 비교해 보았다. 연구 결과, KMD 시스템이 KCI에 비해 이용자의 검색 의도에 맞는 결과를 보다 효율적으로 보여주는 것으로 확인되었다. 즉 검색하고자 하는 키워드의 조합이나 조건식이 기존 시스템과 동일하더라도 검색 결과를 통해 최종적으로 연구 진행과 관련해 찾고자 하는 연구 목적, 연구의 대상 데이터나 시공간적 배경 등에 따른 검색 결과를 다양하게 보여줄 수 있는 것으로 나타났다.

데이터 중심 저장구조에 기반한 스카이라인 질의 처리 기법 (Skyline Query Processing Method based on Data Centric Storage)

  • 여명호;성동욱;송석일;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.3-7
    • /
    • 2009
  • 센서 네트워크를 위한 데이터 중심 저장구조는 다차원의 범위 질의는 물론 정합질의를 효과적으로 처리하기 위해서 제안되었다. 하나의 센서 네트워크는 범위질의 하나만 처리하거나 스카이라인 질의 하나만을 처리하기 위해서 설치될 수도 있지만 일반적으로 다양한 질의를 같이 처리하기 위해서 사용된다. 따라서, 데이터 중심 저장구조에서 다차원의 범위질의 뿐만 아니라 스카이라인 질의도 효과적으로 처리될 필요가 있다. 기존에 제안된 스카이라인 질의 처리 알고리즘들은 데이터 중심 저장구조의 존재를 고려하지 않고 있다. 일부 대표적인 데이터 중심 저장구조는 유사한 데이터를 지리적으로 인접한 센서노드에 저장하는 특징을 갖는다. 이 논문에서는 이러한 특징을 고려하여 데이터 중심 저장구조에서 보다 효과적으로 동작할 수 있는 스카이라인 질의 처리기법을 제안한다.

  • PDF

멀티미디어 응용을 위한 저전력 데이터 캐쉬 구조 및 마이크로 아키텍쳐 수준 관리기법 (Low-Power Data Cache Architecture and Microarchitecture-level Management Policy for Multimedia Application)

  • 양훈모;김정길;박기호;김신덕
    • 정보처리학회논문지A
    • /
    • 제13A권3호
    • /
    • pp.191-198
    • /
    • 2006
  • 최근 디지털 멀티미디어 응용기기는 휴대 편의성은 물론 하나의 기기에서 다양한 멀티미디어 데이터 처리를 가능하게 하는 기능적 집적이 이루어지고 있다. 이와 같은 추세는 기기가 처리해야 하는 데이터 양의 증가와 이를 수행하기 위하여 요구되는 온칩 메모리의 크기 및 연산 유닛의 고성능화를 요구하여 전력 소비량의 증가를 유발시킨다. 연산 엔진에서 사용되는 대표적인 온칩 메모리인 캐쉬는 전력 사용에 있어서 중요한 비율을 차지하는 구조로 저전력 설계를 위한 구조적 개선의 주요 대상이다. 본 논문에서는 멀티미디어 응용을 수행하는 연산 엔진의 데이터 캐쉬에서 소비되는 전력을 감소시키기 위하여 멀티미디어 응용의 데이터 사용 특성을 파악하여 이 특성을 전력소비를 감소시키는 목적으로 활용 가능한 분할된 캐쉬구조를 제안한다. 그리고 각각의 분할된 캐쉬에 대하여 특정 주소 영역의 데이터 참조를 고정시킴으로써 얻을 수 있는 전력 소비면의 성능 향상을 평가한다. 시뮬레이션 결과 제안하는 캐쉬 구조는 같은 크기의 직접사상 캐쉬, 2중연관 캐쉬, 4중연관 캐쉬에 대해 유사한 성능을 나타내면서, 각각의 기존 캐쉬 구조와 비교하였을 경우 33.2%, 53.3% 및 70.4%만큼 감소된 전력으로 동작 가능하다.

빈발 패턴 네트워크에서 아이템 클러스터링을 통한 연관규칙 발견 (Discovering Association Rules using Item Clustering on Frequent Pattern Network)

  • 오경진;정진국;하인애;조근식
    • 지능정보연구
    • /
    • 제14권1호
    • /
    • pp.1-17
    • /
    • 2008
  • 데이터 마이닝은 대용량의 데이터에 숨겨진 의미있고 유용한 패턴과 상관관계를 추출하여 의사결정에 활용하는 작업이다. 그 중에서도 고객 트랜잭션의 데이터베이스에서 아이템(item) 사이에 존재하는 연관규칙을 찾는 것은 중요한 일이 되었다. Apriori 알고리즘 이후 연관규칙을 찾기 위해 대용량의 데이터베이스로부터 압축된 의미있는 정보를 저장하기 위한 데이터 구조와 알고리즘들이 많이 제안되어 왔다. 연관규칙을 발견하기 위한 기존의 연구들은 모든 규칙을 찾아내지만, 사람이 분석하기에 너무 많은 규칙이 생성되기 때문에 규칙을 분석하기 위한 일 또한 많은 과정을 거쳐야 한다. 본 논문에서는 빈발 패턴 네트워크(Frequent Pattern Network)라 부르는 자료 구조를 제안하고 이를 활용하였다. 네트워크는 정점과 간선으로 구성되며 정점은 아이템을 표현하고, 간선은 두 아이템 집합을 표현한다. 아이템의 빈도수를 이용하여 빈발 패턴 네트워크를 구성하고, 아이템 사이의 유사도를 측정한다. 그리고 클러스터 내의 아이템과는 유사도가 높고, 다른 클러스터의 아이템과는 유사도가 낮도록 클러스터를 생성한다. 클러스터를 이용해 연관규칙을 생성하고 실험을 통해 Apriori와 FP Growth 알고리즘과의 성능을 비교를 하였다. 그 결과 빈발 패턴 네트워크에서 신뢰도 유사도를 이용하는 것이 클러스터의 정확성을 높여줌을 볼 수 있었다. 그리고 전통적인 방법과 비교를 통해 빈발 패턴 네트워크를 이용하는 것이 최소지지도에 유연성을 가짐을 알 수 있었다.

  • PDF

네트워크 분석을 통한 정부 R&D 사업 유사연구영역 분석

  • 정재웅;한유리;강인제;최산;정재연;박현우;전승표
    • 한국기술혁신학회:학술대회논문집
    • /
    • 한국기술혁신학회 2017년도 춘계학술대회 논문집
    • /
    • pp.559-570
    • /
    • 2017
  • 우리나라는 과거부터 현재까지 미래 성장동력 육성을 목표로 정부주도하에 국가 R&D 투자를 점진적으로 늘려왔다. 그 결과, 최근에는 GDP 대비 연구개발비 비중이 세계 최고 수준에 이르렀다. 이렇게 연구개발 예산의 양적인 확대와 함께 연구개발 예산의 효율적 활용은 더욱 중요한 과학기술 분야의 정책적 이슈로 부각되고 있다. 연구개발 예산의 효율적인 집행을 위해서는 R&D 사업의 유사 중복성의 검토가 필수적이지만, 대부분의 유사 중복성 검토는 전문가의 직관적인 판단에 근거하여 이루어져왔다. 하지만, 전문가의 직관에만 의지한 판단은 때로는 불명확하거나 잘못된 결과를 가져올 수도 있다. 따라서, 본 연구에서는 네트워크 분석을 통해 정부 R&D 사업의 유사 중복성을 체계적으로 검토하기 위한 데이터기반의 방법론을 제안하여 전문가의 직관에 의한 유사 중복성 검토를 보완할 수 있는 가능성을 모색하고자 한다. 먼저, 본 연구에서는 정부 R&D사업 유사영역의 전체적인 구조 및 형태와 국가과학기술연구회 소속 25개 정부출연연구기관 R&D사업의 유사영역의 전반적인 형태를 시각화하여 유사영역을 파악하고 직관적인 판단과 선택을 할 수 있는 의사결정 정보를 제공하는데 초점을 두었다. 이를 위해, NTIS의 2015년 데이터를 사용하여 과제 키워드 기반으로 동시단어출현 분석을 수행하였다. 본 분석을 통해 25개 기관의 세부적인 유사연구영역 형태를 제시하였으며, 국내의 과학기술정책적 또는 과학기술학적인 현상들을 시각화하였다. 그 결과, 국내 출연연 R&D사업이 기관별 고유영역이 확고히 보이는 Mode 1적인 형태와 사회경제적인 맥락과 필요 및 유망성을 따르고, 다학제적, 적용중심적이며 과제별로 다양한 과제수행기관들이 과제들을 동시에 수행하는 Mode 2적인 형태가 출연연의 R&D사업 내에 공존하고 있음을 확인하였다.

  • PDF

룰과 구조적 속성에 기반한 XML 엘리먼트 매칭 알고리즘 (XML Element Matching Algorithm based on Structural Properties and Rules)

  • 박형;정찬기
    • 정보화연구
    • /
    • 제10권1호
    • /
    • pp.71-77
    • /
    • 2013
  • XML 스키마 매칭은 두 스키마의 엘리먼트들 간의 의미적인 유사성을 찾는 작업이다. XML 스키마 매칭은 스키마 통합, 데이터 통합, 데이터 웨어하우징, 데이터 변환, P2P 데이터 관리, 시멘틱 웹 등과 같은 응용체계에서 중요한 역할을 한다. 본 논문은 룰과 구조적 속성에 기반한 XML 엘리먼트 매칭 알고리즘을 제안한다. 제안한 알고리즘에서는 먼저 XML 문서의 구조적 속성을 이용하여 엘리먼트들이 unique와 non-unique로 분류되며, 이후 룰에 따라 엘리먼트의 매칭여부를 결정한다. 제안 알고리즘의 효과성을 보이기 위해 인터넷에 공개된 XML 스키마를 이용하여 성능을 평가하였다. 또한 제안 알고리즘은 문서의 구조적 속성을 이용함으로써 사용자 주관성을 배제하고 객관성을 보장하며 특정 유형이 아닌 다양한 형태의 XML에 적용이 가능하다.

GLORY-FS: 대규모 인터넷 서비스를 위한 분산 파일 시스템

  • 김홍연;진기성;차명훈;이상민;이상민;김영철;김영균
    • 정보와 통신
    • /
    • 제30권4호
    • /
    • pp.16-22
    • /
    • 2013
  • 본고에서는 분산 파일 시스템 기술의 현황 및 최근 이슈를 다룬다. 먼저 클라우드 컴퓨팅 및 빅데이터 분석 분야에서 산업체 표준으로 간주되고 있는 Hadoop의 분산 파일 시스템을 위주로 현황과 한계에 대해 다루고, 국내에서 개발된 유사한 구조의 분산 파일시스템인 GLORY-FS를 Hadoop 파일 시스템과 대비하여 국내 활용 사례를 기반으로 유사성 및 차이점을 비교한다.