• Title/Summary/Keyword: 데이터 처리량

Search Result 2,586, Processing Time 0.04 seconds

De novo assembly of a large volume of genome using NGS data (NGS 데이터를 이용한 대용량 게놈의 디노버 어셈블리)

  • Won, Jung-Im;Hong, Sang-Kyoon;Kong, Jin-Hwa;Huh, Sun;Yoon, Jee-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06c
    • /
    • pp.25-27
    • /
    • 2012
  • 디노버 어셈블리는 레퍼런스 시퀀스 없이 리드의 염기 서열 정보를 이용하여 원래의 전체 시퀀스(original sequence)로 추정되는 시퀀스로 리드들을 재구성하는 방식이다. 최근의 NGS(Next Generation Sequencing) 기술은 대용량 리드를 훨씬 쉽게 저비용으로 생성할 수 있다는 장점이 있어, 이를 이용한 많은 연구가 이루어지고 있다. 그러나 NGS 리드 데이터를 이용한 디노버 어셈블리에 관한 연구는 국내외적으로 매우 미흡한 실정이다. 그 이유는 NGS 리드 데이터를 이용하여 디노버 어셈블리를 수행하는 경우 대용량 데이터, 복잡한 데이터 구조 및 처리 과정 등으로 인하여 매우 많은 시간과 공간이 소요될 뿐만 아니라 아직까지 다양한 분석 툴과 노하우 등이 충분히 개발되어 있지 않기 때문이다. 본 연구에서는 NGS 리드 데이터를 이용한 어셈블리의 실효성과 정확성을 검증한다. 또한 디노버 어셈블리의 처리 시간 및 공간 오버헤드를 해결하기 위하여 유사 종과의 리드 정렬을 활용하는 방안을 제안한다.

A Method of Constructing Large-Scale Train Set Based on Sentiment Lexicon for Improving the Accuracy of Deep Learning Model (딥러닝 모델의 정확도 향상을 위한 감성사전 기반 대용량 학습데이터 구축 방안)

  • Choi, Min-Seong;Park, Sang-Min;On, Byung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.106-111
    • /
    • 2018
  • 감성분석(Sentiment Analysis)은 텍스트에 나타난 감성을 분석하는 기술로 자연어 처리 분야 중 하나이다. 한국어 텍스트를 감성분석하기 위해 다양한 기계학습 기법이 많이 연구되어 왔으며 최근 딥러닝의 발달로 딥러닝 기법을 이용한 감성분석도 활발해지고 있다. 딥러닝을 이용해 감성분석을 수행할 경우 좋은 성능을 얻기 위해서는 충분한 양의 학습데이터가 필요하다. 하지만 감성분석에 적합한 학습데이터를 얻는 것은 쉽지 않다. 본 논문에서는 이와 같은 문제를 해결하기 위해 기존에 구축되어 있는 감성사전을 활용한 대용량 학습데이터 구축 방안을 제안한다.

  • PDF

Visualization of Volume Dataset using GPU Cluster and Tiled Display (GPU 클러스터 및 타일형 디스플레이를 이용한 볼륨 데이터의 고해상도 가시화)

  • Lee, Joong-Youn
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.11a
    • /
    • pp.1395-1398
    • /
    • 2005
  • 볼륨 렌더링은 3차원이나 그 이상의 차원의 볼륨 데이터에서 의미있는 정보를 추출해 내어 직관적으로 표출하는 가시화 기법을 말하며 의료영상, 기상학, 유체역학 등 다양한 분야에서 널리 사용되고 있다. 한편, 최근 PC 하드웨어의 급격한 발전으로 과거에는 슈퍼컴퓨터에서나 가능했던 대용량 볼륨 데이터의 가시화가 일반 PC 환경에서도 가능하게 되었다. GPU의 꼭지점 및 픽셀 쉐이더의 수치 계산에 최적화된 벡터 연산으로 빠른 볼륨 가시화를 가능하게 한 것이다. 그러나 GPU의 메모리 용량의 한계로 대용량의 볼륨 데이터를 빠르게 가시화하는 것은 지금까지 어려운 문제로 남아있다. 본 논문에서는 GPU의 텍스쳐 메모리 크기보다 큰 볼륨 데이터를 여러 개의 GPU 메모리에 분산시키고 이를 꼭지점 및 픽셀 쉐이더를 이용하여 빠르게 렌더링하여 타일형 디스플레이에서 고해상도로 가시화하는 시스템을 디자인하고 구현하고자 하였다.

  • PDF

The Selective Retransmission in the Simulcast and Scalable Streaming (Simulcast와 스케일러블 전송 방식에서의 선택적인 재전송)

  • Cho, Chang-Sik;Mah, Pyeong-Soo;Kang, Ji-Hoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.45-48
    • /
    • 2002
  • 무선 이동통신환경에서는 시간에 따라 네트워크에 의한 데이터 손실, 일관성 없는 패킷의 도착 간격 등과 같은 문제와 전송 속도의 저하가 발생함으로써 일정한 수준의 QoS 를 제공하기 어렵다. 이러한 문제점에 대처하기 위하여 다중 비트율 코딩, 트랜스코딩 등과 같은 기술이 제안되었다. 그러나 이러한 방식들은 서버의 과도한 연산량 요구나 저장 공간 낭비라는 단점을 가지고 있다. 본 논문에서는 이러한 문제점을 해결하기 위해 다중 비트율 코딩 방식과 스케일러블 코딩 방식을 결합하여 네트워크 QoS 변화에 유연하게 적응될 수 있는 방식을 제시한다. 기존의 심플 혹은 메인 프로파일이 네트워크의 상태가 일정하다는 것을 전제로 하는 반면, 스케일러블 프로파일은 기본 데이터와 부가 데이터를 분리하여 하나의 파일로 관리되므로 서버의 연산량을 줄이고, 저장 공간도 절약한다. 또한 같은 스트림에 대해서도 단말기의 능력에 따라서 부가 데이터를 복호화 할지를 결정할 수 있어 여러 사용자에게 같은 스트림 데이터를 전송할 수 있는 장점이 있다.

  • PDF

De-Duplication Performance Test for Massive Data (대용량 데이터의 중복제거(De-Duplication) 성능 실험)

  • Lee, Choelmin;Kim, Jai-Hoon;Kim, Young Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.271-273
    • /
    • 2012
  • 중복 제거(De-duplication) 여러 데이터를 저장한 스토리지에서 같은 내용을 담고 있는 파일자체나 블록단위의 chunk 등을 찾아 중복된 내용을 제거하여 중복된 부분은 하나의 데이터 단위를 유지함으로써 스토리지 공간을 절약할 수 있다. 본 논문에서는 실험적인 데이터가 아닌 실제 업무 환경에서 적용될만한 대용량의 데이터 백업을 가정한 상황에 대해 중복 제거 기법을 테스트해봄으로써 중복제거율과 성능을 측정하였으며 이를 시각적으로 표현하는 방법을 제안함으로써 평가자 및 사용자가 알아보기 쉽게 하였다.

High-Performance Secret Sharing Scheme based on XOR for Distributed Storage Server in Cloud Computing (클라우드 컴퓨팅의 분산저장서버를 고려한 XOR기반의 고성능 비밀분산 기법)

  • Kim, Su-Hyun;Hong, In-Sik;Lee, Im-Yeong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.556-559
    • /
    • 2013
  • 클라우드 컴퓨팅 환경에서는 사용자의 데이터를 수많은 분산서버를 이용하여 데이터를 암호화하여 저장한다. 구글, 야후 등 글로벌 인터넷 서비스 업체들은 인터넷 서비스 플랫폼의 중요성을 인식하고 자체 연구 개발을 수행, 저가 상용 노드를 기반으로 한 대규모 클러스터 기반의 클라우드 컴퓨팅 플랫폼 기술을 개발 활용하고 있다. 이와 같이 분산 컴퓨팅 환경에서 다양한 데이터 서비스가 가능해지면서 대용량 데이터의 분산관리가 주요 이슈로 떠오르고 있다. 한편, 대용량 데이터의 다양한 이용 형태로부터 악의적인 공격자나 내부 사용자에 의한 보안 취약성 및 프라이버시 침해가 발생할 수 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 XOR기반의 효율적인 분산 저장 및 복구 기법을 제안하였다.

A User Preference-based Cache Management Scheme In a Mobile Broadcasting Environment (모바일 Broadcasting 환경에서 User Preference 기반 캐시 관리 기법)

  • Choi, Young-Hwan;Hwang, Een-Jun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2008.05a
    • /
    • pp.235-238
    • /
    • 2008
  • 최근 모바일 Broadcasting 환경에서의 캐시 관리 기법에 관한 다양한 연구가 활발히 진행되고 있으며 가장 많이 쓰이는 기법으로는 무효화 보고(Invalidation Report) 기법을 들 수 있다. 하지만 무선 기기들의 대용량 지원 및 많은 사용자의 무선 이용으로, 사용자 요청에 대한 지연이나 Multi-Cell 환경과 대용량 갱신 등에 대한 대처 능력의 부족 등이 문제점으로 부각되고 있다. 본 연구는 이런 무효화 보고의 대처 능력을 보완할 뿐 아니라, User Preference를 추가하여 사용자의 QoS를 만족시키는 새로운 시스템을 제안한다. 본 연구는 서버 측에서의 일방적인 브로드캐스팅에 의한 데이터 전송이 아닌, 사용자로부터의 요청에 따른 캐시 데이터 관리 기법을 제안한다. 연구의 주된 효과는 사용자로 하여금 선택적 청취(Selective Listening)을 하게 함으로써 서버와의 교류를 적게 하고, 자주 사용하는 많은 양의 데이터를 한번에 가져와 빠른 시간 내에 데이터를 사용할 수 있게 한다. 또한, 자신이 필요한 데이터에 한에서만 자료 갱신(Update) 여부를 확인하여, 짧은 시간 안에 동적으로 자신의 정보를 확인 할 수 있다.

Adaptive Ultra-Compact Algorithm for Pattern Data based on USN (AUCPD : USN기반 패턴 데이터에 대한 적응적인 압축 알고리즘)

  • Jung, Sung-Min;Joe, In-Whee;Song, Byoun-Ghun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.839-842
    • /
    • 2007
  • 현재 센서 네트워크기반에 다양한 적용으로 인하여 데이터 통신에 량이 많아지고 있다. 기존에 환경 모니터링 등과 같이 조도, 온도, 습도를 다루는 것에서 ECG, EKG, GPS등과 같은 비교적 센서 네트워크 환경에서 대용량 데이터를 다루어지고 있다. 이러한 점은 희박한 자원을 바탕하는 USN환경에서 문제가 된다. 이 문제는 기존 연구 방향에서 데이터를 더 적게 전송하여 더 많은 정보를 주는 것에 포커스가 되었다. 하지만 이는 근본적으로 해결될 수 없다. 본 제안된 알고리즘은 데이터를 효율적으로 압축함으로서 이를 해결하였다.

A framework for time-varying data animation in VR environments (고해상도 디스플레이 환경에서의 시변환 데이터 애니메이션을 위한 프레임워크)

  • Hur, YoungJu;Lee, JoongYeon;Kim, MinAh;Gu, GiBeom;Lee, SeHoon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.05a
    • /
    • pp.379-382
    • /
    • 2013
  • 시변환 데이터(time-varying data)는 과학 시뮬레이션의 결과로 생성되는 데이터의 일종으로, 일반적인 스테디 데이터(steady data)와는 달리 시간에 따른 데이터의 변화를 담고 있다. 따라서 시변환 데이터를 가시화하는 것은 시간에 따른 데이터의 변화를 비교, 분석할 수 있는 방법을 제공해야 한다는 것을 의미한다. 일반적으로 시변환 데이터는 대용량 데이터에 해당되며, 따라서 대부분의 경우에는 일반 PC 환경에서 시변환 데이터에 대한 애니메이션을 수행하는 것이 불가능하다. 본 논문에서는 병렬 렌더링 시스템에서 대용량의 시변환 데이터에 대해 일련의 가시화 작업을 수행 함으로써 데이터의 시간에 따른 변화를 분석할 수 있게 해주는 병렬 애니메이션 프레임워크에 대해 소개한다. 본 논문에서 소개하는 애니메이션 프레임워크는 병렬 렌더링 시스템을 기반으로 시변환 데이터에 대한 애니메이션을 수행하며, 이를 위한 렌더링 동기화 프로세스를 제공한다. 이 환경은 향후 지원 분야, 지원 장비에 따라 다양한 형태로의 확장이 가능하며, 고해상도 디스플레이 환경에서 가상현실을 기반으로 사용자와 상호작용하는 것이 가능하다.

Evaluating the Scalability of Distributed Satellite Data Processing System (위성 데이터 분산 처리 시스템의 확장성 평가)

  • Choi, Yun-Soo;Lee, Min-Ho;Lee, Sang-Hwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2013.07a
    • /
    • pp.395-397
    • /
    • 2013
  • MODIS는 기상, 대기, 해양, 그리고 육상 등의 지구전체에 대한 정보를 산출하기 위한 센서로서, 인공위성에 탑재되어 지구관측 데이터를 생산한다. 최초의 MODIS 위성 데이터는 많은 왜곡을 포함하고 있으므로 지형 및 광휘 보정작업은 분석 작업을 하기 위한 필수적인 전처리 작업이다. 위성 데이터 처리를 위해 개발된 SeaDAS는 단일노드/단일코어상에서 수행되기 적합하게 개발되었기 때문에, 대용량의 위성데이터를 전처리하기 위해 많은 시간을 소비해야 한다. 본 논문은 Sun Grid Engine 기반의 다중노드/다중코어를 이용하는 위성 데이터 분산 처리 방법을 제안하고 성능 및 확장성에 대한 평가를 수행한다.

  • PDF