• 제목/요약/키워드: 대용량자료

검색결과 370건 처리시간 0.028초

전진적 단계 알고리즘을 이용한 대용량 데이터와 순차적 배치 데이터의 분류 (Classification of large-scale data and data batch stream with forward stagewise algorithm)

  • 윤영주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제25권6호
    • /
    • pp.1283-1291
    • /
    • 2014
  • 본 논문에서는 대용량이거나 시간에 따라 순차적으로 들어오는 데이터의 분류를 위한 전진적 단계 알고리즘을 제안한다. Adaboost 알고리즘은 노이즈가 있는 데이터에 대하여 성능이 떨어지는 것으로 알려져 있다. 이를 해결하기 위한 한 가지 방법으로 전진적 단계 선형 회귀 방법을 사용한다. 대용량 데이터나 순차적 배치 데이터의 경우에도 이러한 상황을 극복하기 위해 전진적 단계 알고리즘 방법을 적용한 방법을 제안한다. 모의실험과 실제 자료 분석을 통해 제안된 알고리즘이 좋은 성능을 보임을 알 수 있었다.

대용량 모빌리티 궤적 자료를 이용한 과속 위험노출도 분석 방법론 (Analysis Method for Speeding Risk Exposure using Mobility Trajectory Big Data)

  • 이숭봉;장현호;강태석
    • 한국재난정보학회 논문집
    • /
    • 제17권3호
    • /
    • pp.655-666
    • /
    • 2021
  • 연구목적:본 연구는 대용량 차량궤적 자료를 이용하여 동적 과속 위험성을 측정하기 위한 방법론을 개발하고, 개발된 과속 지표의 적용성을 증명하는데 있다. 연구방법: 개별 차량 궤적을 이용하여 차량의 속도 변화를 미시적 시공간으로 분석하고, 사고 위험성 관점에서 과속의 경계(즉, 경계속도)를 결정하였다. 결정된 경계속도를 이용하여 미시적 시공간 기반 과속 노출도 지표를 개발하였다. 연구결과: 검증 연구는 대용량 차량 GPS 궤적 자료와 실제 교통사고 자료를 이용하여 수행되었다. 분석결과, 개발된 과속 노출도 지표는 고속도로 교통사고에 대해 우수한 설명력 (R2=0.7)을 보였다. 이는 미시적 시공간 차원에서 과속이 분석되어야 함을 직접적으로 의미한다. 결론:차량 속도 상태의 시공간적 변화는 매우 가변적이다. 따라서 본 연구에서 제시된 방법론은 차량 궤적 자료를 이용한 미시적인 공간기반 교통사고 요인 및 사고 위험 노출도 분석에 효과적으로 활용될 수 있을 것으로 판단된다.

Succinct 표현의 효율적인 구현을 통한 압축된 써픽스 배열 생성 (Constructing the Compressed Suffix Array via Efficient Implementation of Succinct Representation)

  • 박치성;조준하;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.955-957
    • /
    • 2005
  • 대용량의 텍스트에 대해 빠른 패턴 검색의 필요성이 증가함에 따라 써픽스 트리, 써픽스 배열 등의 인덱스 자료구조에 대해 다양한 연구들이 진행되었다. 또한 써픽스 배열을 대용량의 인덱스 자료구조로 사용하기 위해 저장 공간을 O(n log n) 비트 이하로 줄이는 문제에 대한 연구들도 많이 수행되었다. 이들 중 Grossi & Vitter 는 써픽스 배열을 압축하여, 기존의 써픽스 배열보다 작은 저장 공간을 사용할 수 있는 알고리즘을 제안하였다. Grossi & Vitter 알고리즘은 압축된 써픽스 배열에서 실제 써픽스 배열의 정보를 찾기 위하여, succinct 표현에서 기본적으로 사용되는 rank와 select 함수를 필요로 한다. 본 논문은 다양한 rank와 select 알고리즘을 각각 사용하는 압축된 써픽스 배열들의 성능 비교를 통해, succinct 표현의 효율적인 구현이 압축된 써픽스 배열의 성능에 미치는 영향을 실험적으로 보인다.

  • PDF

Spark 프레임워크를 적용한 대용량 SHIF 온톨로지 추론 기법 (An Approach of Scalable SHIF Ontology Reasoning using Spark Framework)

  • 김제민;박영택
    • 정보과학회 논문지
    • /
    • 제42권10호
    • /
    • pp.1195-1206
    • /
    • 2015
  • 지식 관리 시스템을 운영하기 위해서는 대량의 지식 정보를 자동으로 추론 및 관리하는 기술이 필요하다. 현재, 이러한 시스템의 대다수는 컴퓨터간의 지식 정보를 자동으로 교환하고 스스로 새로운 지식을 추론하기 위해 온톨로지를 적용하고 있다. 따라서 대용량의 온톨로지를 대상으로 새로운 정보를 추론하는 효율적인 기술이 요구되고 있다. 본 논문은 분산 클러스터의 메모리상에서 MapReduce와 유사한 작업을 수행하는 Spark 프레임워크를 적용하여, SHIF 수준으로 작성된 대용량의 온톨로지를 규칙 기반으로 추론하는 기술에 대해서 제안한다. 이에 본 논문은 다음 3 가지에 초점을 맞추어 설명을 한다. 클러스터내의 분산된 메모리상에서 대용량 추론을 실시하기 위해서, 먼저 각 추론 규칙에 따라 대용량의 온톨로지 트리플을 효과적으로 분류하여 적재하기 위한 자료구조, 두 번째 규칙간의 종속 관계와 상호 연관성에 따른 규칙 실행 순서와 반복 조건 정의, 마지막으로 규칙 실행에 필요한 명령을 정의하고 이러한 명령어를 실행하여 추론을 수행하는 알고리즘에 대해 설명한다. 제안하는 기법의 효율성을 검증하기 위해, 온톨로지 추론과 검색 속도를 평가하는 공식 데이터인 LUBM을 대상으로 실험을 수행하였다. 대표적인 분산클러스터 기반 대용량 온톨로지 추론 엔진인 WebPie와 비교 실험한 결과, LUBM에 대해서 WebPie의 추론 처리량이 553 트리플/초 인데 비해 284배 개선된 157k 트리플/초의 성능 향상이 있었다.

공간데이터마이닝에서의 유전자알고리즘을 이용한 예측방법연구

  • 김효정;강한구;강창완
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2001년도 추계학술발표회 논문집
    • /
    • pp.95-97
    • /
    • 2001
  • 공간자료의 예측문제에 있어 전통적 예측방법인 크리깅방법과 최근 통계적문제 적용되기 시작한 신경망분석방법 간의 비교를 사례연구를 통해 행하였다. 일반적으로 크리깅에 의한 선형예측은 공간자료에 대한 일반적 통계모형으로서 간주되어 왔다. 한편 예측문제에 있어 뉴럴네트워크에 기초한 비모수적 방법이 관심의 대상이 되고 있으며 특히 대용량 자료의 경우 데이터마이닝 기법의 한 분야로 널리 사용되고 있는 실정이다. 본 연구에서는 공간 자료의 예측에 있어 유전자 알고리즘을 신경망분석 모형을 결합하여 기존의 크리깅방법과의 예측력을 비교한다.

  • PDF

건식생산 및 습식생산시스템에 의해 생산된 순환모래의 품질특성에 관한 연구 (A Study on the Quality Properties of Recycled Sand by Produced Dry Manufacturing System and Wet Manufacturing System)

  • 송하영;이상수;이지환;이윤성
    • 한국건설순환자원학회논문집
    • /
    • 제4권2호
    • /
    • pp.74-84
    • /
    • 2009
  • 본 연구에서는 생산방식에 따라 생산된 고품질 순환모래의 기초물성평가를 통한 품질특성을 실험 실증적으로 평가함으로서, 최종 생산된 순환모래에 대한 성능을 평가하고, 목표 품질의 달성과 향후 성능 보완 및 활용의 확대, 고부가가치 창출을 위한 기초자료를 제시하고자 하였으며, 본 연구의 기초물성 실험결과, 직렬식 건식생산시스템과 병렬식, 소용량 습식생산시스템과 대용량을 거쳐 최종 생산된 순환모래인 RS-IV의 경우 절대건조밀도, 0.08mm체 통과량, 점토덩어리량, 유기이물질함유량에서 KS F 2573(순환잔골재) 기준에 만족하였으나, 흡수율에서는 대 소용량 습식생산시스템을 거쳐 최종 생산된 RS-IV만이 KS F 2573 기준치 5% 이하에 만족하였다. 흡수율의 품질 개선율 경우, 직렬식 건식생산시스템(7.13%), 병렬식(19.89%), 소용량 습식생산시스템(27.41%), 대용량(54.56%), 0.08mm체 통과량 경우, 직렬식 건식생산시스템(22.22%), 병렬식(39.92%), 소용량 습식생산시스템(91.89%), 대용량(98.16%), 점토덩어리량 경우, 직렬식 건식생산시스템(50.34%), 병렬식(76.77%), 소용량 습식생산시스템(98.60%), 대용량(99.32%)등으로 직렬식 건식생산시스템에 비하여 병렬식, 소용량 습식생산시스템에 비하여 대용량, 건식생산시스템에 비하여 습식생산시스템의 품질 개선율이 우수한 것으로 나타났다.

  • PDF

플레이스테이션 3 상에서 수행되는 멀티플렛 식별자의 최적화 (Optimisation of multiplet identifier processing on a $PLAYSTATION^{(R)}$ 3)

  • Hattori, Masami;Mizuno, Takashi
    • 지구물리와물리탐사
    • /
    • 제13권1호
    • /
    • pp.109-117
    • /
    • 2010
  • 소니 플레이스테이션3 (PS3) 비디오 게임 콘솔을 이용하여 대용량자료에 고성능 계산을 적용시키기 위하여 개인용컴퓨터 (PC) 의 윈도우 시스템과 PS3로 구성된 하이브리드 시스템을 제작하였다. 이 시스템의 성능을 검증하기 위해 파형모양의 유사도를 이용하여 미세지진의 멀티플렛을 알아내는 실시간 멀티플렛 식별자 (RTMI)를 수행하여보았다. RTMI의 핵심 알고리즘인 상호상관 계산은 PS3 플랫폼에 최적화 되었고 자료의 압출력을 포함하는 다른 계산들은 PC 상에서 수행되었다. 이 경우에 알고리즘의 핵심 부분이 원래의 경우보다 50 배 이상 빨리 수행되어 결과적으로 개발된 시스템은 과거 400개의 신호밖에 처리하지 못하던 것을 총 2100개까지의 미소진통 신호등을 처리 할 수 있게 하였다. 이 결과는 자료전송시간이 계산시간에 비해 무시할 수 있는 한 PS3를 이용한 대용량 자료의 고성능 계산이 가능하다는 것을 잘 보여주고 있다.

소용량 Unit Type 변압기 설치방안과 적절한 보호방식 조사

  • 전영국
    • 전기의세계
    • /
    • 제23권4호
    • /
    • pp.8-12
    • /
    • 1974
  • 전기수요의 증가현상과 도시의 인구집중으로 인한 주택의 밀집화, 건물의 고층화, 전화가정의 증가등의 세력으로 보아 머지않은 장래에는 현재와 같은 소용량 변압기에 의한 배전방식으로는 이들 수요를 감당하기가 어렵게 될 것이 예상된다. 또한 도심지 주택 밀집지역 및 상가지대는 도로의 협소, 통행인의 과밀, 건주의 불가능 등으로 대용량 변압소의 건설은 용이한 일이 아니며, 도시의 미화, 대지의 효용가치의 증대를 도모하고 장차 수요증가에 원할한 전력공급을 기하기 위하여는 2차 Network계통의 소용량 Unit Type변압기를 지하등 적당한 장소에 설치하는 방안을 강구하여 실현해야 될 것이다. 여기서는 외국의 문헌과 외국에 의뢰하여 모집한 각종 자료를 기초로하여 그 설치 방안을 조사 연구하였다.

  • PDF

분산된 데이터의 최적화를 통한 3차원 특성점 검출 알고리듬 (3-D Vertex Detection Algorithm for Optimization of Scattered Data)

  • 문성환;조임현;강훈
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1998년도 춘계학술대회 학술발표 논문집
    • /
    • pp.139-142
    • /
    • 1998
  • 3차원 공간의 자료는 그 자료의 크기, 처리속도 잡음 및 측정 오차 등의 불규칙성 등의 한계를 가지고 있다. 최근 인터넷과 같은 통신 속도의 증가와 함께 대용량의 자료 교환이 가능하계 되면서 3차원 정보에 대한 연구는 매우 중요한 문제로 대두되고 있는 실정이다. 본 논문에서는 3차원 물체를 표현해 줄 수 있는 특성점(vertex)를 찾는 알고리듬을 제시함으로써 자료의 양을 줄일 수 있는 방법을 제시하고 있다.

  • PDF

은행과 저축은행 관련 재정 지표 분석: 생물 정보학 분석 기법의 응용 (Analyzing Financial Data from Banks and Savings Banks: Application of Bioinformatical Methods)

  • 박노진
    • 응용통계연구
    • /
    • 제27권4호
    • /
    • pp.577-588
    • /
    • 2014
  • 자료의 수집과 저장이 수월해 지면서 대용량의 자료들이 존재하고 특히 개체 보다 변수가 더 많은 자료들이 생산되고 있다. 변수들이 증가하면서 다중공선성 같은 문제들이 발생하여 분석의 어려움에 봉착하게 된다. 이러한 문제를 해결하는 방법들이 많이 연구되었지만 다소간의 정보의 손실을 감내하고 연속형 자료를 범주형 자료로 변환하면 나름 유용한 분석이 가능하다고 본다. 대용량 범주형 자료의 대표적인 사례로 유전자 염기 서열 자료가 있고 이를 분석하기 위한 많은 기술들이 발달되어 있다. 본 논문에서는 국내 은행들이 생산해 낸 다양한 지표들을 분석하기 위해 유전자 염기 서열 분석 기법을 적용하여 분석하였고 나름 유용한 정보를 얻을 수 있음을 보였다. 본 논문에서 사용한 자료는 11개의 은행과 5개의 저축은행과 관련된 78개 재정 지표를 갖는 자료로서 심각한 다중 공선성이 존재하여 자료를 범주화하고 분석한 결과 몇 가지 유용한 결과를 도출하였다.