• 제목/요약/키워드: 분산 기계 학습

검색결과 89건 처리시간 0.028초

대용량 악성코드의 특징 추출 가속화를 위한 분산 처리 시스템 설계 및 구현 (Distributed Processing System Design and Implementation for Feature Extraction from Large-Scale Malicious Code)

  • 이현종;어성율;황두성
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권2호
    • /
    • pp.35-40
    • /
    • 2019
  • 기존 악성코드 탐지는 다형성 또는 난독화 기법이 적용된 변종 악성코드 탐지에 취약하다. 기계학습 알고리즘은 악성코드에 내재된 패턴을 학습시켜 유사 행위 탐지가 가능해 기존 탐지 방법을 대체할 수 있다. 시간에 따라 변화하는 악성코드 패턴을 학습시키기 위해 지속적으로 데이터를 수집해야한다. 그러나 대용량 악성코드 파일의 저장 및 처리 과정은 높은 공간과 시간 복잡도가 수반된다. 이 논문에서는 공간 복잡도를 완화하고 처리 시간을 가속화하기 위해 HDFS 기반 분산 처리 시스템을 설계한다. 분산 처리 시스템을 이용해 2-gram 특징과 필터링 기준에 따른 API 특징 2개, APICFG 특징을 추출하고 앙상블 학습 모델의 일반화 성능을 비교했다. 실험 결과로 특징 추출의 시간 복잡도는 컴퓨터 한 대의 처리 시간과 비교했을 때 약 3.75배 속도가 개선되었으며, 공간 복잡도는 약 5배의 효율성을 보였다. 특징 별 분류 성능을 비교했을 때 2-gram 특징이 가장 우수했으나 훈련 데이터 차원이 높아 학습 시간이 오래 소요되었다.

회귀 문제에서 예측값들의 분산을 줄이기 위한 딥뉴럴 네트워크 구조 연구 (A study on the architecture of a deep neural network to reduce the variance of predicted values in a regression problem)

  • 김종환;여도엽
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.11-14
    • /
    • 2022
  • 본 논문에서는 회귀 문제에서 예측값들의 분산을 줄이기 위한 딥뉴럴 네트워크 구조를 제안한다. 일반적인 회귀 문제에서 딥뉴럴 네트워크 학습 시, 하나의 입력에 대한 레이블 값을 이용하여 학습한다. 본 눈문에서는 하나의 입력에 대한 레이블 값뿐만 아니라 두 입력에 대한 레이블 값들의 차이를 학습시키는 딥뉴럴 네트워크 구조를 제안한다. 통계학 이론을 통하여 예측값들의 분산이 줄어든다는 것을 증명한다. 또한, 배관 곡관의 감육두께를 예측하는 문제를 통해 제안된 네트워크의 성능을 검증한다. 일반적인 딥뉴럴 네트워크 구조를 이용하였을 때에 비하여 제안한 네트워크 구조를 이용하였을 때, 회귀 문제의 예측값들의 분산이 감소함을 확인한다.

  • PDF

고성능, 고확장성 빅데이터 분석 플랫폼 (High-performance and Highly Scalable Big Data Analysis Platform)

  • 박경석;유찬희;김유선;엄정호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.535-536
    • /
    • 2021
  • 빅데이터를 활용한 기계학습 모델을 개발하기 위해서는 빅데이터 처리를 위한 플랫폼과 딥러닝 프레임 워크 등 고급 분석을 수행할 수 있는 도구의 활용이 동시에 요구된다. 그러나 빅데이터 플랫폼과 딥러닝 프레임워크를 자유롭게 활용하기 위해서는 상당한 수준의 기술적 지식과 경험이 필요하다. 또한 빅데이터를 이용한 딥러닝 모델을 개발할 경우 분산처리와 병렬처리에 대한 지식과 추가적인 작업이 요구된다. 본 연구에서는 빅데이터를 활용한 기계학습 모형을 자유롭게 개발 및 공유하고 분산 딥러닝을 위한 시스템적 지원을 통해 분야별로 딥러닝 모형을 개발하는 응용 연구자들이 활용할 수 있는 플랫폼을 제시하였다. 본 연구를 통해 다양한 분야의 연구자들이 자신의 데이터를 이용하여 모형을 개발할 경우 분산처리와 병렬처리를 위한 기술적 제약을 극복하고 보다 빠르고 효율적인 방법으로 모형을 개발하고 현업에 활용할 수 있을 것으로 기대한다.

앙상블 학습의 부스팅 방법을 이용한 악의적인 내부자 탐지 기법 (Malicious Insider Detection Using Boosting Ensemble Methods)

  • 박수연
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.267-277
    • /
    • 2022
  • 최근 클라우드 및 원격 근무 환경의 비중이 증가함에 따라 다양한 정보보안 사고들이 발생하고 있다. 조직의 내부자가 원격 접속으로 기밀 자료에 접근하여 유출을 시도하는 사례가 발생하는 등 내부자 위협이 주요 이슈로 떠오르게 되었다. 이에 따라 내부자 위협을 탐지하기 위해 기계학습 기반의 방법들이 제안되고 있다. 하지만, 기존의 내부자 위협을 탐지하는 기계학습 기반의 방법들은 편향 및 분산 문제와 같이 예측 정확도와 관련된 중요한 요소를 고려하지 않았으며 이에 따라 제한된 성능을 보인다는 한계가 있다. 본 논문에서는 편향 및 분산을 고려하는 부스팅 유형의 앙상블 학습 알고리즘들을 사용하여 악의적인 내부자 탐지 성능을 확인하고 이에 대한 면밀한 분석을 수행하며, 데이터셋의 불균형까지도 고려하여 최종 결과를 판단한다. 앙상블 학습을 이용한 실험을 통해 기존의 단일 학습 모델에 기반한 방법에서 나아가, 편향-분산 트레이드오프를 함께 고려하며 유사하거나 보다 높은 정확도를 달성함을 보인다. 실험 결과에 따르면 배깅과 부스팅 방법을 사용한 앙상블 학습은 98% 이상의 정확도를 보였고, 이는 사용된 단일 학습 모델의 평균 정확도와 비교하면 악의적인 내부자 탐지 성능을 5.62% 향상시킨다.

네트워크 트래픽 분석과 기계학습에 의한 DDoS 공격의 탐지 (Detection of DDoS Attacks through Network Traffic Analysis and Machine Learning)

  • 이철호;김은영;오형근;이진석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.1007-1010
    • /
    • 2004
  • 본 논문에서는 분산 서비스거부 공격(DDoS)이 발생할 때 네트워크 트래픽의 특성을 분석하기 위해서 트래픽 비율분석법(TRA: Traffic Rate Analysis)을 제안하고 트래픽 비율분석법을 통해서 분석된 다양한 유형의 DDoS 공격의 특성을 기계학습(Machine Learning)을 이용해서 DDoS 공격의 탐지규칙을 생성하고 그 성능을 측정하였다. 트래픽 비율분석법은 감시대상 네트워크 트래픽에서 특정한 유형의 트래픽의 발생비율을 나타내며 TCP flag rate 와 Protocol rate 로 구분된다. 트래픽 비율분석법을 적용한 결과 각각의 DDoS 공격 유형에 따라서 매우 독특한 특성을 가짐을 발견하였다. 그리고, 분석된 데이터를 대상으로 세 개의 기계학습 방법(C4.5, CN2, Na?ve Bayesian Classifier)을 이용해서 DDoS 공격의 탐지규칙을 생성하여 DDoS 공격의 탐지에 적용했다. 실험결과, 본 논문에서 제안된 트래픽 비율분석법과 기계학습을 통한 DDoS 공격의 탐지방법은 매우 높은 수준의 성능을 나타냈다.

  • PDF

분산 딥러닝 모델 개발을 위한 고수준 분석 플랫폼 (High-level Analytics Platform for Development of Distributed Deep Learning Model)

  • 박경석;유찬희;;엄정호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.804-806
    • /
    • 2020
  • 딥러닝(deep learning)은 기계학습 알고리즘 중 가장 널리 활용되고 있는 알고리즘이다. 딥러닝 기술은 산업, 과학, 국방 및 공공 부문을 비롯하여 거의 모든 분야에서 폭넓게 확산되고 있다. 그러나 기계학습 기술에 대한 이해와 프로그래밍 지식이 부족할 경우 자유롭게 활용하는 데는 제약이 따르고 있으며 빅데이터를 활용하여 일반 이용자들이 직접 분산 학습 모형을 개발하고 배포하는 데 어려움이 발생하고 있다. 이러한 요구를 충족시키기 위해 딥러닝 프레임워크의 저수준 API를 추상화하여 고수준 분석과 분산 딥러닝을 지원하고 일반 이용자들이 실무적으로 복잡한 딥러닝 기술을 활용할 수 있는 기술을 개발하였다. 플랫폼 개발과 함께 중요하게 고려해야 하는 요소 중 하나로 플랫폼의 배포와 확장성 역시 고려되어야 한다. 본 플랫폼은 조직 내 계산 자원을 이용하여 플랫폼을 배포할 수 있으며 상용 클라우드 서비스와 연동하여 배포할 수 있도록 설계됨에 따라 환경의 제약 없이 유연한 서비스 제공이 가능하다.

기술용어 분산표현을 활용한 특허문헌 분류에 관한 연구 (A Study on Patent Literature Classification Using Distributed Representation of Technical Terms)

  • 최윤수;최성필
    • 한국문헌정보학회지
    • /
    • 제53권2호
    • /
    • pp.179-199
    • /
    • 2019
  • 본 연구의 목적은 특허 문헌 분류에 가장 적합한 방법론을 발견하기 위하여 다양한 자질 추출 방법과 기계학습 및 딥러닝 모델을 살펴보고 실험을 통해 최적의 성능을 제공하는 방법론을 분석하는데 있다. 자질 추출 방법으로는 전통적인 BoW 방법과 분산표현 방식인 워드 임베딩 벡터를 비교 실험하고, 문헌 집합 구축 방식으로는 형태소 분석과 멀티그램을 이용하는 방식을 비교 검토하였다. 또한 전통적인 기계학습 모델과 딥러닝 모델을 이용하여 분류 성능을 검증하였다. 실험 결과, 분산표현 방법과 형태소 분석을 이용한 자질추출 방법을 기반으로 딥러닝 모델을 적용하였을 경우에 분류 성능이 가장 우수한 것으로 판명되었으며 섹션, 클래스, 서브클래스 분류 실험에서 전통적인 기계학습 방법에 비해 각각 5.71%, 18.84%, 21.53% 우수한 분류 성능을 보여주었다.

대규모 신경회로망 분산 GPU 기계 학습을 위한 Caffe 확장 (Extending Caffe for Machine Learning of Large Neural Networks Distributed on GPUs)

  • 오종수;이동호
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제7권4호
    • /
    • pp.99-102
    • /
    • 2018
  • Caffe는 학술 연구용으로 널리 사용되는 신경회로망 학습 소프트웨어이다. 신경회로망 구조 결정에서 가장 중요한 요소에 GPU 기억 용량이 포함된다. 예를 들어 많은 객체 검출 소프트웨어는 신경회로망이 12GB 이하의 기억 용량을 사용하게 하여 하나의 GPU에 적합하게 설계되어 있다. 본 논문에서는 큰 신경회로망을 두 개 이상의 GPU에 분산 저장하여 12GB 이상의 기억 용량을 사용할 수 있게 Caffe를 확장하였다. 확장된 소프트웨어를 검증하기 위하여 3개 GPU를 가진 PC에서 최신 객체 검출 소프트웨어의 배치 크기에 따른 학습 효율을 실험하였다.

신뢰도 추정을 위한 분산 학습 신경 회로망 (A Variance Learning Neural Network for Confidence Estimation)

  • 조영빈;권대갑
    • 한국정밀공학회지
    • /
    • 제14권6호
    • /
    • pp.121-127
    • /
    • 1997
  • Multilayer feedforward networks may be applied to identify the deterministic relationship between input and output data. When the results from the network require a high level of assurance, consideration of the stochastic relationship between the input and output data may be very important. Variance is one of the effective parameters to deal with the stochastic relationship. This paper presents a new algroithm for a multilayer feedforward network to learn the variance of dispersed data without preliminary calculation of variance. In this paper, the network with this learning algorithm is named as a variance learning neural network(VALEAN). Computer simulation examples are utilized for the demonstration and the evaluation of VALEAN.

  • PDF