• 제목/요약/키워드: 지도학습 오토인코더

검색결과 14건 처리시간 0.021초

비지도 학습 기반의 임베딩과 오토인코더를 사용한 침입 탐지 방법 (Intrusion Detection Method Using Unsupervised Learning-Based Embedding and Autoencoder)

  • 이준우;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.355-364
    • /
    • 2023
  • 최근 지능화된 사이버 위협이 지속적으로 증가함에 따라 기존의 패턴 혹은 시그니처 기반의 침입 탐지 방식은 새로운 유형의 사이버 공격을 탐지하는데 어려움이 있다. 따라서 데이터 학습 기반 인공지능 기술을 적용한 이상 징후 탐지 방법에 관한 연구가 증가하고 있다. 또한 지도학습 기반 이상 탐지 방식은 학습을 위해 레이블 된 이용 가능한 충분한 데이터를 필요로 하기 때문에 실제 환경에서 사용하기에는 어려움이 있다. 최근에는 정상 데이터로 학습하고 데이터 자체에서 패턴을 찾아 이상 징후를 탐지하는 비지도 학습 기반의 방법에 대한 연구가 활발히 진행되고 있다. 그러므로 본 연구는 시퀀스 로그 데이터로부터 유용한 시퀀스 정보를 보존하는 잠재 벡터(Latent Vector)를 추출하고, 추출된 잠재 벡터를 사용하여 이상 탐지 학습 모델을 개발하는데 있다. 각 시퀀스의 특성들에 대응하는 밀집 벡터 표현을 생성하기 위하여 Word2Vec을 사용하였으며, 밀집 벡터로 표현된 시퀀스 데이터로부터 잠재 벡터를 추출하기 위하여 비지도 방식의 오토인코더(Autoencoder)를 사용하였다. 개발된 오토인코더 모델은 시퀀스 데이터에 적합한 순환신경망 GRU(Gated Recurrent Unit) 기반의 잡음 제거 오토인코더, GRU 네트워크의 제한적인 단기 기억문제를 해결하기 위한 1차원 합성곱 신경망 기반의 오토인코더 및 GRU와 1차원 합성곱을 결합한 오토인코더를 사용하였다. 실험에 사용된 데이터는 시계열 기반의 NGIDS(Next Generation IDS Dataset) 데이터이며, 실험 결과 GRU 기반의 오토인코더나, 1차원 합성곱 기반의 오토인코더를 사용한 모델보다 GRU와 1차원 합성곱을 결합한 오토인코더가 훈련 데이터로부터 유용한 잠재 패턴을 추출하기 위한 학습 시간적 측면에서 효율적이었고 이상 탐지 성능 변동의 폭이 더 작은 안정된 성능을 보였다.

인공신경망 알고리즘을 통한 사물인터넷 위협 탐지 기술 연구

  • 오성택;고웅;김미주;이재혁;김홍근;박순태
    • 정보보호학회지
    • /
    • 제29권6호
    • /
    • pp.59-66
    • /
    • 2019
  • 사물인터넷 환경은 무수히 많은 이기종의 기기가 연결되는 초연결 네트워크 구성을 갖는 특성이 있다. 본 논문에서는 이러한 특성을 갖는 사물인터넷 환경에 적합한 보안 기술로 네트워크를 통해 침입하는 위협의 효율적인 탐지 기술을 제안한다. 사물인터넷 환경에서의 대표적인 위협 행위를 분석하고 관련하여 공격 데이터를 수집하고 이를 토대로 특성 연구를 진행하였다. 이를 기반으로 인공신경망 기반의 오토인코더 알고리즘을 활용하여 심층학습 탐지 모델을 구축하였다. 본 논문에서 제안하는 탐지 모델은 비지도 학습 방식의 오토인코더를 지도학습 기반의 분류기로 확장하여 사물인터넷 환경에서의 대표적인 위협 유형을 식별할 수 있었다. 본 논문은 1. 서론을 통해 현재 사물인터넷 환경과 보안 기술 연구 동향을 소개하고 2. 관련연구를 통하여 머신러닝 기술과 위협 탐지 기술에 대해 소개한다. 3. 제안기술에서는 본 논문에서 제안하는 인공신경망 알고리즘 기반의 사물인터넷 위협 탐지 기술에 대해 설명하고, 4. 향후연구계획을 통해 추후 활용 방안 및 고도화에 대한 내용을 작성하였다. 마지막으로 5. 결론을 통하여 제안기술의 평가와 소회에 대해 설명하였다.

지도학습 오토인코더를 이용한 전문어의 범용어 공간 매핑 방법론 (Domain-Specific Terminology Mapping Methodology Using Supervised Autoencoders)

  • 윤병호;김준우;김남규
    • 경영정보학연구
    • /
    • 제25권1호
    • /
    • pp.93-110
    • /
    • 2023
  • 최근 비정형 자료인 텍스트를 벡터로 변환하고 이를 통해 다양한 목적으로 방대한 양의 자연어를 분석하는 시도가 이루어지고 있다. 특히 코퍼스 규모가 제한적일 수밖에 없는 전문적인 도메인의 텍스트에 대해서도 분석 수요가 급증하면서, 해당 전문 분야의 문서를 범용 문서와 함께 분석하기 위한 연구가 활발하게 이루어지고 있다. 특정 전문어를 해당 전문어 코퍼스 외부의 일반적인 범용어와 함께 분석하기 위해서는, 전문어 임베딩 공간을 범용어 임베딩 공간과 일치시키는 것이 필요하다. 기존에는 변환 행렬 또는 매핑 함수 등을 통해 전문어 코퍼스로부터 얻은 전문어 임베딩 값을 범용어 임베딩 공간으로 변환, 일치시키려는 시도가 있었지만, 변환 행렬을 기반으로 하는 선형 변환은 국지적인 범위에서만 근사적인 변환 효과가 있다는 일반적인 선형 변환의 한계를 극복하지 못했다. 이러한 선형 변환의 한계를 극복하기 위해 최근에는 다양한 형태의 비선형적인 변환 방법이 제안되고 있으며, 본 연구에서는 오토인코더(Autoencoder)와 회귀 모델을 동시에 학습하는 종단형 학습을 통해 전문어 임베딩 공간을 범용어 임베딩 공간으로 변환하여 임베딩 공간을 일치시키는 모델을 제안한다. 실제 "보건의료" 분야의 R&D 문서에 대해 임베딩 변환 실험을 진행한 결과, 제안 방법론이 기존의 오토인코더를 활용한 방법 대비 변환 정확도 측면에서 우수한 성능을 보임을 확인하였다.

해양 이상 자료 탐지를 위한 오토인코더 활용 기법 최적화 연구 (An Outlier Detection Using Autoencoder for Ocean Observation Data)

  • 김현재;김동훈;임채욱;신용탁;이상철;최영진;우승범
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.265-274
    • /
    • 2021
  • 해양 이상 자료 탐지의 연구는 이전부터 활발하게 이루어지고 있으며, 통계 및 거리 기반의 기계 학습 알고리즘을 활용하는 기법들이 개발되었다. 최근에는 AI 기반의 해양 자료 이상 탐지 기법이 많은 관심을 받고 있으며, AI를 활용한 해양 이상 자료 탐지 기법은 정답이 주어지는 지도학습 기법이 주를 이루고 있다. 이러한 방법은 학습에 필요한 모든 자료에 수작업으로 분류 정보(라벨)를 지정해야 한다는 점에서 많은 시간과 비용이 요구된다. 본 연구에서는 이러한 문제를 극복하기 위해 비지도학습 기반의 오토인코더를 이상 자료 탐지 기법에 사용하였다. 실험으로는 오토인코더의 평가를 위해 단변수·다변수학습 두가지 실험을 구성하였고, 단변수 학습은 기상청에서 제공하는 덕적도 부이 정점 관측 자료 중 수온만 사용하였으며, 다변수 학습은 수온과 기온, 풍향, 풍속, 기압, 습도 등을 사용하였다. 사용기간은 1996~2020년의 25년간이며 학습 자료에 해양-기상 자료의 특성을 고려한 전처리 기법을 적용하였다. 학습된 다변수와 단변수 오토인코더를 활용하여 실제 표층 수온에 대한 이상 탐지를 시도하였다. 모델성능 비교를 위해 오차를 삽입한 합성 자료에 다변수와 단변수 오토인코더를 포함한 여러 이상 탐지 기법을 적용하여 정량적으로 평가하였으며, 다변수/단변수의 정확도가 각각 약 96%/91%로써 다변수 오토인코더가 더 나은 이상자료 탐지 성능을 보였다. 오토인코더를 이용한 비지도학습 기반 이상 탐지 기법은 주관적 판단에 의한 오류와 자료 라벨링에 필요한 시간과 비용을 줄일 수 있다는 점에서 다양하게 활용될 것으로 판단된다.

이상 전력 탐지를 위한 TCN-USAD (TCN-USAD for Anomaly Power Detection)

  • 진현석;김경백
    • 스마트미디어저널
    • /
    • 제13권7호
    • /
    • pp.9-17
    • /
    • 2024
  • 에너지 사용량의 증가와 친환경 정책으로 인해 건물 에너지를 효율적으로 소비할 필요가 있으며, 이를 위해 딥러닝 기반 이상 전력 탐지가 수행되고 있다. 수집이 어려운 이상치 데이터의 특징으로 인해 Recurrent Neural Network(RNN) 기반 오토인코더를 활용한 복원 에러 기반으로 이상 탐지가 수행되고 있으나, 시계열 특징을 온전히 학습하는데 시간이 오래 걸리고 학습 데이터의 노이즈에 민감하다는 단점이 있다. 본 논문에서는 이러한 한계를 극복하기 위해 Temporal Convolutional Network(TCN)과 UnSupervised Anomaly Detection for multivariate time series(USAD)를 결합한 TCN-USAD를 제안한다. 제안된 모델은 TCN 기반 오토인코더와 두 개의 디코더와 적대적 학습을 사용하는 USAD 구조를 활용하여 빠르게 시계열 특징을 온전히 학습할 수 있고 강건한 이상 탐지가 가능하다. TCN-USAD의 성능을 입증하기 위해 2개의 건물 전력 사용량 데이터 세트를 사용하여 비교 실험을 수행한 결과, TCN 기반 오토인코더는 RNN 기반 오토 인코더 대비 빠르고 복원 성능이 우수하였으며, 이를 활용한 TCN-USAD는 다른 이상 탐지 모델 대비 약 20% 개선된 F1-Score를 달성하여 뛰어난 이상 탐지 성능을 보였다.

오토 인코더 기반의 단일 클래스 이상 탐지 모델을 통한 네트워크 침입 탐지 (Network Intrusion Detection with One Class Anomaly Detection Model based on Auto Encoder.)

  • 민병준;유지훈;김상수;신동일;신동규
    • 인터넷정보학회논문지
    • /
    • 제22권1호
    • /
    • pp.13-22
    • /
    • 2021
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 지능형 지속 위협(Adavanced Persistent Threat; APT)과 같은 새로운 공격에 대해서 시그니처 패턴은 일반화 성능이 떨어지는 문제가 존재한다. 이러한 문제를 해결하기 위해 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 실제 네트워크 환경에서 공격 샘플은 정상 샘플에 비해서 매우 적게 수집되어 클래스 불균형(Class Imbalance) 문제를 겪게 된다. 이러한 데이터로 지도 학습 기반의 이상 탐지 모델을 학습시킬 경우 정상 샘플에 편향된 결과를 가지게 된다. 본 논문에서는 이러한 불균형 문제를 해결하기 위해서 오토 인코더(Auto Encoder; AE)를 활용해 One-Class Anomaly Detection 을 수행하여 이를 극복한다. 실험은 NSL-KDD 데이터 셋을 통해 진행되었으며, 제안한 방법의 성능 평가를 위해 지도 학습된 모델들과 성능을 비교한다.

오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론 (Methodology for Classifying Hierarchical Data Using Autoencoder-based Deeply Supervised Network)

  • 김윤하;김남규
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.185-207
    • /
    • 2022
  • 최근 딥 러닝 기술의 발전으로 인해, 텍스트, 이미지 등 비정형 데이터 분석에 딥 러닝 알고리즘을 적용하는 연구가 활발히 수행되고 있다. 그중 텍스트 분류는 학계 및 업계에서 오랜 기간 연구되어 온 분야로, 분류의 성능을 향상시키기 위해 계층형 레이블 등 데이터 자체의 특성을 활용하기 위한 다양한 시도가 이루어지고 있다. 하지만 계층적 분류를 위해 주로 사용되는 하향식 접근법은 상위 레벨의 오분류가 하위 레벨의 정분류 기회를 차단한다는 한계가 있다. 따라서, 본 연구에서는 레이블의 계층적인 관계를 고려하면서도 상위 레벨의 분류가 하위 레벨의 분류를 차단하지 않도록 하여 분류 성능을 향상시키기 위해, 오토인코더 기반 심층 지도 네트워크를 활용한 계층형 데이터 분류 방법론을 제안한다. 제안 방법론은 오토인코더의 잠재변수에 하위 레이블을 예측하는 주 분류기를 추가하고, 인코더의 은닉층에 상위 레벨의 레이블 예측하는 보조 분류기를 추가하여 End-to-End 학습을 진행한다. 제안 방법론의 성능을 평가하기 위하여 국내 논문 데이터 총 22,512건에 대한 실험을 수행한 결과, 제안 모델이 기존의 지도 오토인코더 및 DNN 모델에 비해 분류 정확도와 F1-Score에서 우수한 성능을 나타냄을 확인하였다.

치매 환자를 위한 딥러닝 기반 이상 행동 탐지 시스템 (Deep Learning-based Abnormal Behavior Detection System for Dementia Patients)

  • 김국진;이승진;김성중;김재근;신동일;신동규
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.133-144
    • /
    • 2020
  • 고령화로 인해 증가하는 노인 비율만큼이나 치매를 앓는 노인 수 또한 빠르게 늘고 있는데 이는 사회적, 경제적 부담을 발생시킨다. 특히, 간병인의 근무 시간 손실 및 간호 부담으로 인한 의료 비용 증가와 같은 간접비용을 포함하는 치매 관리 비용은 수년에 걸쳐 기하급수적으로 증가하고 있다. 이러한 비용을 줄이기 위해 치매 환자를 돌보기 위한 관리 시스템 도입이 시급하다. 따라서 본 연구는 항상 치매 환자를 돌볼 수 없는 환경이나 독거노인을 관리하기 위한 센서 기반 이상 행동 탐지 시스템을 제안한다. 기존 연구들은 단지 행동을 인지하거나 정상 행동 여부를 평가하는 정도였고 센서로부터 받은 데이터가 아닌 이미지를 처리하여 행동을 인지한 연구도 있었다. 본 연구에서는 실데이터 수집에 한계가 있음을 인지하여 비지도 학습 모델인 오토인코더와 지도 학습 모델인 장·단기 기억 모형을 동시에 사용했다. 비지도 학습 모델인 오토인코더는 정상 행동 데이터를 학습하여 정상적인 행동에 대한 패턴을 학습시켰고 장·단기 기억 모형은 센서로 인지 가능한 행동을 학습시켜 분류를 좀 더 세분화했다. 테스트 결과 각각의 모델은 약 96%, 98% 이상의 정확도를 도출하였고 오토인코더의 이상치가 3% 이상을 갖는 경우 장·단기 기억 모형을 통과하도록 설계했다. 이 시스템을 통해 혼자 사는 노인이나 치매 환자를 효율적으로 관리할 수 있으며 돌보기 위한 비용 또한 절감할 수 있을 것으로 전망된다.

자기 지도 학습 기반의 언어 모델을 활용한 다출처 정보 통합 프레임워크 (Multi-source information integration framework using self-supervised learning-based language model)

  • 김한민;이정빈;박규동;손미애
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.141-150
    • /
    • 2021
  • 인공지능(Artificial Intelligence) 기술을 활용하여 인공지능 기반의 전쟁 (AI-enabled warfare)가 미래전의 핵심이 될 것으로 예상한다. 자연어 처리 기술은 이러한 AI 기술의 핵심 기술로 지휘관 및 참모들이 자연어로 작성된 보고서, 정보 및 첩보를 일일이 열어확인하는 부담을 줄이는데 획기적으로 기여할 수 있다. 본 논문에서는 지휘관 및 참모의 정보 처리 부담을 줄이고 신속한 지휘결심을 지원하기 위해 언어 모델 기반의 다출처 정보 통합 (Language model-based Multi-source Information Integration, LAMII) 프레임워크를 제안한다. 제안된 LAMII 프레임워크는 자기지도 학습법을 활용한 언어 모델에 기반한 표현학습과 오토인코더를 활용한 문서 통합의 핵심 단계로 구성되어 있다. 첫 번째 단계에서는, 자기지도 학습 기법을 활용하여 구조적으로 이질적인 두 문장간의 유사 관계를 식별할 수 있는 표현학습을 수행한다. 두 번째 단계에서는, 앞서 학습된 모델을 활용하여 다출처로부터 비슷한 내용 혹은 토픽을 함양하는 문서들을 발견하고 이들을 통합한다. 이 때, 중복되는 문장을 제거하기 위해 오토인코더를 활용하여 문장의 중복성을 측정한다. 본 논문의 우수성을 입증하기 위해, 우리는 언어모델들과 이의 성능을 평가할 때 활용되는 대표적인 벤치마크 셋들을 함께 활용하여 이질적인 문장간의 유사 관계를 예측의 비교 실험하였다. 실험 결과, 제안된 LAMII 프레임워크가 다른 언어 모델에 비하여 이질적인 문장 구조간의 유사 관계를 효과적으로 예측할 수 있음을 입증하였다.

기계 학습을 활용한 보안 이상징후 식별 알고리즘 개발 (Development of Security Anomaly Detection Algorithms using Machine Learning)

  • 황보현우;김재경
    • 한국전자거래학회지
    • /
    • 제27권1호
    • /
    • pp.1-13
    • /
    • 2022
  • 인터넷, 모바일 등 네트워크 기술이 발전함에 따라 내외부 침입 및 위협으로부터 조직의 자원을 보호하기 위한 보안의 중요성이 커지고 있다. 따라서 최근에는 다양한 보안 로그 이벤트에 대하여 보안 위협 여부를 사전에 파악하고, 예방하는 이상징후 식별 알고리즘의 개발이 강조되고 있다. 과거 규칙 기반 또는 통계 학습에 기반하여 개발되어 온 보안 이상징후 식별 알고리즘은 점차 기계 학습과 딥러닝에 기반한 모델링으로 진화하고 있다. 본 연구에서는 다양한 기계 학습 분석 방법론을 활용하여 악의적 내부자 위협을 사전에 식별하는 최적 알고리즘으로 LSTM-autoencoder를 변형한 Deep-autoencoder 모형을 제안한다. 본 연구는 비지도 학습에 기반한 이상탐지 알고리즘 개발을 통해 적응형 보안의 가능성을 향상시키고, 지도 학습에 기반한 정탐 레이블링을 통해 기존 알고리즘 대비 오탐율을 감소시켰다는 점에서 학문적 의의를 갖는다.