• 제목/요약/키워드: 훈련데이터 생성

검색결과 174건 처리시간 0.026초

CNN 기반 인간 동작 인식을 위한 생체신호 데이터의 증강 기법 (Bio-signal Data Augumentation Technique for CNN based Human Activity Recognition)

  • 게렐바트;권춘기
    • 융합신호처리학회논문지
    • /
    • 제24권2호
    • /
    • pp.90-96
    • /
    • 2023
  • 합성곱 신경망을 비롯하여 딥러닝 신경망의 학습에서 많은 양의 훈련데이터의 확보는 과적합 현상을 피하고 우수한 성능을 가지기 위해서 매우 중요하다. 하지만, 딥러닝 신경망에서의 레이블화된 훈련데이터의 확보는 실제로는 매우 제한적이다. 이를 극복하기 위해, 이미 획득한 훈련데이터를 변형, 조작 등으로 추가로 훈련데이터를 생성하는 여러 증강 방법이 제안되었다. 하지만, 이미지, 문자 등의 훈련데이터와 달리, 인간 동작 인식을 행하는 합성곱 신경망의 생체신호 훈련데이터를 추가로 생성하는 증강 방법은 연구 문헌에서 찾아보기 어렵다. 본 연구에서는 합성곱 신경망에 기반한 인간 동작 인식을 위한 생체신호 훈련데이터를 생성하는 간편하지만, 효과적인 증강 방법을 제안한다. 본 연구의 제안된 증강 방법의 유용성은 추가로 생성된 생체신호 훈련데이터로 학습하여 합성곱 신경망이 인간 동작을 높은 정확도로 인식하는 것을 보임으로써 검증하였다.

GAN 기반 데이터 증강기법을 통한 가속도 데이터 생성에 대한 연구 (A Study of GAN-based data augmentation technique on Acceleration Data Gereration)

  • 강성환;조위덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.495-497
    • /
    • 2022
  • 본 데이터 GAN 기법 데이터 증강기법을 적용하여 가속도 데이터를 증강하는 방법에 대해 연구한다. 가속도 데이터는 사람의 활동패턴을 인지하는데 있어 가장 기본적인 데이터로 활용된다. 가속도 데이터를 증강한 뒤, 활동패턴을 인지하는 머신러닝 모델 훈련에 사용한 결과 생성한 데이터가 육안으로 확인하였을 때 실제 데이터와 유사한 패턴을 형성하였고, 실제 활동패턴인지 모델 훈련에 사용한 결과 정확도(Accuracy)는 기존 데이터로만 훈련한 경우 74%인데 비해 증강된 데이터를 혼합하여 훈련하였을 때 약 88%로 개선된 것을 확인하였다.

  • PDF

트래픽 유통계획 기반 사이버전 훈련데이터셋 생성방법 설계 및 구현 (Design and Implementation of Cyber Warfare Training Data Set Generation Method based on Traffic Distribution Plan)

  • 김용현;안명길
    • 융합보안논문지
    • /
    • 제20권4호
    • /
    • pp.71-80
    • /
    • 2020
  • 사이버전 훈련 시스템에 현실감 있는 트래픽을 제공하기 위해서는 사전에 트래픽 유통계획 작성과 정상/위협 데이터셋을 이용한 훈련데이터셋 생성이 필요하다. 본 논문은 사이버전 훈련 시스템에 실제 환경과 같은 배경 트래픽을 제공하기 위한 트래픽 유통계획 저작과 훈련데이터셋을 생성하는 방법의 설계와 구현 결과를 제시한다. 트래픽 유통계획은 트래픽을 유통할 훈련 환경의 네트워크 토폴로지와 실제 및 모의환경에서 수집한 트래픽 속성 정보를 이용하여 저작하는 방법을 제안한다. 트래픽 유통계획에 따라 훈련데이터셋을 생성하는 방법은 단위트래픽을 이용하는 방법과 프로토콜의 비율을 이용하는 혼합트래픽 양상 방법을 제안한다. 구현한 도구를 이용하여 트래픽 유통계획을 저작하고, 유통계획에 따른 훈련데이터셋 생성결과를 확인하였다.

한국어 자연어생성에 적합한 사전훈련 언어모델 특성 연구 (A Study of Pre-trained Language Models for Korean Language Generation)

  • 송민채;신경식
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.309-328
    • /
    • 2022
  • 본 연구는 자연어처리의 분석목적과 추론데이터 성격에 적합한 한국어 사전훈련 언어모델의 특성을 실증분석했다. 이를 위해 자연어생성이 가능한 대표적 사전훈련 언어모델인 BART와 GPT 모델을 실험에 사용했다. 구체적으로 한국어 텍스트를 BART와 GPT 모델에 학습한 사전훈련 언어모델을 사용해 문서요약 생성 성능을 비교했다. 다음으로 추론데이터의 특성에 따라 언어모델의 성능이 어떻게 달라지는지 확인하기 위해 6가지 정보전달성과 4가지 창작물 유형의 한국어 텍스트 문서에 적용했다. 그 결과, 모든 문서유형에서 인코더와 디코더가 모두 있는 BART의 구조가 디코더만 있는 GPT 모델보다 더 높은 성능을 보였다. 추론데이터의 특성이 사전훈련 언어모델의 성능에 미치는 영향을 살펴본 결과, KoGPT는 데이터의 길이에 성능이 비례한 것으로 나타났다. 그러나 길이가 가장 긴 문서에 대해서도 KoGPT보다 KoBART의 성능이 높아 다운스트림 태스크 목적에 맞는 사전훈련 모델의 구조가 자연어생성 성능에 가장 크게 영향을 미치는 요소인 것으로 나타났다. 추가적으로 본 연구에서는 정보전달성과 창작물로 문서의 특징을 구분한 것 외에 품사의 비중으로 문서의 특징을 파악해 사전훈련 언어모델의 성능을 비교했다. 그 결과, KoBART는 어미와 형용사/부사, 동사의 비중이 높을수록 성능이 떨어진 반면 명사의 비중이 클수록 성능이 좋았다. 반면 KoGPT는 KoBART에 비해 품사의 비중과 상관도가 낮았다. 이는 동일한 사전훈련 언어모델이라도 추론데이터의 특성에 따라 자연어생성 성능이 달라지기 때문에 다운스트림 태스크에 사전훈련 언어모델 적용 시 미세조정 외에 추론데이터의 특성에 대한 고려가 중요함을 의미한다. 향후 어순 등 분석을 통해 추론데이터의 특성을 파악하고, 이것이 한국어 생성에 미치는 영향을 분석한다면 한국어 특성에 적합한 언어모델이나 자연어생성 성능 지표 개발이 가능할 것이다.

계층별 모델 역추론 공격 (Layer-wise Model Inversion Attack)

  • 권현호;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2024
  • 모델 역추론 공격은 공격 대상 네트워크를 훈련하기 위해 사용되는 훈련 데이터셋 중 개인 데이터셋을 공개 데이터셋을 사용하여 개인 훈련 데이터셋을 복원하는 것이다. 모델 역추론 방법 중 적대적 생성 신경망을 사용하여 모델 역추론 공격을 하는 과거의 논문들은 딥러닝 모델 전체의 역추론에만 초점을 맞추기 때문에, 이를 통해 얻은 원본 이미지의 개인 데이터 정보는 제한적이다. 따라서, 본 연구는 대상 모델의 중간 출력을 사용하여 개인 데이터에 대한 더 품질 높은 정보를 얻는데 초점을 맞춘다. 본 논문에서는 적대적 생성 신경망 모델이 원본 이미지를 생성하기 위해 사용되는 계층별 역추론 공격 방법을 소개한다. MNIST 데이터셋으로 훈련된 적대적 생성 신경망 모델을 사용하여, 원본 이미지가 대상 모델의 계층을 통과하면서 얻은 중간 계층의 출력 데이터를 기반으로 원본 이미지를 재구성하고자 한다. GMI 의 공격 방식을 참고하여 공격 모델의 손실 함수를 구성한다. 손실 함수는 사전 손실 및 정체성 손실항을 포함하며, 역전파를 통해서 원본 이미지와 가장 유사하게 복원할 수 있는 표현 벡터 Z 를 찾는다. 원본 이미지와 공격 이미지 사이의 유사성을 분류 라벨의 정확도, SSIM, PSNR 값이라는 세 가지 지표를 사용하여 평가한다. 공격이 이루어지는 계층에서 복원한 이미지와 원본 이미지를 세 가지 지표를 가지고 평가한다. 실험 결과, 공격 이미지가 원본 이미지의 대상 분류 라벨을 정확하게 가지며 원본 이미지의 필체를 유사하게 복원하였음을 보여준다. 평가 지표 또한 원본 이미지와 유사하다는 것을 나타낸다.

확장된 표현을 이용하는 분류 알고리즘 (A Classification Algorithm using Extended Representation)

  • 이종찬
    • 한국융합학회논문지
    • /
    • 제8권2호
    • /
    • pp.27-33
    • /
    • 2017
  • 인터넷을 통해 사용자에게 클라우드 컴퓨팅 서비스를 효율적으로 제공하기 위해서는 데이터 센터에 가상화와 분산 컴퓨팅 기술을 기반으로 하여 IT 자원을 구성해야 한다. 본 논문은 폭넓은 분야에서 새로운 훈련 데이터가 언제라도 추가될 수 있고, 또한 언제라도 훈련 데이터에 새로운 속성이 추가될 수 있다는 문제에 특별히 초점을 맞춘다. 이러한 경우, 기존 속성 집합들을 가지는 훈련 데이터로 생성된 규칙은 쓸모없게 된다. 더구나 새롭게 추가된 데이터나 속성을 가지는 새로운 데이터는 기존 규칙과 결합될 수 없다. 본 논문은 이와 같은 경우를 자연스럽게 처리할 수 있는 보다 진보된 새 추론 엔진을 제안한다. 이 방법에서 기존의 데이터로 부터 생성된 규칙은 개선된 규칙을 생성하기 위한 새로운 데이터 집합과 결합될 수 있다.

데이터 증가를 통한 선형 모델의 일반화 성능 개량 (중심극한정리를 기반으로) (Improvement of generalization of linear model through data augmentation based on Central Limit Theorem)

  • 황두환
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.19-31
    • /
    • 2022
  • 기계학습 모델 구축 간 트레이닝 데이터를 활용하며, 훈련 간 사용되지 않은 테스트 데이터를 활용하여 모델의 정확도와 일반화 성능을 판단한다. 일반화 성능이 낮은 모델의 경우 새롭게 받아들이게 되는 데이터에 대한 예측 정확도가 현저히 감소하게 되며 이러한 현상을 두고 모델이 과적합 되었다고 한다. 본 연구는 중심극한정리를 기반으로 데이터를 생성 및 기존의 훈련용 데이터와 결합하여 새로운 훈련용 데이터를 구성하고 데이터의 정규성을 증가시킴과 동시에 이를 활용하여 모델의 일반화 성능을 증가시키는 방법에 대한 것이다. 이를 위해 중심극한정리의 성질을 활용해 데이터의 각 특성별로 표본평균 및 표준편차를 활용하여 데이터를 생성하였고, 새로운 훈련용 데이터의 정규성 증가 정도를 파악하기 위하여 Kolmogorov-Smirnov 정규성 검정을 진행한 결과, 새로운 훈련용 데이터가 기존의 데이터에 비해 정규성이 증가하였음을 확인할 수 있었다. 일반화 성능은 훈련용 데이터와 테스트용 데이터에 대한 예측 정확도의 차이를 통해 측정하였다. 새롭게 생성된 데이터를 K-Nearest Neighbors(KNN), Logistic Regression, Linear Discriminant Analysis(LDA)에 적용하여 훈련시키고 일반화 성능 증가정도를 파악한 결과, 비모수(non-parametric) 기법인 KNN과 모델 구성 간 정규성을 가정으로 갖는 LDA의 경우에 대하여 일반화 성능이 향상되었음을 확인할 수 있었다.

Transformer를 이용한 유해남조 발생 예측 모델 구축 (Building of cyanobacteria forecasting model using transformer)

  • 이한규;김진휘;변서현;신재기;박용은
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.515-515
    • /
    • 2023
  • 팔당호는 북한강과 남한강이 합류하여 생성된 호소로 수도인 서울과 수도권인 경기도 동부지역의 물 공급을 담당하는 중요한 상수원이다. 이러한 팔당호에서 유해남조 발생은 상수원수 활용과 직접적으로 연관되어 있어 신속하고 정확한 관리 및 예측이 필요하다. 본 연구에서는 안전한 상수원 활용을 위해, 딥러닝 기법을 이용하여 유해남조 사전 예측 모델을 구축하고자 하였다. 모델 입력 변수는 2012년부터 2021년까지 10년 동안의 주간 팔당호 수질(수온, DO, BOD, COD, Chl-a, TN, TP, pH, 전기전도도, TDN, NH4N, NO3N, TDP, PO4P, 부유물질)과 수문(유입량, 총방류량), 기상 정보(평균기온, 최저기온, 최고기온, 일 강수량, 평균풍속, 평균 상대습도, 합계일조량), 그리고 북한강과 남한강 유입지점의 남조 세포 수를 사용하였다. 모델 출력 변수는 수질, 수문, 기상 요인으로 인한 남조의 성장 발현 시기를 고려하여 1주 후의 댐앞 남조 세포수를 사용하였다. 사용한 딥러닝 기법은 최근 주목받고 있는 Temporal Fusion Transformer (TFT)를 사용하였다. 모델 훈련용 데이터와 테스트용 데이터는 각각 8:2의 비율로 나누었으며, 검증용 데이터는 훈련용 데이터 내에서 훈련 데이터와 검증 데이터를 6:4 비율로 분배하였다. Lookback은 5로 설정하였고, 이는 주단위 데이터로 구성된 데이터세트의 특성을 반영한 것이다. 모델의 성능은 실측값과 예측값을 토대로 R-square와 Root Mean Squared Error (RMSE)를 계산하여 평가하였다. 모델학습은 총 154번 반복 진행되었으며, 이 중 성능이 가장 준수한 시점은 54번째 반복 시점으로 훈련손실 대비 검증손실이 가장 양호한 값을 나타냈다(훈련손실:0.443, 검증손실 0.380). R-square는 훈련단계에서 0.681, 검증단계에서 0.654였고, 테스트 단계에서 0.606으로 산출되었다. RMSE는 훈련단계에서 0.614(㎍/L), 검증단계에서 0.617(㎍/L), 테스트 단계에서 0.773(㎍/L)였다. 모델에 사용한 데이터세트가 주간 데이터라는 특성을 고려하면, 소규모 데이터를 사용하였음에도 본 연구에서 구축한 모델의 성능은 양호하다고 평가할 수 있다. 향후 연구에서 데이터세트를 보강하고 모델을 업데이트한다면, 모델의 성능을 더욱더 개선할 수 있을 것으로 기대된다.

  • PDF

동적 output neuron을 이용한 LVQ 기반 물체 분류 (Object Classification Based on LVQ with Dynamic output neuron)

  • 김헌기;조성원;김재민;이진형
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국지능시스템학회 2007년도 추계학술대회 학술발표 논문집
    • /
    • pp.427-430
    • /
    • 2007
  • 기존의 LVQ(Learning Vector Quantization) 방법을 이용하여 물체를 분류하면 데이터의 학습이 빠르고 연산량이 적어 실시간으로 물체를 분류할 수 있는 장점이 있다. 하지만 데이터의 훈련시 output neuron의 개수를 정확히 예측할 수 없고 output neuron의 개수에 따라 물체를 분류하는 정확도가 매우 달라질 수 있다. 그러므로 본 논문에서는 output neuron의 개수를 데이터의 특성에 맞게 결정해주는 알고리즘을 제시한다. DLVQ(Dynamic Learning Vector Quantization) 알고리즘은 승자로 결정된 가중치 벡터의 부류가 샘플 데이터의 부류와 같으면 업데이트하고 다르면 새로운 가중치 벡터로 생성한다. 제한한 알고리즘의 가장 다른 부분은 미리 output neuron의 개수를 정하는 것이 아니라 훈련 과정에서 동적으로 output neuron의 개수를 생성하는 것이다. 그리고 클러터의 구분 방법을 제시하여 사람, 차, 클러터를 구분할 수 있다.

  • PDF

다중 댐 유역에 대한 강우예측모델 개발을 위한 전이학습 기법의 적용 (Application of transfer learning to develop radar-based rainfall prediction model with GAN(Generative Adversarial Network) for multiple dam domains)

  • 최수연;김연주
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.61-61
    • /
    • 2022
  • 최근 머신러닝 기술의 발달에 따라 이를 활용한 레이더 자료기반 강우예측기법이 활발히 개발되고 있다. 기존 머신러닝을 이용한 강우예측모델 개발 관련 연구는 주로 한 지역에 대해 수행되며, 데이터 기반으로 훈련되는 머신러닝 기법의 특성상 개발된 모델이 훈련된 지역에 대해서만 좋은 성능을 보인다는 한계점이 존재한다. 이러한 한계점을 해결하기 위해 사전 훈련된 모델을 이용하여 새로운 데이터에 대해 모델을 훈련하는 전이학습 기법 (transfer learning)을 적용하여 여러 유역에 대한 강우예측모델을 개발하고자 하였다. 본 연구에서는 사전 훈련된 강우예측 모델로 생성적 적대 신경망 기반 기법(Generative Adversarial Network, GAN)을 이용한 미래 강우예측모델을 사용하였다. 해당 모델은 기상청에서 제공된 2014년~2017년 여름의 레이더 이미지 자료를 이용하여 초단기, 단기 강우예측을 수행하도록 학습시켰으며, 2018년 레이더 이미지 자료를 이용한 단기강우예측 모의에서 좋은 성능을 보였다. 본 연구에서는 훈련된 모델을 이용해 새로운 댐 유역(안동댐, 충주댐)에 대한 강우예측모델을 개발하기 위해 여러 전이학습 기법을 적용하고, 그 결과를 비교하였다. 결과를 통해 새로운 데이터로 처음부터 훈련시킨 모델보다 전이학습 기법을 사용하였을 때 좋은 성능을 보이는 것을 확인하였으며, 이를 통해 여러 댐 유역에 대한 모델 개발 시 전이학습 기법이 효율적으로 적용될 수 있음을 확인하였다.

  • PDF