• Title/Summary/Keyword: 원본 학습 데이터

Search Result 86, Processing Time 0.022 seconds

Supervised learning framework using Web-Videos (Web-Videos를 사용한 Supervised Learning Framework)

  • Na, Seong-Won;Lee, Ye-Gi;Yoon, Kyoung-ro
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2019.06a
    • /
    • pp.95-97
    • /
    • 2019
  • 본 논문에서는 비디오 데이터를 이용한 감독 학습 프레임 워크를 제안한다. 최근 Deep Convolutional Neural Networks의 성공으로 많은 분야에서 사용되고 있다. DCNNs 모델 성능의 중요한 요소 중 하나는 Large-cale Dataset을 구축하는 것으로 Small-scale Dataset으로 모델을 학습한다면 과적합 및 일반화 오류를 해결하기 어렵다. 이러한 문제점을 해결하는 방법으로 이미지 왜곡을 통한 데이터 셋을 증가 또는 Dropout 기법 등을 사용하였지만 원본 데이터가 적은 경우에는 모델이 일반화 능력을 갖기 어렵다. 따라서 본 논문에서는 이러한 문제점을 보완하고자 Web으로부터 얻은 비디오에서 해당 Class와 관련된 프레임들을 추출하여 보다 쉽게 데이터 셋을 확장하고, 모델의 성능을 향상 시키는 방법을 제안한다.

  • PDF

Seismic Fragility of I-Shape Curved Steel Girder Bridge using Machine Learning Method (머신러닝 기반 I형 곡선 거더 단경간 교량 지진 취약도 분석)

  • Juntai Jeon;Bu-Seog Ju;Ho-Young Son
    • Journal of the Society of Disaster Information
    • /
    • v.18 no.4
    • /
    • pp.899-907
    • /
    • 2022
  • Purpose: Although many studies on seismic fragility analysis of general bridges have been conducted using machine learning methods, studies on curved bridge structures are insignificant. Therefore, the purpose of this study is to analyze the seismic fragility of bridges with I-shaped curved girders based on the machine learning method considering the material property and geometric uncertainties. Method: Material properties and pier height were considered as uncertainty parameters. Parameters were sampled using the Latin hypercube technique and time history analysis was performed considering the seismic uncertainty. Machine learning data was created by applying artificial neural network and response surface analysis method to the original data. Finally, earthquake fragility analysis was performed using original data and learning data. Result: Parameters were sampled using the Latin hypercube technique, and a total of 160 time history analyzes were performed considering the uncertainty of the earthquake. The analysis result and the predicted value obtained through machine learning were compared, and the coefficient of determination was compared to compare the similarity between the two values. The coefficient of determination of the response surface method was 0.737, which was relatively similar to the observed value. The seismic fragility curve also showed that the predicted value through the response surface method was similar to the observed value. Conclusion: In this study, when the observed value through the finite element analysis and the predicted value through the machine learning method were compared, it was found that the response surface method predicted a result similar to the observed value. However, both machine learning methods were found to underestimate the observed values.

A Evaluation on Robustness of Knowledge Distillation-based Federated Learning (지식 증류 기반 연합학습의 강건성 평가)

  • Yun-Gi Cho;Woo-Rim Han;Mi-Seon Yu;Su-bin Yun;Yun-Heung Paek
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.666-669
    • /
    • 2024
  • 연합학습은 원본 데이터를 공유하지 않고 모델을 학습할 수 있는 각광받는 프라이버시를 위한 학습방법론이다. 이를 위해 참여자의 데이터를 수집하는 대신, 데이터를 인공지능 모델 학습의 요소들(가중치, 기울기 등)로 변환한 뒤, 이를 공유한다. 이러한 강점에 더해 기존 연합학습을 개선하는 방법론들이 추가적으로 연구되고 있다. 기존 연합학습은 모델 가중치를 평균내는 것으로 참여자 간에 동일한 모델 구조를 강요하기 때문에, 참여자 별로 자신의 환경에 알맞은 모델 구조를 사용하기 어렵다. 이를 해결하기 위해 지식 증류 기반의 연합학습 방법(Knowledge Distillation-based Federated Learning)으로 서로 다른 모델 구조를 가질 수 있도록(Model Heterogenousity) 하는 방법이 제시되고 있다. 연합학습은 여러 참여자가 연합하기 때문에 일부 악의적인 참여자로 인한 모델 포이즈닝 공격에 취약하다. 수많은 연구들이 기존 가중치를 기반으로한 연합학습에서의 위협을 연구하였지만, 지식 증류 기반의 연합학습에서는 이러한 위협에 대한 조사가 부족하다. 본 연구에서는 최초로 지식 증류 기반의 연합학습에서의 모델 성능 하락 공격에 대한 위협을 실체화하고자 한다. 이를 위해 우리는 GMA(Gaussian-based Model Poisoning Attack)과 SMA(Sign-Flip based Model Poisoning Attack)을 제안한다. 결과적으로 우리가 제안한 공격 방법은 실험에서 최신 학습 기법에 대해 평균적으로 모델 정확도를 83.43%에서 무작위 추론에 가깝게 떨어뜨리는 것으로 공격 성능을 입증하였다. 우리는 지식 증류 기반의 연합학습의 강건성을 평가하기 위해, 새로운 공격 방법을 제안하였고, 이를통해 현재 지식 증류 기반의 연합학습이 악의적인 공격자에 의한 모델 성능 하락 공격에 취약한 것을 보였다. 우리는 방대한 실험을 통해 제안하는 방법의 성능을 입증하고, 결과적으로 강건성을 높이기 위한 많은 방어 연구가 필요함을 시사한다.

Research on Federated Learning with Differential Privacy (차분 프라이버시를 적용한 연합학습 연구)

  • Jueun Lee;YoungSeo Kim;SuBin Lee;Ho Bae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.749-752
    • /
    • 2024
  • 연합학습은 클라이언트가 중앙 서버에 원본 데이터를 주지 않고도 학습할 수 있도록 설계된 분산된 머신러닝 방법이다. 그러나 클라이언트와 중앙 서버 사이에 모델 업데이트 정보를 공유한다는 점에서 여전히 추론 공격(Inference Attack)과 오염 공격(Poisoning Attack)의 위험에 노출되어 있다. 이러한 공격을 방어하기 위해 연합학습에 차분프라이버시(Differential Privacy)를 적용하는 방안이 연구되고 있다. 차분 프라이버시는 데이터에 노이즈를 추가하여 민감한 정보를 보호하면서도 유의미한 통계적 정보 쿼리는 공유할 수 있도록 하는 기법으로, 노이즈를 추가하는 위치에 따라 전역적 차분프라이버시(Global Differential Privacy)와 국소적 차분 프라이버시(Local Differential Privacy)로 나뉜다. 이에 본 논문에서는 차분 프라이버시를 적용한 연합학습의 최신 연구 동향을 전역적 차분 프라이버시를 적용한 방향과 국소적 차분 프라이버시를 적용한 방향으로 나누어 검토한다. 또한 이를 세분화하여 차분 프라이버시를 발전시킨 방식인 적응형 차분 프라이버시(Adaptive Differential Privacy)와 개인화된 차분 프라이버시(Personalized Differential Privacy)를 응용하여 연합학습에 적용한 방식들에 대하여 특징과 장점 및 한계점을 분석하고 향후 연구방향을 제안한다.

Pattern Analysis of Traffic Accident data and Prediction of Victim Injury Severity Using Hybrid Model (교통사고 데이터의 패턴 분석과 Hybrid Model을 이용한 피해자 상해 심각도 예측)

  • Ju, Yeong Ji;Hong, Taek Eun;Shin, Ju Hyun
    • Smart Media Journal
    • /
    • v.5 no.4
    • /
    • pp.75-82
    • /
    • 2016
  • Although Korea's economic and domestic automobile market through the change of road environment are growth, the traffic accident rate has also increased, and the casualties is at a serious level. For this reason, the government is establishing and promoting policies to open traffic accident data and solve problems. In this paper, describe the method of predicting traffic accidents by eliminating the class imbalance using the traffic accident data and constructing the Hybrid Model. Using the original traffic accident data and the sampled data as learning data which use FP-Growth algorithm it learn patterns associated with traffic accident injury severity. Accordingly, In this paper purpose a method for predicting the severity of a victim of a traffic accident by analyzing the association patterns of two learning data, we can extract the same related patterns, when a decision tree and multinomial logistic regression analysis are performed, a hybrid model is constructed by assigning weights to related attributes.

Anomaly Detection in printed patters using U-Net (U-Net 모델을 이용한 비정상 인쇄물 검출 방법)

  • Hong, Soon-Hyun;Nam, Hyeon-Gil;Park, Jong-Il
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.686-688
    • /
    • 2020
  • 본 논문에서는 U-Net 모델을 이용하여 정교하고 반복되는 패턴을 가진 인쇄물에 대한 비지도 학습을 통한 딥러닝 기반 이상치탐지(Anomaly Detection) 방법을 제안하였다. 인쇄물(카드)의 비정상 패턴 검출을 위하여 촬영한 영상으로부터 카드 영역을 분리한 이미지로 구성된 Dataset을 구축하였고 정상 이미지와 동일한 이미지를 출력하기 위해, 정상 이미지와 마스크 이미지 쌍의 Training dataset을 U-Net으로 학습하였다. Test dataset의 이미지를 입력으로 넣어 생성된 마스크 결과를 원본 마스크 이미지와 비교하여 이상 여부를 판단하는 본 논문의 방법이 정상, 비정상 인쇄물을 잘 구분하는 것을 확인하였다. 또한 정상과 비정상 이미지 각각을 학습한 지도학습 기반 CNN 분류 방법을 입력 영상과 복원 영상 간의 복원 오차를 비교하여 객체의 이상 여부를 판별하는 본 논문의 방법과 비교 평가하였다. 본 논문을 통해 U-Net을 사용하여 별도로 데이터에 대한 label 취득 없이 이상치를 검출할 수 있음을 확인할 수 있었다.

  • PDF

Intrusion Detection System based on Packet Payload Analysis using Transformer

  • Woo-Seung Park;Gun-Nam Kim;Soo-Jin Lee
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.11
    • /
    • pp.81-87
    • /
    • 2023
  • Intrusion detection systems that learn metadata of network packets have been proposed recently. However these approaches require time to analyze packets to generate metadata for model learning, and time to pre-process metadata before learning. In addition, models that have learned specific metadata cannot detect intrusion by using original packets flowing into the network as they are. To address the problem, this paper propose a natural language processing-based intrusion detection system that detects intrusions by learning the packet payload as a single sentence without an additional conversion process. To verify the performance of our approach, we utilized the UNSW-NB15 and Transformer models. First, the PCAP files of the dataset were labeled, and then two Transformer (BERT, DistilBERT) models were trained directly in the form of sentences to analyze the detection performance. The experimental results showed that the binary classification accuracy was 99.03% and 99.05%, respectively, which is similar or superior to the detection performance of the techniques proposed in previous studies. Multi-class classification showed better performance with 86.63% and 86.36%, respectively.

A Study on Synthetic Data Generation Based Safe Differentially Private GAN (차분 프라이버시를 만족하는 안전한 GAN 기반 재현 데이터 생성 기술 연구)

  • Kang, Junyoung;Jeong, Sooyong;Hong, Dowon;Seo, Changho
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.30 no.5
    • /
    • pp.945-956
    • /
    • 2020
  • The publication of data is essential in order to receive high quality services from many applications. However, if the original data is published as it is, there is a risk that sensitive information (political tendency, disease, ets.) may reveal. Therefore, many research have been proposed, not the original data but the synthetic data generating and publishing to privacy preserve. but, there is a risk of privacy leakage still even if simply generate and publish the synthetic data by various attacks (linkage attack, inference attack, etc.). In this paper, we propose a synthetic data generation algorithm in which privacy preserved by applying differential privacy the latest privacy protection technique to GAN, which is drawing attention as a synthetic data generative model in order to prevent the leakage of such sensitive information. The generative model used CGAN for efficient learning of labeled data, and applied Rényi differential privacy, which is relaxation of differential privacy, considering the utility aspects of the data. And validation of the utility of the generated data is conducted and compared through various classifiers.

TAGS: Text Augmentation with Generation and Selection (생성-선정을 통한 텍스트 증강 프레임워크)

  • Kim Kyung Min;Dong Hwan Kim;Seongung Jo;Heung-Seon Oh;Myeong-Ha Hwang
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.12 no.10
    • /
    • pp.455-460
    • /
    • 2023
  • Text augmentation is a methodology that creates new augmented texts by transforming or generating original texts for the purpose of improving the performance of NLP models. However existing text augmentation techniques have limitations such as lack of expressive diversity semantic distortion and limited number of augmented texts. Recently text augmentation using large language models and few-shot learning can overcome these limitations but there is also a risk of noise generation due to incorrect generation. In this paper, we propose a text augmentation method called TAGS that generates multiple candidate texts and selects the appropriate text as the augmented text. TAGS generates various expressions using few-shot learning while effectively selecting suitable data even with a small amount of original text by using contrastive learning and similarity comparison. We applied this method to task-oriented chatbot data and achieved more than sixty times quantitative improvement. We also analyzed the generated texts to confirm that they produced semantically and expressively diverse texts compared to the original texts. Moreover, we trained and evaluated a classification model using the augmented texts and showed that it improved the performance by more than 0.1915, confirming that it helps to improve the actual model performance.

BERT-based Document Summarization model using Copying-Mechanism and Reinforcement Learning (복사 메커니즘과 강화 학습을 적용한 BERT 기반의 문서 요약 모델)

  • Hwang, Hyunsun;Lee, Changki;Go, Woo-Young;Yoon, Han-Jun
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.167-171
    • /
    • 2020
  • 문서 요약은 길이가 긴 원본 문서에서 의미를 유지한 채 짧은 문서나 문장을 얻어내는 작업을 의미한다. 딥러닝을 이용한 자연어처리 기술들이 연구됨에 따라 end-to-end 방식의 자연어 생성 모델인 sequence-to-sequence 모델을 문서 요약 생성에 적용하는 방법들이 연구되었다. 본 논문에서는 여러 자연어처리 분야에서 높은 성능을 보이고 있는 BERT 모델을 이용한 자연어 생성 모델에 복사 메커니즘과 강화 학습을 추가한 문서 요약 모델을 제안한다. 복사 메커니즘은 입력 문장의 단어들을 출력 문장에 복사하는 기술로 학습데이터에서 학습되기 힘든 고유 명사 등의 단어들에 대한 성능을 높이는 방법이다. 강화 학습은 정답 단어의 확률을 높이기 위해 학습하는 지도 학습 방법과는 달리 연속적인 단어 생성으로 얻어진 전체 문장의 보상 점수를 높이는 방향으로 학습하여 생성되는 단어 자체보다는 최종 생성된 문장이 더 중요한 자연어 생성 문제에 효과적일 수 있다. 실험결과 기존의 BERT 생성 모델 보다 복사 메커니즘과 강화 학습을 적용한 모델의 Rouge score가 더 높음을 확인 하였다.

  • PDF