• Title/Summary/Keyword: 데이터세트 기술

검색결과 174건 처리시간 0.029초

TrapMI: 분할 학습에서 모델 전도 공격을 회피할 수 있는 훈련 데이터 보호 방법 (TrapMI: Protecting Training Data to Evade Model Inversion Attack on Split Learning)

  • 나현식;최대선
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.234-236
    • /
    • 2023
  • Edge AI 환경에서의 DNNs 학습 방법 중 하나인 분할 학습은 모델 전도 공격으로 인해 입력 데이터의 프라이버시가 노출될 수 있다. 본 논문에서는 분할 학습 환경에서의 모델 전도 공격에 대한 기존 방어 기술들의 한계점을 회피할 수 있는 TrapMI 기술을 제안하고, 이를 통해 입력 이미지를 원 본 데이터 세트의 도메인에서 특정 타겟 이미지 도메인으로 이동시킴으로써 이미지 복원의 가능성을 최소화시킨다. 추가적으로, 테스트 과정에서 타겟 이미지의 정보를 알 수 없는 제약을 회피하기 위해 AutoGenerator를 구축한 후 실험을 통해 원본 데이터 보호 성능을 검증한다.

미세먼지 위험 단계 예측을 위한 1-D CRNN 모델 설계 (Design of a 1-D CRNN Model for Prediction of Fine Dust Risk Level)

  • 이기혁;황우성;최명렬
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.215-220
    • /
    • 2021
  • 최근 국내 미세먼지 발생의 증가에 따라 발생하는 인체에 유해한 영향을 줄이기 위하여, 미세먼지 수치를 예측하고 사전 조치를 취할 수 있도록 돕는 기술이 필요해지고 있다. 본 논문에서는 국내 미세먼지 위험 수준을 예측하기 위한 1D Convolutional to Recurrent Neural Network (1-D CRNN) 모델을 제안한다. 제안 된 모델은 딥러닝 신경망의 CNN과 RNN을 결합한 구조이며, 다른 종류의 데이터로 구성된 시계열 데이터 세트에서 데이터 예측을 수행 할 수 있다. 데이터 예측을 위해 국내·외 미세먼지, 풍향, 풍속 데이터를 사용한다. 제안된 모델은 약 76%(부분 최대 84%)의 정확도를 달성했으며, 일반 RNN 모델(53%)보다 정확한 예측 결과를 얻었을 수 있었다. 제안된 모델은 향후 여러 개의 시계열 데이터 세트를 고려해야 하는 데이터 예측 모델 학습 및 실험을 목표로 한다.

머신러닝 기법과 TBM 시공정보를 활용한 토압식 쉴드TBM 굴진율 예측 연구 (A Study on Prediction of EPB shield TBM Advance Rate using Machine Learning Technique and TBM Construction Information)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제30권6호
    • /
    • pp.540-550
    • /
    • 2020
  • 최근 AI 기술의 발전과 정립으로 자동화 분야에서 머신러닝 기법의 활용이 활발하게 이루어지고 있다. 머신러닝 기법의 활용에 있어 중요한 점은 데이터 특성에 따라 적합한 알고리즘이 존재한다는 점이며, 머신러닝 기법 적용을 위한 데이터세트의 분석이 필요하다. 본 연구에서는 다양한 머신러닝 기법을 기반으로 하천 하부의 토사지반을 통과하는 토압식 쉴드TBM 터널 구간의 지반정보와 굴진정보를 사용하여 토압식 쉴드TBM의 굴진율을 예측하였다. 선형회귀모델에서 모델의 통계적인 유의성과 다중공선성에서는 문제가 없었으나 결정계수가 0.76으로 나타났고 앙상블 모델과 서포트 벡터 머신에서는 0.88이상의 예측성능을 보여, 분석한 데이터세트에서 토압식 쉴드TBM 굴진성능예측에 적합한 모델은 서포트 벡터 머신임을 알 수 있었다. 현재 도출된 결과로 볼 때, 토압식 쉴드TBM의 기계데이터와 지반정보가 포함된 데이터를 활용한 굴진성능 예측 모델의 적합성은 높다고 판단된다. 추가적으로 지반조건의 다양성과 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

양식뱀장어 생산단계 안전성 조사를 위한 베이지안 네트워크 모델의 적용 (Application of Bayesian network for farmed eel safety inspection in the production stage)

  • 조승용
    • 한국식품저장유통학회지
    • /
    • 제30권3호
    • /
    • pp.459-471
    • /
    • 2023
  • 뱀장어 생산단계 안전성조사 부적합여부에 영향을 미치는 특성변수를 베이지안 네트워크(BN) 모델을 적용하여 분석하였다. 2012년부터 2021년까지의 통합식품안전정보망(IFSIN)의 뱀장어 생산단계 안전성조사 데이터에 양식장의 HACCP 정보, 지리적 정보 및 용수환경 데이터를 연계하여 BN 모델을 수립하였다. 뱀장어의 부적합여부에 영향을 주는 특성변수로 양식장의 HACCP 인증여부, 양식장의 이전 5년간 검사대상 유해물질의 검출여부, 해당 양식장의 이전 5년간 부적합적발이력, 사용되는 용수환경의 적정성이 제안되었으며, 이때 용수환경의 적정성은 총대장균군과 총유기탄소량으로부터 산출되었다. 뱀장어 부적합이 발생할 확률이 가장 높은 경우는 지난 5년간 검사대상 유해물질의 검출이력이 있으면서 동시에 부적합 적발 이력이 있는 HACCP 인증을 받지 않은 양식장으로서, 용수환경도 총대장균군 또는 총유기탄소가 높아 오염이 의심되는 용수를 사용하는 경우로 이때 부적합이 발생할 확률은 24.5%로 뱀장어 생산단계 안전성 조사 시 부적합률인 0.26%의 94배 높았다. 2022년 1월부터 8월까지 뱀장어 양식장 안전성조사 결과를 시험용 데이터세트(6,785건 중 부적합 15건)로 하여 BN 모델의 적정성을 검토하였다. 영향강도가 높았던 설명변수인 HACCP, 검출이력, 부적합이력으로 구성한 BN 모델을 시험용 데이터세트에 적용한 결과 부적합일 확률이 15.8%로 시험용데이터의 부적합률인 0.22%의 약 71.4배 개선할 수 있었다. 그러나 이 모델의 재현율은 0.2에 머물렀는데, 이는 특히 부적합항목인 유해물질의 기준·규격이 신설되어 해당 양식장에서 검사기록이 없는 경우와, 매우 드물게 발생하여 10년 동안 검출이력이 없어 학습데이터세트에는 없는 경우이었다. 베이지안 네트워크를 적용하여 부적합확률이 높은 생산단계 안전성 조사대상을 선정하게 되면 설명변수별로 시나리오에 따라 부적합확률을 설명가능하게 되어 다른 머신러닝 알고리즘을 적용하는 경우 지적되어온 설명불가능이라는 문제점을 해소할 수 있으며, 향후 안전성조사 데이터 축적 시 용이하게 모델 업데이트가 가능하며 이를 통해 모델의 예측성능개선도 기대할 수 있다는 장점이 있다.

Inception V3를 이용한 흉부촬영 X선 영상의 폐렴 진단 분류 (Diagnostic Classification of Chest X-ray Pneumonia using Inception V3 Modeling)

  • 김지율;예수영
    • 한국방사선학회논문지
    • /
    • 제14권6호
    • /
    • pp.773-780
    • /
    • 2020
  • 4차 산업의 발전으로 의학·보건·바이오 등 여러 과학기술 분야에서는 질병을 예방하고 질병에 대한 피해를 줄이기 위한 연구가 이루어지고 있으며, 최근에는 ICT 기술의 발전과 더불어 인공지능 기술이 급부상하고 그 효용성이 입증되면서 영상의학 검사의 영상 분석에 인공지능 기술이 도입되어 연구되고 있다. 본 논문에서는 흉부 X선 영상을 이용하여 폐렴의 분류와 검출에 대한 딥러닝 모델을 직접 적용해보고 실제로 Inception 계열의 딥러닝 모델이 폐렴 검출에 있어 유용한 모델인지 평가하고자 한다. 실험재료는 캐글(Kaggle)에서 무료로 제공 및 공유하는 흉부 X선 영상 데이터 세트를 사용하였으며 전체 3,470개의 흉부 X선 영상 데이터 중 학습 데이터 세트 1,870개, 검증 데이터 세트 1,100개, 테스트 데이터 세트 500개로 분류하였다. 실험결과 Inception V3 딥러닝 모델의 Metric 평가에 대한 결과값은 정확도는 94.80%, 정밀도는 97.24%, 재현율은 94.00%, F1 스코어는 95.59의 결과값을 나타내었다. 그리고 흉부 X선 영상의 페렴 검출 및 분류에 대하여 Inception V3 딥러닝 모델링에 대한 최종 에포크의 정확도는 학습 모델링의 경우 94.91%, 검증 모델링은 89.68%의 정확도를 나타내었다. 손실함수 값의 평가는 학습 모델링은 1.127%, 검증 모델링은 4.603%의 손실함수 값을 나타내었다. 이러한 결과로 Inception V3 딥러닝 모델은 흉부영상 데이터의 특징 추출 및 분류에 있어 매우 우수한 딥러닝 모델이며 학습상태 또한 매우 우수하다고 평가하였다. 테스트 모델링에 대한 매트릭스 정확도 평가 결과 정상 흉부 X선 영상 데이터의 경우 96%, 폐렴 흉부 X선 영상데이터의 경우 97%의 정확도가 입증되었다. Inception 계열의 딥러닝 모델의 경우 흉부 질환의 분류에 있어 유용한 딥러닝 모델이 될 것이라고 판단되며 인력의 보조적인 역할 또한 수행할 수 있을 것이라고 기대되어 부족한 의료인력 문제에도 해결점이 될 것이라고 사료된다. 향후 딥러닝을 이용한 폐렴의 진단에 대한 유사 연구 시 본 연구는 유사 연구의 기초자료로 제시될 것이라고 기대된다.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.

설명 가능한 이미지 인식을 위한 채널 주의 기반 딥러닝 방법 (Deep Learning Methods for Explainable Image Recognition)

  • 백나;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.586-589
    • /
    • 2024
  • 본 실험 연구에서는 주의 메커니즘과 컨볼루션 신경망을 결합하여 모델을 개선하는 방법을 탐색하는 딥 러닝 기술을 소개한다. 이 기술은 지도 학습 방식을 위해 공개 데이터 세트의 쓰레기 분류 데이터를 사용하고, Grad-CAM 기술과 채널 주의 메커니즘 SE 를 적용하여 모델의 분류 의사 결정 과정을 더 잘 이해하기 위해 히트 맵을 생성한다. Grad-CAM 기술을 사용하여 히트 맵을 생성하면 분류 중에 모델이 집중하는 영역을 시각화할 수 있다. 이는 모델의 분류 결정을 설명하는 방법을 제공하여 다양한 이미지 카테고리에 대한 모델 결정의 기초를 더 잘 이해할 수 있다. 실험 결과는 전통적인 합성곱 신경망과 비교하여 제안한 방법이 쓰레기 분류 작업에서 더나은 성능을 달성한다는 것을 보여준다. 주의 메커니즘과 히트맵 해석을 결합함으로써 우리 모델은분류 정확도를 향상시킬 수 있다. 이는 실제 응용 분야의 이미지 분류 작업에 큰 의미가 있으며 해석 가능성에 대한 딥 러닝 연구 진행을 촉진하는 데 도움이 된다.

키워드 음성인식을 위한 음성합성 기반 자동 학습 기법 (A Automated Method for Training Keyword Spotter based on Speech Synthesis)

  • 임재봉;이종수;조용훈;백윤주
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.494-496
    • /
    • 2021
  • 최근 경량 딥러닝 기반 키워드 음성인식은 가전, 완구, 키오스크 등 다양한 응용에 음성 인터페이스를 쉽게 적용할 수 있는 기술로서 주목받고 있다. 키워드 음성인식은 일부 키워드만 인식 가능한 음성인식 기술로서 저성능 디바이스에서 활용 가능한 장점이 있다. 그러나 응용에 따라 필요한 키워드에 대하여 다시 음성데이터를 수집해야하고 이를 학습하여 모델을 새로 준비해야하는 단점이 있다. 따라서 본 연구에서는 음성데이터 수집 없이 음성합성을 통해 생성한 음성으로만 키워드 음성인식 모델을 학습하는 음성합성 기반 자동 학습 기법을 제안하였다. 생성한 음성데이터를 활용하고자하는 시도가 활발히 이루어지고 있으나, 기존 연구에서는 정확도를 유지하기 위하여 수집한 실제 음성데이터가 필요한 한계가 있다. 제안한 자동 학습 기법은 생성한 음성데이터에 대해 복합 데이터 증대 기법을 적용하여 실제 음성데이터 없이 키워드 음성인식의 정확도를 높였다. 제안한 기법에 대하여 상용 음성합성 서비스를 기반으로 수집한 한국어 키워드 데이터세트를 활용하여 성능평가를 진행하였다. 20개 한국어 키워드에 대해 실험한 결과, 제안한 기법을 적용하여 학습시킨 키워드 음성인식 모델의 정확도는 86.44%임을 확인하였다.

이수식 TBM 데이터와 랜덤포레스트를 이용한 일축압축강도 분류 예측에 관한 연구 (A Study on the Prediction of Uniaxial Compressive Strength Classification Using Slurry TBM Data and Random Forest)

  • 강태호;최순욱;이철호;장수호
    • 터널과지하공간
    • /
    • 제33권6호
    • /
    • pp.547-560
    • /
    • 2023
  • 최근 국내외에서 기계학습 기법으로 TBM 굴진 데이터와 지반데이터를 분석하는 지반 분류예측 연구가 증가하고 있다. 본 연구에서는 다양한 분야에서 널리 사용되고 있는 머신러닝 기법들 중 의사결정트리 기반 랜덤포레스트 모델을 3곳의 이수식 TBM 현장에서 획득한 기계 데이터와 지반 데이터에 적용하여 일축압축강도에 대한 다중 분류예측 연구를 하였다. 일축압축강도의 다중 분류 예측을 위해서 학습과 테스트 데이터를 7:3으로 분할하였으며, 최적의 파라미터를 선정을 위해서 분할 교차검증을 포함하는 그리드 서치를 활용하였다. 의사 결정 트리를 기반으로 한 랜덤 포레스트를 사용하여 일축압축강도 분류 학습을 수행한 결과, 다중 분류 예측 모델의 정확도는 학습 세트와 테스트 세트에서 각각 0.983 및 0.982로 모두 높게 나타났다. 다만, 클래스 간 데이터 분포의 불균형으로 인하여 클래스 4에서는 재현율이 낮게 평가되었다. 다양한 현장에서 획득한 일축압축강도의 측정 데이터양을 늘리는 연구가 필요한 것으로 판단된다.

객체 바운딩 박스와 원본 이미지 결합을 이용한 합성 데이터 생성 기법 (Synthetic data generation technique using object bounding box and original image combination)

  • 이주혁;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.476-478
    • /
    • 2023
  • 딥러닝은 컴퓨터 비전의 상당한 발전을 기여했지만, 딥러닝 모델을 학습하려면 대규모 데이터 세트가 필요하다. 이를 해결하기 위해 데이터 증강 기술이 주목받고 있다. 본 논문에서는 객체 추출 바운딩 박스와 원본 이미지의 바운딩 박스를 결합하여 합성 데이터 생성기법을 제안한다. 원본 이미지와 동일한 범주의 데이터셋에서 참조 이미지의 객체를 추출한 다음 생성 모델을 사용하여 참조 이미지와 원본 이미지의 특징을 통합하여 새로운 합성 이미지를 만든다. 실험을 통해, 생성 기법을 통한 딥러닝 모델의 성능향상을 보여준다.