• 제목/요약/키워드: 평가 데이터셋

검색결과 463건 처리시간 0.035초

단일 클래스 분류기를 사용한 차량 해킹 탐지 (Detection of Car Hacking Using One Class Classifier)

  • 서재현
    • 한국융합학회논문지
    • /
    • 제9권6호
    • /
    • pp.33-38
    • /
    • 2018
  • 본 논문에서는 단일 클래스만을 학습하여 차량에 대한 새로운 공격을 탐지한다. 분류 성능 평가를 위해 Car-Hacking 데이터셋을 사용한다. Car-Hacking 데이터셋은 실제 차량의 OBD-II 포트를 통해 CAN (Controller Area Network) 트래픽을 로깅하여 생성된다. 이 데이터셋에는 네 가지 공격 유형이 포함된다. 실험에 사용한 단일 클래스 분류기법은 정상 클래스만을 학습하여 비정상인 공격 클래스를 분류해내는 비지도 학습이다. 비지도 학습 방법을 사용하는 경우에 훈련 과정에서 네거티브 인스턴스를 사용하지 않기 때문에 고효율의 분류 성능을 내는 것은 어렵다. 하지만, 비지도 학습은 라벨이 없는 새로운 공격 데이터를 분류하는데 적합한 장점이 있다. 본 연구에서는 네트워크 침입탐지 시스템에서 서명기반의 규칙으로 탐지하기 어려운 새로운 공격 유형을 탐지하기 위해 단일 클래스 분류기를 사용한다. 제안 방법은 새로운 공격을 모두 탐지하고 정상데이터에 대해서도 효율적인 분류 성능을 보이는 파라미터 조합을 제시한다.

특징 분해를 이용한 얼굴 나이 분류 및 합성 (Facial Age Classification and Synthesis using Feature Decomposition)

  • 김찬호;박인규
    • 방송공학회논문지
    • /
    • 제28권2호
    • /
    • pp.238-241
    • /
    • 2023
  • 최근 인공지능 모델을 이용한 얼굴인식, 얼굴 수정 등 다양한 얼굴 작업들이 실생활에도 광범위하게 사용되고 있다. 그러나 모델의 학습에 사용되는 대부분의 얼굴 데이터셋은 사회활동이 활발한 특정 나이에 편중되고, 어린아이나 노인의 데이터가 적은 경향이 있다. 이와 같은 데이터셋 불균형 문제는 모델의 학습에도 좋지 않은 영향을 끼쳐, 아이나 노인같이 데이터가 적은 나이의 사람이 인공지능 모델을 사용할 때 사회활동이 활발한 나이의 사람이 사용할 때보다 성능이 떨어질 수 있고, 이들의 인공지능 모델 사용을 어렵게 할 가능성이 높다. 이를 개선하기 위해 본 논문은 특징 분해를 활용하여 얼굴 영상으로부터 나이를 분류하고 목표 나이로 합성하는 기법을 제안한다. 제안하는 기법은 FFHQ-Aging 데이터셋을 이용한 정량적, 정성적 평가를 통해 기존의 방법보다 더 나은 성능을 보인다.

움직임 인식응용을 위한 커널 밀도 추정 기반 학습용 데이터 증폭 기법 (Data Augmentation using a Kernel Density Estimation for Motion Recognition Applications)

  • 정우순;이형규
    • 한국산업정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.19-27
    • /
    • 2022
  • 머신러닝(ML, Machine Learning)기반 응용에서의 인식성능은 적용된 모델의 종류와 크기, 학습환경 및 학습에 사용되는 데이터 등 다양한 요인에 따라 결정된다. 특히 학습에 사용되는 데이터가 충분치 않을 경우 인식성능이 저하되거나 과적합(Overfitting)등의 문제가 발생하기도 한다. 이미지 인식을 주요 대상으로 하는 기존 연구들은 학습을 위한 데이터셋이 풍부하고 검증된 데이터셋을 사용하여 학습 및 인식성능을 평가할 수 있다. 하지만 사용된 센서, 인식의 대상, 인식 상황이 다른 특정 응용들의 경우 데이터셋을 직접 구축해야 한다. 이런 경우, ML모델의 성능은 데이터의 양과 품질에 따라 달라진다. 본 논문에서는 이용 가능한 학습용 데이터가 충분치 않은 움직임 인식응용에 효율적으로 사용될 수 있는 비모수 추정 방식의 일종인 커널 밀도 추정 알고리즘을 사용하여 학습용 데이터를 증폭한 후, 사용된 커널의 종류에 따라, 원본 데이터의 수 및 증폭 비율에 따라 증폭된 데이터가 원본 데이터의 특징을 잘 반영하는지 인식 정확도 변화를 토대로 비교 분석한다. 실험결과, 본 연구에서 사용한 움직임 인식응용에서는 좁은 대역폭을 가진 Tophat 커널로 증폭된 데이터셋에서 최대 14.31%의 인식 정확도 향상을 확인하였다.

기계독해 시스템에서 답변 불가능 문제 해결을 위한 독해 패턴 모방 방법 (Machine Reading Comprehension System to Solve Unanswerable Problems using Method of Mimicking Reading Comprehension Patterns)

  • 이예진;장영진;이현구;신동욱;박찬훈;강인호;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-143
    • /
    • 2021
  • 최근 대용량 말뭉치를 기반으로 한 언어 모델이 개발됨에 따라 다양한 자연어처리 분야에서 사람보다 높은 성능을 보이는 시스템이 제안되었다. 이에 따라, 더 어렵고 복잡한 문제를 해결하기 위한 데이터셋들이 공개되었으며 대표적으로 기계독해 작업에서는 시스템이 질문에 대해 답변할 수 없다고 판단할 수 있는지 평가하기 위한 데이터셋이 공개되었다. 입력 받은 데이터에 대해 답변할 수 없다고 판단하는 것은 실제 애플리케이션에서 중요한 문제이기 때문에, 이를 해결하기 위한 연구도 다양하게 진행되었다. 본 논문에서는 문서를 이해하여 답변할 수 없는 데이터에 대해 효과적으로 판단할 수 있는 기계독해 시스템을 제안한다. 제안 모델은 문서의 내용과 질문에 대한 이해도가 낮을 경우 정확한 정답을 맞히지 못하는 사람의 독해 패턴에서 착안하여 기계독해 시스템의 문서 이해도를 높이고자 한다. KLUE-MRC 개발 데이터를 통한 실험에서 EM, Rouge-w 기준으로 각각 71.73%, 76.80%을 보였다.

  • PDF

완전 합성곱 신경망을 활용한 자동 포트홀 탐지 기술의 개발 및 평가 (Development and Evaluation of Automatic Pothole Detection Using Fully Convolutional Neural Networks)

  • 전찬준;심승보;강성모;류승기
    • 한국ITS학회 논문지
    • /
    • 제17권5호
    • /
    • pp.55-64
    • /
    • 2018
  • 운전자의 안전사고에 직접적인 원인이 되고, 차량 파손을 유발시켜 재산상의 피해를 발생시키고 있는 포트홀을 완전 합성곱 신경망 기반의 자동으로 탐지하는 기법을 본 논문에서는 제안한다. 먼저, 실제 국내 도로를 주행하면서 차량에 설치된 카메라를 통하여 학습 데이터셋을 수집하고, 완전 합성곱 신경망 구조를 활용하여 의미론적 분할 형태로 신경망을 학습하였다. 어두운 환경에서 강건한 성능을 보이기 위하여 학습 데이터셋을 밝기에 따라서 증강하여 총 30,000장의 이미지를 학습하였다. 또한, 제안된 자동 포트홀 탐지 기술의 성능을 검증하기 위하여 총 450장의 평가 DB를 생성하였고, 총 네 명의 전문가가 각각의 이미지를 평가하였다. 평가 결과, 제안된 포트홀 탐지 기술은 높은 민감도 수치를 나타나는 것으로 평가 되었으며, 이는 정탐에서 강건한 성능을 보이는 것으로 해석 가능하다.

생성모델의 시각적 최적화를 위한 학습데이터 제작기법 (Learning data production technique for visual optimization of generative models)

  • 조형래;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.13-14
    • /
    • 2021
  • 본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.

  • PDF

클러스터링을 이용한 이더리움 기반 스캠 코인 탐지 연구 (Clustering For Detecting Ethereum-Based Scam Coins)

  • 배유진;황유나;강명석;이승우;김성수;최유남;김현민;김경곤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.247-250
    • /
    • 2021
  • 최근 스캠 코인에 의한 피해 사례가 증가함에 따라 대부분의 가상자산 거래소가 상장된 가상자산에 대해 자체적 신뢰도 평가를 수행하고 있으나, 관련 법·제도적 체계의 부재로 인해 여전히 위험이 존재한다. 스캠 코인 여부를 판단하는 기존 서비스는 불명확한 스캠 코인 판별 기준으로 인해 충분히 신뢰하기 어려우며, 지도 학습에 필요한 라벨링 된 데이터셋이 충분하지 않아 관련 연구 또한 한계를 가진다. 본 논문은 클러스터링을 통해 스캠 코인 여부를 판단하는 것을 목표로 한다. 스캠 코인과 정상적인 가상자산을 구분하는 과정에서 유의미한 데이터를 수집하여 클러스터링을 수행하고, 스캠 코인 여부가 라벨링 된 테스트셋을 구성하여 클러스터링 결과를 평가한다. 이를 통해 본 논문이 제시하는 이더리움 기반 토큰에 대한 클러스터링 결과를 기반으로 추후 통일된 스캠 코인 판단 기준을 세울 수 있음을 제안한다.

고해상도 정사영상을 이용한 딥러닝 기반의 산림수종 분류에 관한 연구 (A Study on the Deep Learning-based Tree Species Classification by using High-resolution Orthophoto Images)

  • 장광민
    • 한국지리정보학회지
    • /
    • 제24권3호
    • /
    • pp.1-9
    • /
    • 2021
  • 본 연구에서는 드론으로 취득한 고해상도 정사영상 자료를 이용하여, 컨볼루션 신경망(Convolution Neural Network, CNN)을 이용한 딥러닝 기법을 통해 수종에 대한 자동분류 가능성을 분석해 보고자 하였다. 수종판독을 위한 분류항목을 소나무, 자작나무, 낙엽송, 잣나무 그리고 신갈나무 5개 수종으로 선정하였다. 고해상도 정사영상과 임상도를 이용하여 총 5,000개의 데이터셋을 구축하였다. 수종분류를 위한 학습모델로 CNN 기법을 적용하였고, 데이터셋을 5:3:2의 비율로 훈련데이터, 검증테이터, 테스트데이터를 구분하여 모델의 학습 및 평가에 사용하였다. 모델의 전체 정확도는 89%로 나타났으며, 수종별 정확도는 소나무 95%, 자작나무 89%, 낙엽송 80%, 잣나무 86%, 신갈나무 98%로 나타났다.

FAIR 원칙 기반 메타데이터 평가 프레임워크 (FAIR Principle-Based Metadata Assessment Framework)

  • 박진효;김성희;윤주상
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권12호
    • /
    • pp.461-468
    • /
    • 2022
  • 최근 빅데이터 산업의 발전으로 디지털 플랫폼에서 데이터 활용 서비스를 제공하는 사례가 증가하고 있다. 이와 관련해 데이터 관련 분야에서 (메타)데이터 품질, 서비스, 기능 등의 평가에 적용할 수 있는 FAIR 원칙을 데이터 품질 평가에 적용하여 활용하는 연구가 진행되고 있다. 특히, 유럽 오픈 데이터 포털에서는 FAIR 원칙 기반의 평가 모델을 적용하여 이를 기준으로 데이터 성숙도 평가를 시행하고 그 결과를 매년 보고서로 공개하고 있다. 이에 반해 공공데이터 포털에서는 메타데이터를 기반으로 한 데이터 성숙도 평가를 시행하고 있지 않다. 따라서 본 논문에서는 유럽 오픈 데이터 포털에서 데이터 성숙도 평가를 위해 사용되고 있는 FAIR 원칙을 국내 여러 공공데이터 포털 및 데이터 거래를 위해 구축된 빅데이터 플랫폼에 데이터 성숙도 평가를 위한 새로운 모델 제안하고 평가를 시행한다. 제안한 성숙도 평가 모델은 공공데이터 포털 데이터셋 품질을 평가하는 모델이다.

심층신경망의 더블 프루닝 기법의 적용 및 성능 분석에 관한 연구 (Application and Performance Analysis of Double Pruning Method for Deep Neural Networks)

  • 이선우;양호준;오승연;이문형;권장우
    • 융합정보논문지
    • /
    • 제10권8호
    • /
    • pp.23-34
    • /
    • 2020
  • 최근 인공지능 딥러닝 분야는 컴퓨팅 자원의 높은 연산량과 가격문제로 인해 상용화에 어려움이 존재했다. 본 논문은 더블 프루닝 기법을 적용하여 심층신경망 모델들과 다수의 데이터셋에서의 성능을 평가하고자 한다. 더블 프루닝은 기본의 네트워크 간소화(Network-Slimming)과 파라미터 프루닝(Parameter-Pruning)을 결합한다. 이는 기존의 학습에 중요하지 않는 매개변수를 절감하여 학습 정확도를 저해하지 않고 속도를 향상시킬 수 있다는 장점이 있다. 다양한 데이터셋 학습 이후에 프루닝 비율을 증가시켜, 모델의 사이즈를 감소시켰다. NetScore 성능 분석 결과 MobileNet-V3가 가장 성능이 높게 나타났다. 프루닝 이후의 성능은 Cifar 10 데이터셋에서 깊이 우선 합성곱 신경망으로 구성된 MobileNet-V3이 가장 성능이 높았고, 전통적인 합성곱 신경망으로 이루어진 VGGNet, ResNet또한 높은 폭으로 성능이 증가함을 확인하였다.