• 제목/요약/키워드: 학습 및 검증 데이터

검색결과 565건 처리시간 0.03초

영상 데이터 무결성 검증 시스템을 위한 Logger 설계 및 개발 (Design and Development of Logger of Image Data Integrity Verification System)

  • 김명준;유태근;정석원;박재성;권태언;강윤희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.650-652
    • /
    • 2022
  • 최근 데이터를 기반 응용개발이 다양한 분야에서 진행되고 있으며, 수집 데이터는 주요한 의사결정에 사용되고 있다. 이러한 데이터 기반 응용은 데이터의 무결성(data integrity)의 보장과 데이터 생산 과정에서의 진본 확인을 위한 체계가 요구된다. 본 논문에서는 영상 데이터의 무결성 검증 시스템을 구성하는 Logger 설계와 개발을 기술한다. 개발된 Logger 는 해시값을 통해 영상 데이터의 신뢰성을 만족할 수 있다면 영상 데이터를 통해 학습되어 생성된 학습 모델에 대한 신뢰성 또한 보장할 수 있다. Logger 는 라즈베리파이 환경에서 구현한 후 FPS 를 변경하며, 무결성 검증을 실험한다.

AI 사이버보안 체계를 위한 블록체인 기반의 Data-Preserving AI 학습환경 모델 (Blockchain Based Data-Preserving AI Learning Environment Model for Cyber Security System)

  • 김인경;박남제
    • 한국정보기술학회논문지
    • /
    • 제17권12호
    • /
    • pp.125-134
    • /
    • 2019
  • 인공지능 기술은 작동과정에 대한 투명성이 보장되지 않는 수동적 인식 영역에 제한되는 한계점으로 인해, AI가 학습하는 데이터에 의존적인 취약점을 갖는다. 인공지능 학습을 위한 원시데이터는 AI 학습의 고도화를 위한 데이터 품질 확보를 위해 수작업으로 가공과 검수를 해야 하기에 인적 오류가 내재되어 있으며, 데이터의 훼손, 불완전함, 원시데이터와의 차이 등으로 인해 가공데이터를 통한 AI 학습 시 예상 치 못한 결과값을 도출할 수 있다. 이에 본 연구에서는 사이버 보안 관점에서의 접근을 통한 AI 학습데이터의 부정확한 사례 및 사이버보안 공격 방법 분석을 통해 기계학습 전 학습데이터 관리의 필요성을 살펴보고, 학습 데이터 무결성 검증을 위해 블록체인 기반의 학습데이터 환경 모델인 Data-preserving 인공지능 시스템 구축 방향을 제시한다. Data-preserving AI 학습환경 모델은 AI 학습데이터 제공 전 변조되지 않은 데이터로 학습됨을 보장 하여 데이터 가공 시 및 원시데이터 수집을 위한 오픈 네트워크에서의 데이터 제공 및 활용 시 있을 수 있는 사이버 공격, 데이터 변질 등의 위협을 사전에 방지할 수 있을 것으로 기대된다.

한국어 문장 표현을 위한 비지도 대조 학습 방법론의 비교 및 분석 (Comparison and Analysis of Unsupervised Contrastive Learning Approaches for Korean Sentence Representations)

  • 유영현;이규민;전민진;차지이;김강산;김태욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.360-365
    • /
    • 2022
  • 문장 표현(sentence representation)은 자연어처리 분야 내의 다양한 문제 해결 및 응용 개발에 있어 유용하게 활용될 수 있는 주요한 도구 중 하나이다. 하지만 최근 널리 도입되고 있는 사전 학습 언어 모델(pre-trained language model)로부터 도출한 문장 표현은 이방성(anisotropy)이 뚜렷한 등 그 고유의 특성으로 인해 문장 유사도(Semantic Textual Similarity; STS) 측정과 같은 태스크에서 기대 이하의 성능을 보이는 것으로 알려져 있다. 이러한 문제를 해결하기 위해 대조 학습(contrastive learning)을 사전 학습 언어 모델에 적용하는 연구가 문헌에서 활발히 진행되어 왔으며, 그중에서도 레이블이 없는 데이터를 활용하는 비지도 대조 학습 방법이 주목을 받고 있다. 하지만 대다수의 기존 연구들은 주로 영어 문장 표현 개선에 집중하였으며, 이에 대응되는 한국어 문장 표현에 관한 연구는 상대적으로 부족한 실정이다. 이에 본 논문에서는 대표적인 비지도 대조 학습 방법(ConSERT, SimCSE)을 다양한 한국어 사전 학습 언어 모델(KoBERT, KR-BERT, KLUE-BERT)에 적용하여 문장 유사도 태스크(KorSTS, KLUE-STS)에 대해 평가하였다. 그 결과, 한국어의 경우에도 일반적으로 영어의 경우와 유사한 경향성을 보이는 것을 확인하였으며, 이에 더하여 다음과 같은 새로운 사실을 관측하였다. 첫째, 사용한 비지도 대조 학습 방법 모두에서 KLUE-BERT가 KoBERT, KR-BERT보다 더 안정적이고 나은 성능을 보였다. 둘째, ConSERT에서 소개하는 여러 데이터 증강 방법 중 token shuffling 방법이 전반적으로 높은 성능을 보였다. 셋째, 두 가지 비지도 대조 학습 방법 모두 검증 데이터로 활용한 KLUE-STS 학습 데이터에 대해 성능이 과적합되는 현상을 발견하였다. 결론적으로, 본 연구에서는 한국어 문장 표현 또한 영어의 경우와 마찬가지로 비지도 대조 학습의 적용을 통해 그 성능을 개선할 수 있음을 검증하였으며, 이와 같은 결과가 향후 한국어 문장 표현 연구 발전에 초석이 되기를 기대한다.

  • PDF

사용자 건강 상태알림 서비스의 상황인지를 위한 기계학습 모델의 학습 데이터 생성 방법 (Generating Training Dataset of Machine Learning Model for Context-Awareness in a Health Status Notification Service)

  • 문종혁;최종선;최재영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권1호
    • /
    • pp.25-32
    • /
    • 2020
  • 다양한 분야에서 활용되는 상황인지 시스템은 상황정보를 획득하기 위한 추상화 과정에서 규칙 기반의 인공기능 기술이 기존에 사용되었다. 그러나 서비스에 대한 사용자의 요구사항이 다양해지고 사용되는 데이터의 증대로 규칙이 복잡해지면서 규칙 기반 모델의 유지보수와 비정형 데이터를 처리하는데 어려움이 있다. 이러한 한계점을 극복하기 위해 많은 연구들에서는 상황인지 시스템에 기계학습 기술을 적용하였으며, 이러한 기계학습 기반의 모델을 상황인지 시스템에 사용하기 위해서는 주기적으로 학습 데이터를 제공해야 한다. 이에 기계학습 기반 상황인지 시스템에 대한 선행연구에서는 여러 개의 기계학습 모델을 적용하기 위한 학습 데이터 생성, 제공 등의 과정을 보였으나 제한된 종류의 기계학습 모델만을 적용 가능하여 확장성이 고려되어야 한다. 본 논문은 기계학습 기반의 상황인지 시스템의 확장성을 고려한 기계학습 모델의 학습 데이터 생성 방법을 제안한다. 제안하는 방법은 시스템의 확장성을 고려하여 기계학습 모델의 요구사항을 반영할 수 있는 학습 데이터 생성 모델을 정의하고 학습 데이터 생성 모듈을 바탕으로 각각의 기계학습 모델의 학습 데이터를 생성하는 것이다. 시스템의 확장성의 검증을 위해 실험에서는 노인의 건강상태 알림 서비스를 위한 심박상태 분석 모델을 대상으로 한 학습데이터 생성 스키마를 기반으로 학습데이터 생성 모델을 정의하고 실환경에서 정의된 모델을 S/W에 적용하여 학습데이터를 생성한다. 또한 생성된 학습데이터의 유효성을 검증하기 위해 사용되는 기계학습 모델에 생성한 학습데이터를 학습시켜 정확도를 비교하는 과정을 보인다.

메타휴리스틱 최적화 알고리즘-딥러닝 결합모형의 성능 개량을 위한 데이터 전처리의 적용 (Application of data preprocessing to improve the performance of the metaheuristic optimization algorithm-deep learning combination model)

  • 류용민;이의훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.114-114
    • /
    • 2022
  • 딥러닝의 학습 및 예측성능을 개선하기 위해서는 딥러닝 기법 내 연산과정의 개선과 함께 학습 및 예측에 사용되는 데이터의 전처리 과정이 중요하다. 본 연구에서는 딥러닝의 성능을 개량하기 위해 제안된 메타휴리스틱 최적화 알고리즘-딥러닝 결합모형과 데이터 전처리 기법을 통해 댐의 수위를 예측하였다. 수위예측을 위해 Multi-Layer Perceptron(MLP), 메타휴리스틱 최적화 알고리즘인 Harmony Search(HS)와 딥러닝을 결합한 MLP using a HS(MLPHS) 및 Exponential Bandwidth Harmony Search with Centralized Global Search(EBHS-CGS)와 딥러닝을 결합한MLP using a EBHS-CGS(MLPEBHS)를 통해 댐의 수위를 예측하였다. 메타휴리스틱 최적화 알고리즘-딥러닝 결합모형의 학습 및 예측성능을 개선하기 위해 학습 및 예측을 위한 자료를 기반으로 데이터 전처리기법을 적용하였다. 적용된 데이터 전처리 기법은 정규화, 수위구간별 사상(Event)분리 및 수위 변동에 대한 자료의 구분이다. 수위예측을 위한 대상유역은 금강유역에 위치한 대청댐으로 선정하였다. 대청댐의 수위예측을 위해 대청댐 상류에 위치하는 수위관측소 3개소를 선정하여 수위자료를 취득하였다. 각 수위관측소에서 취득한 수위자료를 입력자료로 설정하였으며, 대청댐의 수위자료를 출력자료로 설정하여 메타휴리스틱 최적화 알고리즘-딥러닝 모형의 학습을 진행하였다. 각 수위관측소 및 대청댐에서 취득한 수위자료는 2010년부터 2020년까지 총 11년의 일 단위 수위자료이며, 2010년부터 2019년까지의 자료를 학습자료로 사용하였으며, 2020년의 자료를 예측 및 검증자료로 사용하였다.

  • PDF

SWaT 테스트베드 데이터 셋 및 비정상행위 탐지 동향

  • 권성문;손태식
    • 정보보호학회지
    • /
    • 제29권2호
    • /
    • pp.29-35
    • /
    • 2019
  • CPS(Cyber Physical System)에 대한 사이버 공격이 다양해지고 고도화됨에 따라 시그니쳐에 기반한 악성행위 탐지는 한계가 있어 기계학습 기반의 정상행위 학습을 통한 비정상행위 탐지 기법이 많이 연구되고 있다. 그러나 CPS 보안 연구는 보안상의 이유로 CPS 데이터가 주로 외부에 공개되지 않으며 또한 실제 비정상행위를 가동 중인 CPS에 실험하는 것이 불가능하여 개발 기법의 검증이 어려운 문제가 있다. 이를 해결하기 위해 2015년 SUTD(Singapore University of Technology and Design)의 iTrust 연구소에서 SWaT(Secure Water Treatment) 테스트베드를 구성하고 36가지의 공격을 수행한 데이터셋을 공개하였다. 이후 국 내외에서 SWaT 테스트베드 데이터를 사용하여 다양한 보안 기법을 검증한 연구결과가 발표되고 있으며 CPS 보안에 기여하고 있다. 따라서 본 논문에서는 SWaT 테스트베드 데이터 및 SWaT 테스트베드 데이터에 기반한 비정상행위 탐지 연구를 분석한 내용을 설명하고, 이를 통해 CPS 비정상행위 탐지 설계의 주요 요소를 분석하여 제시하고자 한다.

머신러닝을 활용한 팔당호 유해남조 세포수 예측 (Prediction of harmful algal cell density in Lake Paldang using machine learning)

  • 변서현;이한규;김진휘;신재기;박용은
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.234-234
    • /
    • 2023
  • 유해 남조 대발생(Harmful Algal blooms, HABs)이 담수호에 발생하면 마이크로시스틴과 같은 독성물질과 맛·냄새 물질을 생성하여 상수원이용과 친수활동을 방해한다. 그래서 유해 남조 대발생 전 유해남조 세포수를 예측하여 선제적 대응하는 것은 중요하다. 따라서 본 연구는 머신러닝기반 Random Forest(RF)를 활용하여 팔당댐 앞의 유해남조 세포수를 예측하는 모델을 개발하고 성능을 평가하고자 한다. 모델 구축을 위해 2012년 4월부터 2021년 12월까지의 팔당호(삼봉리, 경안천) 및 남북한강(의암댐~이포보)권역의 조류, 수질, 수리/수문, 기상 자료를 수집하여 입력 및 출력 자료로 이용하였다. 수집된 데이터에는 다양한 입력변수들이 있어 남조 세포수 예측 성능 비교를 위한 전체 26개 변수 적용과 통계학적으로 상관관계가 높은 12개 변수 적용을 통해 모델을 구축하였다. 입력, 출력 자료로 이용한 유해남조 세포수는 로그변환된 값으로 사용하였으며 일반적인 조류 시료 채취기간이 7일이므로 7일 후를 예측하기 위한 모델을 구축하였다. 구축한 모델의 성능은 실측데이터와 예측데이터의 R2로 산출하여 평가하였다. 전체 26개 입력변수로 모델 구축 후 학습 및 검증 수행 결과 R2의 학습 0.803, 검증 0.729로 나타났고, 유해남조 세포수와 유의미한 상관관계를 보이는 12개 입력변수로 모델 구축 후 학습 및 검증 수행 R2은 학습 0.784, 검증 0.731로 나타났다. 두 모델의 성능을 살펴본 결과 입력변수 개수의 변화에 따른 성능차이는 크지 않은 것으로 나타났으며, 남조세포수 예측을 위한 모델로서 활용가능함을 알 수 있었다. 향후 연구에서는 Random Forest 외 다른 기계학습 모델들과 딥러닝 모델을 통해 남조세포수 예측 성능이 높은 모델을 구축해볼 필요성이 있다.

  • PDF

고차 데이터 분류를 위한 순차적 베이지안 샘플링을 기반으로 한 하이퍼네트워크 모델의 진화적 학습 기법 (Evolutionary Learning of Hypernetwork Classifiers Based on Sequential Bayesian Sampling for High-dimensional Data)

  • 하정우;김수진;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.336-338
    • /
    • 2012
  • 본 연구에서는 고차 데이터 분류를 위해 순차적 베이지만 샘플링 기반의 진화연산 기법을 이용한 하이퍼네트워크 모델의 학습 알고리즘을 제시한다. 제시하는 방법에서는 모델의 조건부 확률의 사후(posterior) 분포를 최대화하도록 학습이 진행된다. 이를 위해 사전(prior) 분포를 문제와 관련된 사전지식(prior knowledge) 및 모델 복잡도(model complexity)로 정의하고, 측정된 모델의 분류성능을 우도(likelihood)로 사 용하며, 측정된 사전분포와 우도를 이용하여 모델의 적합도(fitness)를 정의한다. 이를 통해 하이퍼네트워크 모델은 고차원 데이터를 효율적으로 학습 가능할 뿐이 아니라 모델의 학습시간 및 분류성능이 개선될 수 있다. 또한 학습 시에 파라미터로 주어지던 하이퍼에지의 구성 및 모델의 크기가 학습과정 중에 적응적으로 결정될 수 있다. 제안하는 학습방법의 검증을 위해 본 논문에서는 약 25,000개의 유전자 발현정보 데이터셋에 대한 분류문제에 모델을 적용한다. 실험 결과를 통해 제시하는 방법이 기존 하이퍼네트워크 학습 방법 뿐 아니라 다른 모델들에 비해 우수한 분류 성능을 보여주는 것을 확인할 수 있다. 또한 다양한 실험을 통해 사전분포로 사용된 사전지식이 모델 학습에 끼치는 영향을 분석한다.

적합성 검증을 통한 관계 추출 성능 향상 (Improving Relation Extraction Performance using Relevance Verification)

  • 원유성;김지성;남상하;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.90-95
    • /
    • 2015
  • 기계적 학습을 위해서는 일반적으로 많은 양의 수동 주석데이터(Manually Labeled Data)가 요구된다. 원격지도(Distant Supervision)는 현실적으로 부족한 주석데이터(Labeled Data)를 대신해 자동적으로 주석데이터를 수집하여 학습하는 접근 방식으로 관계 추출(Relation Extracion) 문제에 널리 활용되고 있다. 이때 필연적으로 많은 노이즈(Noise)가 발생되는데, 적합성 검증(Relevance Verification)을 통해 수집된 학습데이터를 정제함으로써 노이즈로 인한 변동성을 줄이고 결과적으로 향상된 성능을 보여주는 관계 추출 방법을 제시한다.

  • PDF

자기 학습 방법을 이용한 음성 대화 시스템의 슬롯 교정 (Self-learning Method Based Slot Correction for Spoken Dialog System)

  • 최태균;김민경;이인재;이지은;박규연;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.353-360
    • /
    • 2021
  • 음성 대화 시스템에서는 사용자가 잘못된 슬롯명을 말하거나 음성인식 오류가 발생해 사용자의 의도에 맞지 않는 응답을 하는 경우가 있다. 이러한 문제를 해결하고자 말뭉치나 사전 데이터를 활용한 질의 교정 방법들이 제안되지만, 이는 지속적으로 사람이 개입하여 데이터를 주입해야하는 한계가 있다. 본 논문에서는 축적된 로그 데이터를 활용하여 사람의 개입 없이 음악 재생에 필요한 슬롯을 교정하는 자기 학습(Self-learning) 기반의 모델을 제안한다. 이 모델은 사용자가 특정 음악을 재생하고자 유사한 질의를 반복하는 상황을 이용하여 비지도 학습 기반으로 학습하고 음악 재생에 실패한 슬롯을 교정한다. 그리고, 학습한 모델 결과의 정확도에 대한 불확실성을 해소하기 위해 질의 슬롯 관계 유사도 모델을 이용하여 교정 결과에 대한 검증을 하고 슬롯 교정 결과에 대한 안정성을 보장한다. 모델 학습을 위한 데이터셋은 사용자가 연속으로 질의한 세션 데이터로부터 추출하며, 음악 재생 슬롯 세션 데이터와 질의 슬롯 관계 유사도 데이터를 각각 구축하여 슬롯 교정 모델과 질의 슬롯 관계 유사도 모델을 학습한다. 교정된 슬롯을 분석한 결과 발음 정보가 유사한 슬롯 뿐만 아니라 의미적인 관계가 있는 슬롯으로도 교정하여 사전 기반 방식보다 다양한 유형의 교정이 가능한 것을 보였다. 3 개월 간 수집된 로그 데이터로 학습한 음악 재생 슬롯 교정 모델은 일주일 동안 반복한 고유 질의 기준, 음악 재생 실패의 12%를 개선하는 성능을 보였다.

  • PDF