• 제목/요약/키워드: 기계 학습 모델

검색결과 1,136건 처리시간 0.034초

Hybrid Feature Selection과 Data Balancing을 통한 효율적인 네트워크 침입 탐지 모델 (Improved Network Intrusion Detection Model through Hybrid Feature Selection and Data Balancing)

  • 민병준;유지훈;신동규;신동일
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권2호
    • /
    • pp.65-72
    • /
    • 2021
  • 최근 네트워크 환경에 대한 공격이 급속도로 고도화 및 지능화 되고 있기에, 기존의 시그니처 기반 침입탐지 시스템은 한계점이 명확해지고 있다. 이러한 문제를 해결하기 위해서 기계학습 기반의 침입 탐지 시스템에 대한 연구가 활발히 진행되고 있다. 하지만 기계학습을 침입 탐지에 이용하기 위해서는 두 가지 문제에 직면한다. 첫 번째는 실시간 탐지를 위한 학습과 연관된 중요 특징들을 선별하는 문제이며, 두 번째는 학습에 사용되는 데이터의 불균형 문제로, 기계학습 알고리즘들은 데이터에 의존적이기에 이러한 문제는 치명적이다. 본 논문에서는 위 제시된 문제들을 해결하기 위해서 Hybrid Feature Selection과 Data Balancing을 통한 심층 신경망 기반의 네트워크 침입 탐지 모델인 HFS-DNN을 제안한다. NSL-KDD 데이터 셋을 통해 학습을 진행하였으며, 기존 분류 모델들과 성능 비교를 수행한다. 본 연구에서 제안된 Hybrid Feature Selection 알고리즘이 학습 모델의 성능을 왜곡 시키지 않는 것을 확인하였으며, 불균형을 해소한 학습 모델들간 실험에서 본 논문에서 제안한 학습 모델이 가장 좋은 성능을 보였다.

최신 기계번역 사후 교정 연구 (Recent Automatic Post Editing Research)

  • 문현석;박찬준;어수경;서재형;임희석
    • 디지털융복합연구
    • /
    • 제19권7호
    • /
    • pp.199-208
    • /
    • 2021
  • 기계번역 사후교정이란, 기계번역 문장에 포함된 오류를 자동으로 교정하기 위해 제안된 연구 분야이다. 이는 번역 시스템과 관계없이 번역문의 품질을 높이는 오류 교정 모델을 생성하는 목적을 가진 연구로, 훈련을 위해 소스문장, 번역문, 그리고 이를 사람이 직접 교정한 문장이 활용된다. 특히, 최신 기계번역 사후교정 연구에서는 사후교정 데이터를 통한 학습을 진행하기 이전에, 사전학습된 다국어 언어모델을 활용하는 방법이 적용되고 있다. 이에 본 논문은 최신 연구들에서 활용되고 있는 다국어 사전학습 언어모델들과 함께, 해당 모델을 도입한 각 연구에서의 구체적인 적용방법을 소개한다. 나아가 이를 기반으로, 번역 모델과 mBART모델을 활용하는 향후 연구 방향을 제안한다.

Deep Prompt Tuning 기반 한국어 질의응답 기계 독해 (Deep Prompt Tuning based Machine Comprehension on Korean Question Answering)

  • 김주형;강상우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.269-274
    • /
    • 2023
  • 질의응답 (Question Answering)은 주어진 질문을 이해하여 그에 맞는 답변을 생성하는 자연어 처리 분야의 핵심적인 기계 독해 작업이다. 현재 대다수의 자연어 이해 작업은 사전학습 언어 모델에 미세 조정 (finetuning)하는 방식으로 학습되고, 질의응답 역시 이러한 방법으로 진행된다. 하지만 미세 조정을 통한 전이학습은 사전학습 모델의 크기가 커질수록 전이학습이 잘 이루어지지 않는다는 단점이 있다. 게다가 많은 양의 파라미터를 갱신한 후 새로운 가중치들을 저장하여야 한다는 용량의 부담이 존재한다. 본 연구는 최근 대두되는 deep prompt tuning 방법론을 한국어 추출형 질의응답에 적용하여, 미세 조정에 비해 학습시간을 단축시키고 적은 양의 파라미터를 활용하여 성능을 개선했다. 또한 한국어 추출형 질의응답에 최적의 prompt 길이를 최적화하였으며 오류 분석을 통한 정성적인 평가로 deep prompt tuning이 모델 예측에 미치는 영향을 조사하였다.

  • PDF

자율주행 대응 기계학습 데이터를 관리하고 분석하는 소프트웨어의 개발 (Development of Data Management and Analysis Software for Autonomous Vehicle Driving Environment)

  • 박종빈;이한덕;김경원;정종진
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2019년도 추계학술대회
    • /
    • pp.87-88
    • /
    • 2019
  • 최근 기계학습 기술의 급속한 발전에 힘입어 자율주행을 위한 객체 인식 및 처리 기술 역시 비약적으로 발전하고 있다. 그러나 이러한 기계학습의 성능은 모델의 구조와 학습용 데이터의 품질에 영향을 받는다. 특히 주행환경을 잘 표현하는 학습데이터가 중요한데 전혀 새로운 도로, 주행환경, 장애물, 정적 혹은 동적 객체 등을 마주하면 정확도와 안정성에서 부정적인 영향을 받을 수 있는 것이다. 해외의 주행 데이터들에 크게 의존하고 있는 우리나라의 현실에 비춰 볼 때 국내 환경에 맞는 학습데이터를 쉽고 효율적으로 확보/관리/분석할 수 있게 하는 환경의 구축이 시급하다. 따라서 본 논문에서는 자율주행을 위한 기계학습 데이터를 효과적으로 관리하고 분석하기 위한 소프트웨어를 설계하고 개발하였다. 구체적으로는 수집된 영상들을 관리하는 기능, 영상에 존재하는 노이즈 제거 및 화질 개선 처리 기능, 학습 및 검증을 위한 메타 정보 태깅 기능, 태깅 정보의 통계적 분석 기능들을 포함한다. 개발한 소프트웨어는 우리나라에서 자체 촬영한 자율주행 학습 영상들에 대해 딥러닝 모델들을 학습하고 검증하는데 활용할 예정이다.

  • PDF

앙상블을 이용한 기계학습 기법의 설계: 뜰개 이동경로 예측을 통한 실험적 검증 (Ensemble Design of Machine Learning Technigues: Experimental Verification by Prediction of Drifter Trajectory)

  • 이찬재;김용혁
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제8권3호
    • /
    • pp.57-67
    • /
    • 2018
  • 앙상블 기법은 기계학습에서 다수의 알고리즘을 사용하여 더 좋은 성능을 내기 위해 사용하는 방법이다. 본 논문에서는 앙상블 기법에서 많이 사용되는 부스팅과 배깅에 대해 소개를 하고, 서포트벡터 회귀, 방사기저함수 네트워크, 가우시안 프로세스, 다층 퍼셉트론을 이용하여 설계한다. 추가적으로 순환신경망과 MOHID 수치모델을 추가하여 실험을 진행한다. 실험적 검증를 위해 사용하는 뜰개 데이터는 7 개의 지역에서 관측된 683 개의 관측 자료다. 뜰개 관측 자료를 이용하여 6 개의 알고리즘과의 비교를 통해 앙상블 기법의 성능을 검증한다. 검증 방법으로는 평균절대오차를 사용한다. 실험 방법은 배깅, 부스팅, 기계학습을 이용한 앙상블 모델을 이용하여 진행한다. 각 앙상블 모델마다 동일한 가중치를 부여한 방법, 차등한 가중치를 부여한 방법을 이용하여 오류율을 계산한다. 가장 좋은 오류율을 나타낸 방법은 기계학습을 이용한 앙상블 모델로서 6 개의 기계학습의 평균에 비해 61.7%가 개선된 결과를 보였다.

공공빅데이터를 활용한 기계학습 기반 뇌졸중 위험도 예측 (Machine Learning-based Stroke Risk Prediction using Public Big Data)

  • 정선우;이민지;유선용
    • 한국항행학회논문지
    • /
    • 제25권1호
    • /
    • pp.96-101
    • /
    • 2021
  • 본 논문은 빅데이터를 이용하여 심방세동 환자의 뇌졸중 발병을 예측하는 기계 학습 모델을 제시한다. 학습 데이터로는 국민 건강 보험공단에서 제공하는 대한민국 전수에 해당하는 심방세동 환자의 정보를 수집하였다. 수집된 정보는 인구사회학, 과거 병력, 건강검진을 포함한 68개 독립변수로 구성된다. 본 연구의 목표는 기존 심방세동 환자의 뇌졸중 위험도 예측에 사용되던 통계적 모델 (CHADS2, CHA2DS2-VASc)의 성능을 검증하고 기계 학습 모델을 적용하여 기존 모델보다 높은 정확도를 가지는 모델을 제시하는 것이다. 제안하는 모델의 정확도, AUROC (area under the receiver operating characteristic)를 검증한 결과 제안하는 기계 학습 기반의 모형이 심방세동 환자의 뇌졸중 위험도를 사용한 모델이 기존의 통계적 모델보다 높은 정확도, 민감도, 특이도를 가지는 것을 확인할 수 있었다.

항로표지 고장예측 서비스를 위한 기계학습 모델 연구

  • 김환;정수환;임성수
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.95-97
    • /
    • 2022
  • 다양한 소스에서 수집되고 연동되는 항로표지 상태 데이터에서의 이상탐지는 항로표지의 고장예측에 있어서 중요한 역할을 한다. 이 연구에서는 항로표지 고장예측 서비스를 위해 상태 데이터를 모델링하고 분석할 수 있는 기계학습 모델의 연구 방법을 소개한다.

  • PDF

프라이버시를 보호하는 분산 기계 학습 연구 동향 (Systematic Research on Privacy-Preserving Distributed Machine Learning)

  • 이민섭;신영아;천지영
    • 정보처리학회 논문지
    • /
    • 제13권2호
    • /
    • pp.76-90
    • /
    • 2024
  • 인공지능 기술은 스마트 시티, 자율 주행, 의료 분야 등 다양한 분야에서 활용 가능성을 높이 평가받고 있으나, 정보주체의 개인정보 및 민감정보의 노출 문제로 모델 활용이 제한되고 있다. 이에 따라 데이터를 중앙 서버에 모아서 학습하지 않고, 보유 데이터셋을 바탕으로 일차적으로 학습을 진행한 후 글로벌 모델을 최종적으로 학습하는 분산 기계 학습의 개념이 등장하였다. 그러나, 분산 기계 학습은 여전히 협력하여 학습을 진행하는 과정에서 데이터 프라이버시 위협이 발생한다. 본 연구는 분산 기계 학습 연구 분야에서 프라이버시를 보호하기 위한 연구를 서버의 존재 유무, 학습 데이터셋의 분포 환경, 참여자의 성능 차이 등 현재까지 제안된 분류 기준들을 바탕으로 유기적으로 분석하여 최신 연구 동향을 파악한다. 특히, 대표적인 분산 기계 학습 기법인 수평적 연합학습, 수직적 연합학습, 스웜 학습에 집중하여 활용된 프라이버시 보호 기법을 살펴본 후 향후 진행되어야 할 연구 방향을 모색한다.

병렬 코퍼스 필터링과 한국어에 최적화된 서브 워드 분절 기법을 이용한 기계번역 (Parallel Corpus Filtering and Korean-Optimized Subword Tokenization for Machine Translation)

  • 박찬준;김경민;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.221-224
    • /
    • 2019
  • 딥러닝을 이용한 Neural Machine Translation(NMT)의 등장으로 기계번역 분야에서 기존의 규칙 기반,통계기반 방식을 압도하는 좋은 성능을 보이고 있다. 본 논문은 기계번역 모델도 중요하지만 무엇보다 중요한 것은 고품질의 학습데이터를 구성하는 일과 전처리라고 판단하여 이에 관련된 다양한 실험을 진행하였다. 인공신경망 기계번역 시스템의 학습데이터 즉 병렬 코퍼스를 구축할 때 양질의 데이터를 확보하는 것이 무엇보다 중요하다. 그러나 양질의 데이터를 구하는 일은 저작권 확보의 문제, 병렬 말뭉치 구축의 어려움, 노이즈 등을 이유로 쉽지 않은 상황이다. 본 논문은 고품질의 학습데이터를 구축하기 위하여 병렬 코퍼스 필터링 기법을 제시한다. 병렬 코퍼스 필터링이란 정제와 다르게 학습 데이터에 부합하지 않다고 판단되며 소스, 타겟 쌍을 함께 삭제 시켜 버린다. 또한 기계번역에서 무엇보다 중요한 단계는 바로 Subword Tokenization 단계이다. 본 논문은 다양한 실험을 통하여 한-영 기계번역에서 가장 높은 성능을 보이는 Subword Tokenization 방법론을 제시한다. 오픈 된 한-영 병렬 말뭉치로 실험을 진행한 결과 병렬 코퍼스 필터링을 진행한 데이터로 만든 모델이 더 좋은 BLEU 점수를 보였으며 본 논문에서 제안하는 형태소 분석 단위 분리를 진행 후 Unigram이 반영된 SentencePiece 모델로 Subword Tokenization를 진행 하였을 시 가장 좋은 성능을 보였다.

  • PDF

투표 기반 서술형 주관식 답안 자동 채점 모델의 설계 및 구현 (Design and Implementation of an Automatic Scoring Model Using a Voting Method for Descriptive Answers)

  • 허정만;박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권8호
    • /
    • pp.17-25
    • /
    • 2013
  • 본 논문에서는 투표기법을 이용하여 서술형 주관식 문제에 대한 학습자 답안을 자동으로 채점하는 모델을 제안한다. 제안하는 방법은 모델 구축 비용을 줄이기 위해서, 문제 유형별로 세분화하여 서술형 주관식 답안 자동 채점 모델을 따로 구축하지 않는다. 제안하는 방법은 서술형 주관식 답안 자동 채점에 유용한 자질을 추출하기 위해서, 모범 답안과 학습자 답안을 비교한 결과를 바탕으로 다양한 자질을 추출한다. 제안하는 방법은 답안 채점 결과의 신뢰성을 높이기 위해서, 각 학습자 답안을 여러 기계학습 기반 분류기를 이용하여 채점하고, 각 채점 결과를 투표하여 만장일치로 선택한 채점 결과를 최종 채점 결과로 결정한다. 실험결과 기계학습 기반 분류기 C4.5만 사용한 채점 결과는 정확률이 83.00%인데 반해, 기계학습 기반 분류기 C4.5, ME, SVM에서 만장일치로 선택한 채점 결과는 정확률이 90.57%까지 개선되었다.