• 제목/요약/키워드: 기계 학습 모델

검색결과 1,152건 처리시간 0.028초

다양한 데이터 전처리 기법과 데이터 오버샘플링을 적용한 GRU 모델 기반 이상 탐지 성능 비교 (Comparison of Anomaly Detection Performance Based on GRU Model Applying Various Data Preprocessing Techniques and Data Oversampling)

  • 유승태;김강석
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.201-211
    • /
    • 2022
  • 최근 사이버보안 패러다임의 변화에 따라, 인공지능 구현 기술인 기계학습과 딥러닝 기법을 적용한 이상탐지 방법의 연구가 증가하고 있다. 본 연구에서는 공개 데이터셋인 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 GRU(Gated Recurrent Unit) 신경망 기반 침입 탐지 모델의 이상(anomaly) 탐지 성능을 향상시킬 수 있는 데이터 전처리 기술에 관한 비교 연구를 수행하였다. 또한 정상 데이터와 공격 데이터 비율에 따른 클래스 불균형 문제를 해결하기 위해 DCGAN(Deep Convolutional Generative Adversarial Networks)을 적용한 오버샘플링 기법 등을 사용하여 오버샘플링 비율에 따른 탐지 성능을 비교 및 분석하였다. 실험 결과, 시스템 콜(system call) 특성과 프로세스 실행패스 특성에 Doc2Vec 알고리즘을 사용하여 전처리한 방법이 좋은 성능을 보였고, 오버샘플링별 성능의 경우 DCGAN을 사용하였을 때, 향상된 탐지 성능을 보였다.

한국 영화의 산업의 흥행 극대화를 위한 AutoML 기반의 박스오피스 유형 분류 및 예측 모델 (A Box Office Type Classification and Prediction Model Based on Automated Machine Learning for Maximizing the Commercial Success of the Korean Film Industry)

  • 임수빈;문지훈;노승민
    • Journal of Platform Technology
    • /
    • 제11권3호
    • /
    • pp.45-55
    • /
    • 2023
  • 본 논문은 한국 영화 산업의 의사 결정자들이 온라인상에서의 영화의 흥행을 극대화할 수 있도록 지원하는 데 도움을 주고자 역대 박스오피스 영화를 수집하여 영화를 유형별로 군집화하고, 유형별 온라인 박스오피스를 예측하는 모델을 제시한다. 이를 위해 먼저 다양한 특성을 고려하여 영화의 흥행 요인을 식별하고, 계산 효율성을 고려하여 특성 차원을 줄인다. 다음으로 영화의 유형을 체계적으로 분류하고, 유형별 온라인 박스오피스를 예측하며 흥행에 이바지한 요소를 분석한다. 이때, AutoML (Automated Machine Learning) 기법을 활용함으로써 다양한 기계학습 알고리즘을 자동으로 구성하고, 문제에 최적화된 알고리즘을 선택함으로써 여러 알고리즘을 쉽게 시도 및 선택한다. 이를 통해 정보화된 판단을 내릴 수 있는 기반을 제공하고, 영화 산업의 더 나은 성과를 도모하는 데 이바지할 것으로 기대할 수 있다.

  • PDF

불균형 데이터를 갖는 냉동 컨테이너 고장 판별 및 원인 분석을 위한 기계학습 모형 개발 (Development of machine learning model for reefer container failure determination and cause analysis with unbalanced data)

  • 이희원;박성호;이승현;이승재;이강배
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 2022
  • 냉동 컨테이너의 고장은 큰 비용의 손실을 야기하지만, 현재 냉동 컨테이너의 알람 체계는 효율성이 떨어진다. 기존에 냉동 시스템의 시뮬레이션 데이터를 활용한 연구는 존재하지만, 냉동 컨테이너의 실제 운영 데이터를 활용한 연구는 부족하다. 이에 본 연구는 실제 냉동 컨테이너 운영 데이터를 활용하여 고장 원인을 분류하였다. 실제 데이터에서는 데이터 불균형이 발생하였으며 ENN-SMOTE, 클래스 가중치를 둔 Logistic 회귀분석과 본 연구에서 개발한 2-stage 알고리즘을 비교하여 데이터 불균형문제를 해결하였다. 2-stage 알고리즘은 XGboost, LGBoost, DNN을 사용하여 첫 번째 단계에서는 고장 및 정상을 분류하고, 두 번째 단계에서는 고장의 원인을 분류하는 알고리즘이다. 2-stage 알고리즘에서 LGBoost를 사용한 모델이 99.16%의 정확도로 가장 우수하였다. 본 연구는 데이터 불균형을 해결하기 위해 2-stage 알고리즘을 활용한 최종모델을 제안하며 이는 다른 산업에도 활용할 수 있을 것으로 사료된다.

천문 고문헌 특화 인공지능 자동번역 서비스의 현황 (Current status of automatic translation service by artificial intelligence specialized in Korean astronomical classics)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Choi, Byung Sook;Lee, Sahng Woon;Park, Raejin
    • 천문학회보
    • /
    • 제46권2호
    • /
    • pp.64.3-65
    • /
    • 2021
  • 인공지능 기계학습에 의한 한문고전 자동번역기는 승정원일기 뿐만 아니라, 한국 고문헌 중 천문 기록에 특화되어 한자로 된 천문 고전을 한글로 번역해 서비스하고 있다. 한국천문연구원은 한국지능정보사회진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 이 자동 번역기 개발을 완료한 것이다. 이 번역기의 개발 목적은 초벌 번역 수준일지라도 문장 형태의 한문을 한글로 자동 번역하는 것이며, 이 연구는 현재 번역기 운용 현황을 서비스 별로 분석하고자 한다. 자동 번역관련 서비스는 크게 3가지이다. 첫째, 누구나 웹 접속을 통해 사용 가능한 한문고전 자동번역 대국민 서비스이다. 1년간 자체 시험을 거쳐 2021년 1월 12일 시험판을 오픈하여 운용 중에 있다. 둘째, 기관별로 구축된 코퍼스와 도메인 특화된 번역 모델 등을 관리할 수 있는 한문고전 자동번역 확산 플랫폼 서비스이다. 대국민 서비스와 함께 클라우드 기반으로 서비스되며, 한국고전번역원이 관리를 담당한다. 셋째, 자동번역 Applied Programmable Interface를 활용한 한국천문연구원 내 자체 활용이 가능한 천문고전 자동번역 서비스이다. 서비스 현황 분석은 기관별 관리 서비스에 해당되는 한문고전 자동번역 확산 플랫폼에서 집계하여 제공하는 대시보드의 통계 기능을 활용한다. 각 서비스별 문장과 파일 번역 이용 건수, 번역 속도, 평균 자수 뿐만 아니라, 번역 모델 프로필에 따른 이용률 분석이 가능하다. 이에 따른 주요 분석 중 하나인 올해 전체 번역 이용 건수는 한 해 각 기관의 평균 방문자수 대비 87% 성과 목표에 해당되는 약 38만 건에 근접할 것으로 예측된다. 이 자동 번역기는 원문 해독 시간을 단축시키는 효과와 함께 미번역 천문 고문헌의 활용성을 높여 다양한 연구에 기여할 것이다.

  • PDF

백제보 상류하천구간의 Oversampling technique과 Machine Learning을 활용한 CDOM 흡수계수 예측 (Prediction of CDOM absorption coefficient using Oversampling technique and Machine Learning in upstream reach of Baekje weir)

  • 김진욱;장원진;김진휘;박용은;김성준
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.46-46
    • /
    • 2022
  • 유기물의 복잡한 혼합물인 CDOM(Colored or Chromophoric Dissolved Organic Matter)은 하천 내 BOD(Biological Oxygen Demand), COD(Chemical Oxygen Demand) 및 유기 오염물질과 상당한 관련이 있다. CDOM은 가시광선 영역에서 빛을 흡수하는 성질을 가지고 있으며, 최근 원격감지 기술로 CDOM을 모니터링하기 위한 연구가 진행되고 있다. 본 연구에서는 백제보 상류 23km 구간에서 3년(2016~2018) 중 13일의 초분광영상을 활용하여 머신러닝 기반 CDOM을 추정 알고리즘을 개발하고자 한다. 초분광영상은 400~970 nm의 범위의 4 nm 간격 127개 대역의 분광해상도와 2 m의 공간해상도를 가진 항공기 탑재 AsiaFENIX 초분광 센서를 통해 수집하였으며 CDOM은 Millipore polycarbonate filter (𝚽47, 0.2 ㎛)에서 여과된 CDOM 샘플 자료를 200~800 nm의 흡수계수 스펙트럼으로 추출하여 사용하였다. CDOM 값은 전체기간 동안 2.0~11.0 m-1의 값 분포를 보였으며 5 m-1이상의 고농도 구간 자료개수가 전체 153개 샘플자료 중 21개로 불균형하다. 따라서 ADASYN(Adaptive Synthesis Sampling Approach)의 oversampling 방법으로 생성된 합성 데이터를 사용하여 원본 데이터의 소수계층 데이터 불균형을 해결하고 모델 예측 성능을 개선하고자 하였다. 생성된 합성 데이터를 입력변수로 하여 ANN(Artificial Neural Netowk)을 활용한 CDOM 예측 알고리즘을 구축하였다. ADASYN 기법을 통한 합성 데이터는 관측된 데이터의 불균형을 해결하여 기계학습 모델의 CDOM 탐지 성능을 향상시킬 수 있으며, 저수지 내 유기 오염물질 관리를 위한 설계를 지원하는데 사용할 수 있을 것으로 판단된다.

  • PDF

Tei Index를 이용한 경도의 좌심실 이완 기능 장애 분류 모델 평가 (Evaluation of Classification Models of Mild Left Ventricular Diastolic Dysfunction by Tei Index)

  • 김수민;예수영
    • 한국방사선학회논문지
    • /
    • 제17권5호
    • /
    • pp.761-766
    • /
    • 2023
  • 본 논문에는 경도의 좌심실 이완 기능 장애 유무를 분류하기 위해 TI을 측정하였다. 분류에 사용된 기계 학습 모델은 SVM과 KNN을 이용하였다. 총 306개의 데이터 중에서 206개는 트레이닝 데이터, 100개는 테스트 데이터로 사용하였다. 그 결과, SVM이 KNN에 비하여 비교적 높은 정확도를 보여 좌심실 이완 기능 장애 유무 진단에 더 유용함을 확인했다. 향후 연구에서 TI 뿐만 아니라 심장의 기능을 평가하는 다양한 지표들을 추가하고 더 많은 데이터를 확보한다면 분류 성능을 더 높일 수 있을 것으로 기대된다. 나아가, 타 질환의 예측 및 분류, 증가하는 검사 건수에 비해 부족한 의료 인력 문제를 해결하는데 기초 자료로 활용될 것으로 기대된다.

SHAP 분석 기반의 넙치 질병 분류 입력 파라미터 최적화 (Optimizing Input Parameters of Paralichthys olivaceus Disease Classification based on SHAP Analysis)

  • 조경원;백란
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1331-1336
    • /
    • 2023
  • 머신러닝을 이용한 텍스트 기반 어류 질병 분류에서 머신러닝 모델의 입력 파라미터가 너무 많은 문제가 존재하지만, 성능의 문제로 임의로 입력 파라미터를 줄일 수 없다. 본 논문에서는 이 문제를 해결하고자 SHAP 분석 기법을 활용해 넙치 질병 분류에 특화된 입력 파라미터 최적화 방안을 제시한다. 제안한 방법은 SHAP 분석 기법을 적용하여 넙치 질병 문진표에서 추출한 질병 정보의 데이터 전처리와 AutoML을 활용한 머신러닝 모델 평가 과정을 포함한다. 이를 통해 AutoML의 입력 파라미터의 성능을 평가하고, 최적의 입력 파라미터 조합을 도출한다. 본 연구에서 제안 방법은 필요한 입력 파라미터 수를 감소시키면서도 기존의 성능을 유지할 수 있을 것으로 기대되며, 이는 텍스트 기반 넙치 질병 분류의 효율성 및 실용성을 높이는 데 기여할 것이다.

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

문서 요약 기법이 가짜 뉴스 탐지 모형에 미치는 영향에 관한 연구 (A Study on the Effect of the Document Summarization Technique on the Fake News Detection Model)

  • 심재승;원하람;안현철
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.201-220
    • /
    • 2019
  • 가짜뉴스가 전세계적 이슈로 부상한 최근 수년간 가짜뉴스 문제 해결을 위한 논의와 연구가 지속되고 있다. 특히 인공지능과 텍스트 분석을 이용한 자동화 가짜 뉴스 탐지에 대한 연구가 주목을 받고 있는데, 대부분 문서 분류 기법을 이용한 연구들이 주를 이루고 있는 가운데 문서 요약 기법은 지금까지 거의 활용되지 않았다. 그러나 최근 가짜뉴스 탐지 연구에 생성 요약 기법을 적용하여 성능 개선을 이끌어낸 사례가 해외에서 보고된 바 있으며, 추출 요약 기법 기반의 뉴스 자동 요약 서비스가 대중화된 현재, 요약된 뉴스 정보가 국내 가짜뉴스 탐지 모형의 성능 제고에 긍정적인 영향을 미치는지 확인해 볼 필요가 있다. 이에 본 연구에서는 국내 가짜뉴스에 요약 기법을 적용했을 때 정보 손실이 일어나는지, 혹은 정보가 그대로 보전되거나 혹은 잡음 제거를 통한 정보 획득 효과가 발생하는지 알아보기 위해 국내 뉴스 데이터에 추출 요약 기법을 적용하여 '본문 기반 가짜뉴스 탐지 모형'과 '요약문 기반 가짜뉴스 탐지 모형'을 구축하고, 다수의 기계학습 알고리즘을 적용하여 두 모형의 성능을 비교하는 실험을 수행하였다. 그 결과 BPN(Back Propagation Neural Network)과 SVM(Support Vector Machine)의 경우 큰 성능 차이가 발생하지 않았지만 DT(Decision Tree)의 경우 본문 기반 모델이, LR(Logistic Regression)의 경우 요약문 기반 모델이 다소 우세한 성능을 보였음을 확인하였다. 결과를 검증하는 과정에서 통계적으로 유의미한 수준으로는 요약문 기반 모델과 본문 기반 모델간의 차이가 확인되지는 않았지만, 요약을 적용하였을 경우 가짜뉴스 판별에 도움이 되는 핵심 정보는 최소한 보전되며 LR의 경우 성능 향상의 가능성이 있음을 확인하였다. 본 연구는 추출요약 기법을 국내 가짜뉴스 탐지 연구에 처음으로 적용해 본 도전적인 연구라는 점에서 의의가 있다. 하지만 한계점으로는 비교적 적은 데이터로 실험이 수행되었다는 점과 한 가지 문서요약기법만 사용되었다는 점을 제시할 수 있다. 향후 대규모의 데이터에서도 같은 맥락의 실험결과가 도출되는지 검증하고, 보다 다양한 문서요약기법을 적용해 봄으로써 요약 기법 간 차이를 규명하는 확장된 연구가 추후 수행되어야 할 것이다.

A study on Decision Model of Disuse Status for the Commercial Vehicles Considering the Military Operating Environment

  • Lee, Jae-Ha;Moon, Ho-Seok
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권1호
    • /
    • pp.141-149
    • /
    • 2020
  • 현재 군에서 운용하는 차량 중에 민간에서 사용하고 있는 상용차량이 차지하는 비중이 58%로 매우 높고 앞으로 더욱 증가할 계획이다. 군에서 상용차량의 비중이 높아진 만큼 상용차량의 불용처리 결정 여부도 중요한 문제 중의 하나이다. 현재 상용차량의 불용처리 결정은 차량 기술검사관이 설계수명과 차량사용 정보를 이용해서 주관적으로 판단하고 있으나, 군 운용환경에 따른 차이가 반영되어 있지 않고 객관적인 판단 기준이 제시되어 있지는 않다. 본 연구는 군 운용환경을 고려하여 상용차량의 불용여부를 판단하는 모델을 개발하는 것이다. 연구에서 활용한 자료는 육·해·공군의 승용차, 승합차량, 트럭 세 가지 상용차량 1,746대였고, 운용지역, 기후특성, 차량상태 등의 정보를 이용하여 분류 머신러닝 기법을 이용해 불용여부 판단 모델을 구축하였다. 제안하는 불용여부 판단 모델은 정확도가 평균적으로 약 97%였으며, 야전에서도 사용할 수 있는 형태의 모델이다. 연구결과를 바탕으로 향후 상용차량 불용 여부 판단 모델 성능 향상 방안과 군수정보체계 내에 새롭게 구축해야 할 데이터 구축 방향을 장·단기적으로 정책 제언하였다.