• Title/Summary/Keyword: 학습 및 검증 데이터

Search Result 569, Processing Time 0.025 seconds

Optimization Of Water Quality Prediction Model In Daechong Reservoir, Based On Multiple Layer Perceptron (다층 퍼셉트론을 기반으로 한 대청호 수질 예측 모델 최적화)

  • Lee, Hankyu;Kim, Jin Hui;Byeon, Seohyeon;Park, Kangdong;Shin, Jae-ki;Park, Yongeun
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2022.05a
    • /
    • pp.43-43
    • /
    • 2022
  • 유해 조류 대발생은 전국 각지의 인공호소나 하천에서 다발적으로 발생하며, 경관을 해치고 수질을 오염시키는 등 수자원에 부정적인 영향을 미친다. 본 연구에서는 인공호소에서 발생하는 유해 조류 대발생을 예측하기 위해 심층학습 기법을 이용하여 예측 모델을 개발하고자 하였다. 대상 지점은 대청호의 추동 지점으로 선정하였다. 대청호는 금강유역 중류에 위치한 댐으로, 약 150만명에 달하는 급수 인구수를 유지 중이기에 유해 남조 대발생 관리가 매우 중요한 장소이다. 학습용 데이터 구축은 대청호의 2011년 1월부터 2019년 12월까지 측정된 수질, 기상, 수문 자료를 입력 자료를 이용하였다. 수질 예측 모델의 구조는 다중 레이어 퍼셉트론(Multiple Layer Perceptron; MLP)으로, 입력과 한 개 이상의 은닉층, 그리고 출력층으로 구성된 인공신경망이다. 본 연구에서는 인공신경망의 은닉층 개수(1~3개)와 각각의 레이어에 적용되는 은닉 노드 개수(11~30개), 활성함수 5종(Linear, sigmoid, hyperbolic tangent, Rectified Linear Unit, Exponential Linear Unit)을 각각 하이퍼파라미터로 정하고, 모델의 성능을 최대로 발휘할 수 있는 조건을 찾고자 하였다. 하이퍼파라미터 최적화 도구는 Tensorflow에서 배포하는 Keras Tuner를 사용하였다. 모델은 총 3000 학습 epoch 가 진행되는 동안 최적의 가중치를 계산하도록 설계하였고, 이 결과를 매 반복마다 저장장치에 기록하였다. 모델 성능의 타당성은 예측과 실측 데이터 간의 상관관계를 R2, NSE, RMSE를 통해 산출하여 검증하였다. 모델 최적화 결과, 적합한 하이퍼파라미터는 최적화 횟수 총 300회에서 256 번째 반복 결과인 은닉층 개수 3개, 은닉 노드 수 각각 25개, 22개, 14개가 가장 적합하였고, 이에 따른 활성함수는 ELU, ReLU, Hyperbolic tangent, Linear 순서대로 사용되었다. 최적화된 하이퍼파라미터를 이용하여 모델 학습 및 검증을 수행한 결과, R2는 학습 0.68, 검증 0.61이었고 NSE는 학습 0.85, 검증 0.81, RMSE는 학습 0.82, 검증 0.92로 나타났다.

  • PDF

Prediction of water level in sewer pipes using machine learning (기계학습을 활용한 하수관로 수위 예측)

  • Heesung Lim;Hyunuk An;Hyojin Lee;Inhyeok Song
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2023.05a
    • /
    • pp.93-93
    • /
    • 2023
  • 최근 범지구적인 기후변화로 인해 도시유역의 홍수 발생 빈도가 빈번하게 발생하고 있다. 이로 인해 불투수성이 큰 도시지역의 침수 등의 자연재해 증가로 인명 및 재산피해가 발생하고 있다. 이에 따라 하수도의 제 기능을 수행하고 있다면 문제가 없지만 이상기후로 인한 기록적인 폭우에 의해 침수가 발생하고 있다. 홍수 및 집중호우와 같은 극치사상의 발생빈도가 증가됨에 따라 강우 사상의 변동에 따른 하수관로의 수위를 예측하고 침수에 대해 대처하기 위해 과거 수위에 따른 수위 예측은 중요할 것으로 판단된다. 본 연구에서는 수위 예측 연구에 많이 활용되고 있는 시계열 학습에 탁월한 LSTM 알고리즘을 활용한 하수관로 수위 예측을 진행하였다. 데이터의 학습과 검증을 수행하기 위해 실제 하수관로 수위 데이터를 수집하여 연구를 수행하였으며, 대상자료는 서울특별시 강동구에 위치한 하수관로 수위 자료를 활용하였다. 하수관로 수위 예측에는 딥러닝 알고리즘 RNN-LSTM 알고리즘을 활용하였으며, RNN-LSTM 알고리즘은 하천의 수위 예측에 우수한 성능을 보여준 바 있다. 1분 뒤 하수관로 수위 예측보다 5분, 10분 뒤 또는 1시간 3시간 등 다양한 분석을 실시하였다. 데이터 분석을 위해 하수관로 수위값 변동이 심한 1주일을 선정하여 분석을 실시하였다. 연구에는 Google에서 개발한 딥러닝 오픈소스 라이브러리인 텐서플로우를 활용하였으며, 하수관로 수위 고유번호 25-0001을 대상으로 예측을 하였다. 학습에는 2012년 ~ 2018년의 하수관로 수위 자료를 활용하였으며, 모형의 검증을 위해 결정계수(R square)를 이용하여 통계분석을 실시하였다.

  • PDF

Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model (한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법)

  • Hoonrae Kim;Yunsu Kim;Gary Geunbae Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

Verification of the effectiveness of AI education for Non-majors through PJBL-based data analysis (PJBL기반 데이터 분석을 통한 비전공자의 AI 교육 효과성 검증)

  • Baek, Su-Jin;Park, So-Hyun
    • Journal of Digital Convergence
    • /
    • v.19 no.9
    • /
    • pp.201-207
    • /
    • 2021
  • As artificial intelligence gradually expands into jobs, iIt is necessary to nurture talents with AI literacy capabilities required for non-majors. Therefore, in this study, based on the necessity and current status of AI education, AI literacy competency improvement education was conducted for non-majors so that AI learning could be sustainable in relation to future majors. For non-majors at University D, problem-solving solutions through project-based data analysis and visualization were applied over 15 weeks, and the AI ability improvement and effectiveness of learners before and after education were analyzed and verified. As a result, it was possible to confirm a statistically significant level of positive change in the learners' data analysis and utilization ability, AI literacy ability, and AI self-efficacy. In particular, it not only improved the learners' ability to directly utilize public data to analyze and visualize it, but also improved their self-efficacy to solve problems by linking this with the use of AI.

Measurement of Political Polarization in Korean Language Model by Quantitative Indicator (한국어 언어 모델의 정치 편향성 검증 및 정량적 지표 제안)

  • Jeongwook Kim;Gyeongmin Kim;Imatitikua Danielle Aiyanyo;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.16-21
    • /
    • 2022
  • 사전학습 말뭉치는 위키백과 문서 뿐만 아니라 인터넷 커뮤니티의 텍스트 데이터를 포함한다. 이는 언어적 관념 및 사회적 편향된 정보를 포함하므로 사전학습된 언어 모델과 파인튜닝한 언어 모델은 편향성을 내포한다. 이에 따라 언어 모델의 중립성을 평가할 수 있는 지표의 필요성이 대두되었으나, 아직까지 언어 인공지능 모델의 정치적 중립성에 대해 정량적으로 평가할 수 있는 척도는 존재하지 않는다. 본 연구에서는 언어 모델의 정치적 편향도를 정량적으로 평가할 수 있는 지표를 제시하고 한국어 언어 모델에 대해 평가를 수행한다. 실험 결과, 위키피디아로 학습된 언어 모델이 가장 정치 중립적인 경향성을 나타내었고, 뉴스 댓글과 소셜 리뷰 데이터로 학습된 언어 모델의 경우 정치 보수적, 그리고 뉴스 기사를 기반으로 학습된 언어 모델에서 정치 진보적인 경향성을 나타냈다. 또한, 본 논문에서 제안하는 평가 방법의 안정성 검증은 각 언어 모델의 정치적 편향 평가 결과가 일관됨을 입증한다.

  • PDF

Prediction of river water quality factor at Oncheoncheon Basin using RNN algorithm (RNN 알고리즘을 이용한 온천천의 하천수질 인자 예측)

  • Lim, Heesung;An, Hyunuk
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2019.05a
    • /
    • pp.39-39
    • /
    • 2019
  • 인구의 도시 집중화로 인하여 다량의 생활용수의 사용에 따라 하천의 자정능력을 초과하여 오염을 유발시키고 있다. 이에 도시하천들의 오염은 점점 심해져 경제적으로 많은 문제를 유발하고 있다. 이러한 하천오염 문제를 과학적으로 대응하기 위해서는 오염물질의 농도 측정 및 데이터 축척을 통한 오염예측이 필수적이라 할 수 있으며, 부산광역시 보건환경정보 공개시스템에서는 하천수질 자동측정망을 설치하여 시간 단위로 오염물질을 측정하고 있다. 그러나 온천천의 하천수질 데이터는 계속 쌓여가고 있는데 이 데이터를 활용해서 하천수질 인자 예측이 거의 이뤄지지 않고 있다. 본 연구에서는 순환신경망 알고리즘을 활용하여 일 단위의 하천수질 인자 예측을 시도하였다. 순환신경망은 인공신경망의 발전된 형태인 시계열 학습에 강한 RNN, LSTM 알고리즘을 활용한 일단위 하천수질 인자 예측을 하고자 하였다. 연구에 앞서 시간 단위로 쌓여있는 데이터를 평균 내어 일 단위로 변경하였고 이 데이터를 가지고 일 단위 하천수질 인자 예측을 진행하였다. 연구에는 Google에서 개발한 딥러닝 오픈소스 라이브러리인 텐서플로우를 활용하여 DO, 탁도 등 항목을 예측하였다. 하천오염의 학습과 예측을 위해 대상지로는 부산지역 온천천의 부곡교, 세병교, 이섭교 관측소를 선택하였다. 연구를 위해 DO, 탁도 등 자료 수집은 부산광역시 보건환경정보 공개시스템의 자료를 활용하였다. 모형의 학습을 위해 입력자료로는 하천수질 인자 자료를 이용하였고, 자료의 학습에는 2014년~2017년 4년간의 자료를 학습자료로 사용하였고, 2018년 1년간의 자료는 모형의 검증을 위해 사용하였다. RNN, LSTM 알고리즘을 활용하여 분석 시 은닉층의 개수, 반복시행횟수, sequence length 등의 값을 조절하여 하천수질 인자 예측을 하였다. 모형의 검증을 위해 $R^2$(r square)와 RMSE(root mean square error)을 이용하여 통계분석을 실시하였다.

  • PDF

Iris Recognition System Using Back-Propagation and Higher Order Autocorrelation (신경망 학습과 Higher Order Autocorrelation을 이용한 홍채 인식 시스템)

  • Jeong Yu-Jeong;Jung Chai-Yeoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.11a
    • /
    • pp.895-898
    • /
    • 2004
  • 본 논문에서는 기존의 개인 식별 방법의 한계를 해결하는 대안으로 떠오르고 있는 생체인식 기술 중 인식률이 뛰어난 홍채인식 시스템에 대해 연구하고자 한다. 먼저 홍채인식 시스템의 구현을 위해 신호처리 분야에서 많이 사용되고 있는 wavelet 변환 중 Haar wavelet과 고차 국소 자기 상관 특징을 이용하여 홍채의 특징을 추출하여 특징벡터의 크기를 최소화 하였다. 또, 인식률을 높이기 위해 오류 역전파 학습 알고리즘을 이용하여 홍채패턴에 기반한 신원 확인 및 검증을 위한 개선된 방법을 제시하였다. 학습이 완료된 신경망에 대한 학습데이터와 테스트 데이터의 인식률을 실험한 결과 학습된 데이터는 평균 인식률 $97.4\%$, 테스트 데이터는 $95.5\%$의 인식률을 보였다.

  • PDF

A Study on Deep Learning Based Personal Protective Equipment Detection (딥러닝 기반 개인 보호장비 검출에 관한 연구)

  • Park, Jong-Hwa;Jeon, So-Yeon;Jeon, Ji-Hye;Kim, Jae-Hee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.650-651
    • /
    • 2020
  • 본 논문은 YOLO v4 알고리즘을 이용하여 산업 현장에서 근로자의 개인 보호장비를 검출하는 방법을 제시한다. 학습데이터 주석은 사람 영역, 안전모, 안전 조끼 혹은 벨트 영역을 검출하도록 처리하였으며, 학습데이터 2,198개, 검증데이터 275개를 학습하는 데 이용하였다. 실험 결과 학습 반복 수 10,000번을 기준으로 81.81%의 mAP가 나옴을 확인하였다. 추후 정확도 개선을 위해 학습데이터 구축 및 전·후처리 알고리즘 관련 연구를 수행할 예정이다.

  • PDF

A Study on Collecting and Structuring Language Resource for Named Entity Recognition and Relation Extraction from Biomedical Abstracts (생의학 분야 학술 논문에서의 개체명 인식 및 관계 추출을 위한 언어 자원 수집 및 통합적 구조화 방안 연구)

  • Kang, Seul-Ki;Choi, Yun-Soo;Choi, Sung-Pil
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.51 no.4
    • /
    • pp.227-248
    • /
    • 2017
  • This paper introduces an integrated model for systematically constructing a linguistic resource database that can be used by machine learning-based biomedical information extraction systems. The proposed method suggests an orderly process of collecting and constructing dictionaries and training sets for both named-entity recognition and relation extraction. Multiple heterogeneous structures for the resources which are collected from diverse sources are analyzed to derive essential items and fields for constructing the integrated database. All the collected resources are converted and refined to build an integrated linguistic resource storage. In this paper, we constructed entity dictionaries of gene, protein, disease and drug, which are considered core linguistic elements or core named entities in the biomedical domains and conducted verification tests to measure their acceptability.

Efficient Transformer Dissolved Gas Analysis and Classification Method (효율적인 변압기 유중가스 분석 및 분류 방법)

  • Cho, Yoon-Jeong;Kim, Jae-Young;Kim, Jong-Myon
    • Asia-pacific Journal of Multimedia Services Convergent with Art, Humanities, and Sociology
    • /
    • v.8 no.3
    • /
    • pp.563-570
    • /
    • 2018
  • This paper proposes an efficient dissolved gas analysis(DGA) and classification method of an oil-filled transformer using machine learning algorithms to solve problems inherent in IEC 60599. In IEC 60599, a certain diagnosis criteria do not exist, and duplication area is existed. Thus, it is difficult to make a decision without any experts since the IEC 60599 standard can not support analysis and classification of gas date of a power transformer in that criteria. To address these issue. we propose a dissolved gas analysis(DGA) and classification method using a machine learning algorithm. We evaluate the performance of the proposed method using support vector machines with dissolved gas dataset extracted from a power transformer in the real industry. To validate the performance of the proposed method, we compares the proposed method with the IEC 60599 standard. Experimental results show that the proposed method outperforms the IEC 60599 in the classification accuracy.