• 제목/요약/키워드: 데이터 검증

검색결과 7,150건 처리시간 0.041초

Transformer를 이용한 유해남조 발생 예측 모델 구축 (Building of cyanobacteria forecasting model using transformer)

  • 이한규;김진휘;변서현;신재기;박용은
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.515-515
    • /
    • 2023
  • 팔당호는 북한강과 남한강이 합류하여 생성된 호소로 수도인 서울과 수도권인 경기도 동부지역의 물 공급을 담당하는 중요한 상수원이다. 이러한 팔당호에서 유해남조 발생은 상수원수 활용과 직접적으로 연관되어 있어 신속하고 정확한 관리 및 예측이 필요하다. 본 연구에서는 안전한 상수원 활용을 위해, 딥러닝 기법을 이용하여 유해남조 사전 예측 모델을 구축하고자 하였다. 모델 입력 변수는 2012년부터 2021년까지 10년 동안의 주간 팔당호 수질(수온, DO, BOD, COD, Chl-a, TN, TP, pH, 전기전도도, TDN, NH4N, NO3N, TDP, PO4P, 부유물질)과 수문(유입량, 총방류량), 기상 정보(평균기온, 최저기온, 최고기온, 일 강수량, 평균풍속, 평균 상대습도, 합계일조량), 그리고 북한강과 남한강 유입지점의 남조 세포 수를 사용하였다. 모델 출력 변수는 수질, 수문, 기상 요인으로 인한 남조의 성장 발현 시기를 고려하여 1주 후의 댐앞 남조 세포수를 사용하였다. 사용한 딥러닝 기법은 최근 주목받고 있는 Temporal Fusion Transformer (TFT)를 사용하였다. 모델 훈련용 데이터와 테스트용 데이터는 각각 8:2의 비율로 나누었으며, 검증용 데이터는 훈련용 데이터 내에서 훈련 데이터와 검증 데이터를 6:4 비율로 분배하였다. Lookback은 5로 설정하였고, 이는 주단위 데이터로 구성된 데이터세트의 특성을 반영한 것이다. 모델의 성능은 실측값과 예측값을 토대로 R-square와 Root Mean Squared Error (RMSE)를 계산하여 평가하였다. 모델학습은 총 154번 반복 진행되었으며, 이 중 성능이 가장 준수한 시점은 54번째 반복 시점으로 훈련손실 대비 검증손실이 가장 양호한 값을 나타냈다(훈련손실:0.443, 검증손실 0.380). R-square는 훈련단계에서 0.681, 검증단계에서 0.654였고, 테스트 단계에서 0.606으로 산출되었다. RMSE는 훈련단계에서 0.614(㎍/L), 검증단계에서 0.617(㎍/L), 테스트 단계에서 0.773(㎍/L)였다. 모델에 사용한 데이터세트가 주간 데이터라는 특성을 고려하면, 소규모 데이터를 사용하였음에도 본 연구에서 구축한 모델의 성능은 양호하다고 평가할 수 있다. 향후 연구에서 데이터세트를 보강하고 모델을 업데이트한다면, 모델의 성능을 더욱더 개선할 수 있을 것으로 기대된다.

  • PDF

미세먼지 수집·분석·예측 Modeling 구축을 위한 위치선정 및 알고리즘 적합성 검증 방안 연구 (For the establishment of fine dust collection, analysis, and prediction modeling A Study on the Location Selection and Algorithm Conformance Verification Method)

  • 정종진;심흥섭
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.373-376
    • /
    • 2022
  • 미세먼지 수집을 위하여 필요한 위치 선정 방안과 위치 선정시 중요한 바람길분석, 수요조사, 유동인구, 교통량 등의 중요 기준을 반영하여 최종 선정하여야 하며, 이에 따라 설치된 측정기로부터 데이터 수집을 위해 지역적, 환경적, 지형적 요소를 감안하여 수집 항목을 결정하여야 한다. 데이터 수집시 실시간 또는 배치(Batch)로 할 것인지 여부를 결정하여야 하며, 이 보고서에서는 실시간으로 데이터 수집하는 경우를 설명하였다. 데이터 수집시 정확도를 높이기 위해 결측값, 이상값인 전처리 단계를 거쳐서 분석과 Modeling 구축을 통하여 정확도가 높은 알고리즘을 선정하여야한다. 정확도가 높은 알고리즘은 검증용 데이터 셋으로 적합성을 검증하여, 측정기 설치 위치의 적합성, 데이터 수집의 적합성, Modeling 구축 및 평가가 적합함을 지표로서 제시하여 적합성 검증을 하고자 한다.

  • PDF

데이터과학을 이용한 선박 충돌회피상황 데이터 분석 (Analysis of Ship Collision Avoidance Situation Data Using Data Science)

  • 심승;오형석;심민정;조준래
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.319-320
    • /
    • 2022
  • 본 논문에서는 '지능형 해상교통정보 서비스'로 축적된 선박 위치데이터를 가공하여 선박의 조우상황 데이터를 추출하고 분석하였다. 선박의 위치, 침로, 속력을 통해 TCPA, DCPA와 선박간 거리를 계산함으로써 선박의 충돌위험 인지 후 회피 상황에서 보이는 데이터의 형태와 분포를 분석하였다. 추후 상대방위와 SOG가 TCPA 변화량에 미치는 영향에 대한 연구가 진행되면, 실제 사용자의 충돌위험 판단과 근접한 충돌위험도 분석 모델로 활용할 수 있을 것으로 보인다.

  • PDF

증거와 Claim의 LM Perplexity를 이용한 Zero-shot 사실 검증 (Zero-Shot Fact Verification using Language Models Perplexities of Evidence and Claim)

  • 박은환;나승훈;신동욱;전동현;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.524-527
    • /
    • 2021
  • 최근 국외에서 사실 검증 연구가 활발하게 이루어지고 있지만 한국어의 경우 데이터 집합의 부재로 인하여 사실 검증 연구가 이루어지는데 큰 어려움을 겪고 있다. 이러한 어려움을 해소하고자 자동 생성 모델을 통하여 데이터 집합을 생성하는 시도도 있으나 생성 모델의 특성 상 부정확한 데이터가 생성되어 사실 검증 연구의 퀄리티를 떨어뜨린다는 문제점이 있다. 이러한 문제점을 해소하기 위해 수동으로 구축한 100건의 데이터 집합으로 최근에 이루어진 퓨-샷(Few-Shot) 사실 검증을 확장한 학습이 필요없는 제로-샷(Zero-Shot) 질의 응답에 대한 사실 검증 연구를 제안한다.

  • PDF

벤처기업정밀실태조사와 한국기업혁신조사 데이터를 활용한 통계적 매칭의 타당성 검증 (The Validity Test of Statistical Matching Simulation Using the Data of Korea Venture Firms and Korea Innovation Survey)

  • 안경민;이영찬
    • 지식경영연구
    • /
    • 제24권1호
    • /
    • pp.245-271
    • /
    • 2023
  • 최근 데이터 경제가 가속화되면서 경영학 분야에서는 데이터 매칭이라는 새로운 기법이 주목받고 있다. 데이터 매칭은 모집단이 같지만 서로 다른 표본에서 수집된 데이터셋을 합치는 기법 또는 처리 과정을 의미한다. 그중에서 통계적 매칭은 서로 다른 데이터를 결합하는데 있어서 사업자 번호와 같이 기준이 되는 변수가 없는 경우 통계적 함수를 활용하여 데이터를 매칭하는 방법이다. 선행연구 검토결과 경제학, 교육학, 보건, 의료 등 다양한 분야에서 통계적 매칭이 많이 사용되고 있는데 반해 경영학 분야는 제한적임을 확인할 수 있었다. 본 연구는 기존 경영학 분야에서 충분히 연구되지 않았던 통계적 매칭의 유용성을 검증하고 활용도를 높이는 방안을 연구하고자 한다. 연구목적을 달성하기 위해 본 연구에서는 2020 벤처기업정밀실태조사와 2020 한국기업혁신조사 자료를 활용하여 통계적 매칭 시뮬레이션을 수행하였다. 먼저, 선행연구를 바탕으로 통계적 매칭에 사용되는 변수를 선정하였다. 공통변수는 업종, 종업원수, 지역, 업력, 상장시장, 매출로 설정하였고, 검증을 위한 고유변수와 제공변수는 중소기업 혁신에서 가장 중요한 연구인력 비율과 R&D 비용으로 각각 설정하였다. 사전 검증을 위해 2020 벤처기업정밀실태조사 자료를 수여자 데이터 30%와 기여자 데이터 70%로 분할하였다. 통계적 매칭에는 마할라노비스 거리와 랜덤 핫덱을 결합한 방식을 사용하였고, 성능평가는 수여자 데이터와 원시 데이터의 평균값 비교와 커널 밀도 함수(Kernel Density Estimation)를 통해 데이터 분포를 비교하였다. 검증결과, 수여자 데이터 30%와 기여자 데이터 70%에서 추출된 매칭 데이터의 평균값이 통계적으로 유의한 차이가 없는 것으로 나타나 유사한 데이터가 매칭된다는 것을 확인하였다. 또한, 두 데이터의 커널 밀도 함수로 도출한 데이터 분포 역시 유사한 형태가 나타나는 것을 확인할 수 있었다. 사후 검증에는 2020 벤처기업정밀실태조사에서 임의로 30%를 수여자 데이터로 추출하고 2020 한국기업혁신조사 자료를 기여자 데이터로 설정하여 통계적 매칭을 수행하고 검증하였다. 사전 검증과 마찬가지로 공통변수는 업종, 종업원수, 지역, 업력, 상장시장, 매출로 설정하였고, 검증을 위한 고유변수는 연구 인력 비율과 R&D 비용으로 정의하였다. 분석 결과, 수여자 데이터의 연구인력 비율의 평균과 기여자 데이터의 평균은 예상과 다르게 통계적으로 차이가 있는 것으로 나타났다. 하지만 커널 밀도 함수에 따른 두 데이터의 분포는 유사한 형태를 보이는 것으로 조사되어 통계적 매칭의 적절성을 확인할 수 있었다. R&D 비용은 통계적 매칭 수행 결과, 수여자 데이터의 R&D 비용 평균과 기여자 데이터의 평균이 통계적으로 차이가 없었고, 커널 밀도 함수도 유사한 분포를 보이는 것으로 조사되었다. 이러한 결과는 모집단은 동일하지만 서로 다른 표본에서 수집된 자료를 통계적으로 결합하여 신뢰할 수 있는 새로운 데이터를 확보할 수 있다는 측면에서 큰 의의가 있다. 또한, 경영학 분야에서 많이 사용되지 않았던 데이터 매칭 방법론을 모의실험을 통해 타당성을 검증함으로써 연구용 데이터 확보와 연구방법론의 확장에 기여했다는 점에서 시사점을 가진다.

공공도서관 목록데이터의 중복검증에 관한 연구 - 부산 지역 G도서관 사례를 중심으로 - (A Study on Duplication Verification of Public Library Catalog Data: Focusing on the Case of G Library in Busan)

  • 송민건;이수상
    • 한국도서관정보학회지
    • /
    • 제55권1호
    • /
    • pp.1-26
    • /
    • 2024
  • 본 논문은 아이템 기반으로 작성된 공공도서관의 목록데이터에 대해 중복검증 알고리즘을 적용하여 서지레코드의 통합방안을 도출하고자 하였다. 이를 위하여 부산 지역에서 비교적 최근에 개관한 G도서관을 선정하였다. G도서관의 OPAC 데이터를 웹 크롤링을 통해 수집한 다음, 한국문학(KDC 800) 다권본 도서를 선별하고 KERIS의 중복검증 알고리즘을 적용하였다. 검증 결과를 바탕으로 2차에 걸친 데이터 교정 작업을 진행한 이후, 중복검증률은 95.53%에서 98.27%로 총 2.74% 상승하였다. 데이터 교정 후에도 유사/불일치 판정을 받은 24권은 개정판, 양장본 등 별도의 ISBN을 부여받고 출판된 다른 판본의 자료로 확인되었다. 이를 통해 목록데이터 교정 작업을 통해 중복검증률의 개선이 가능함을 확인하였으며, 공공도서관의 중복된 아이템 레코드들을 구현형 레코드로 전환하기 위한 도구로서 KERIS 중복검증 알고리즘의 활용 가능성을 확인하였다.

침입탐지시스템과 연계된 SSL 무결성 정보 관리 시스템 구현 (Implementation of Management System for SSL Integrity Data with Intrusion Detection System)

  • 김남진;강진수;김창수;김진천
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(상)
    • /
    • pp.154-157
    • /
    • 2003
  • 네트워크 상에서 송수신되는 데이터를 외부의 침입으로부터 보호하는 것은 매우 중요하며, 그 중 데이터의 무결성을 검증하고 보장하기 위한 방법으로 SSL(Secure Socket Layer)을 사용한다. 본 논문에서는 웹 환경에서 클라이언트와 서버간에 송수신되는 데이터의 무결성이 위배되었을 경우, 그 정보를 검증 및 관리할 수 있는 무결성 위배 데이터 검증 및 관리 시스템을 OpenSSL을 이용하여 구성하고, 꾑 서버를 통해 기록된 무결성 위배 로그 데이터는 IDS(Intrusion Detection System)로 전송하여 침입 탐지 정보와 항께 데이터의 무결성 검증 정보를 통합적으로 관리할 수 있도록 IDS와 연계된 무결성 정보 통합관리 시스템을 제안 및 설계하고자 한다.

  • PDF

천리안 위성을 이용한 지표면 온도의 검증 (Verification of Land Surface Temperature using COMS(Communication, Ocean and Meteorological Satellite))

  • 백종진;최민하
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.99-102
    • /
    • 2012
  • 지표면 온도는 토지피복의 상태, 식생의 분포 상태, 토양수분, 증발산 등의 영향으로 많은 차이를 가지게 되며, 지면-대기의 상호순환의 중요한 인자로써 기후모델 및 농업 등의 기본적인 데이터로 사용되고 있다. 이러한 지표면의 온도를 정확하게 파악하는 것은 수문학적 관점 및 기상적인 관점에서 매우 중요하다. 기존에 LST (Land Surface Temperature, 지표면온도), ET (EvapoTranspiration, 증발산), NDVI (Normalized Difference Vegetation Index, 정규식생지수) 등의 검증이 많이 이루어진 MODIS위성의 Terra/Aqua센서는 한반도를 스캔하고 지나갈 때의 순간적인 데이터를 산출된다. 공간적인 면에서는 많은 이점이 있으나 시간적인 면에서는 시간에 따른 인자들의 변동성을 파악 하는데는 많은 문제가 있다. 그렇기 때문에 시 공간적으로 변화양상을 측정 할 수 있는 정지궤도위성의 중요성이 대두되고 있다. 본 연구에서는 국내에서 2010년 6월 27일 발사된 정지궤도위성인 천리안의 데이터를 활용하였다. 천리안 위성은 기상 센서와 해양관측 센서 그리고 통신센서를 가진 위성이다. 천리안 위성의 기상 센서는 MTSAT-1 위성과 같은 적외선 센서를 탑재하고 있으며, 평시에는 15분 단위의 데이터를 산출하게 된다. 천리안에서 제공되는 많은 Product(강우강도, 해수면온도, 가강수량, 지구방출복사 등)는 수자원 및 기상에 관련된 데이터가 제공된다. 하지만 아직 검증이 많이 이루어지지 못하였다. 그래서 천리안 위성 데이터인 지표면 온도자료를 이용하여 천리안 위성의 효율성에 대해서 알아보고자 하며, 기존의 검증이 많이 이루어진 MODIS의 데이터와의 상관성을 분석하고 지상과의 관계를 검증 및 비교하여 천리안 위성의 활용성에 대해서 알아보려고 한다.

  • PDF

자동기동시스템과 시험검증설비간의 통신프로그램 개발

  • 김정수;정철환;함창식;정일영
    • 한국원자력학회:학술대회논문집
    • /
    • 한국원자력학회 1996년도 춘계학술발표회논문집(1)
    • /
    • pp.499-504
    • /
    • 1996
  • 본 논문은 저온정지에서 2%까지 원전 자동기동시스템에 필요한 발전소 데이터를 시험검증설비로부터 얻기 위해 공유메모리와 TCP/IP를 사용하여 통신프로그램을 개발하였다. 자동기동시스템은 foxboro에서 제공하는 API(Application Program Interface)를 이용하여 데이터베이스에서 제어기에 필요한 데이터를 공유메모리에 올려놓고, 통신프로그램이 읽고 쓸 수 있도록 했으며, 시험검증설비에서는 HP Workstation에서 사용되는 내부 프로세스 통신방법을 이용하여 시험검증설비에서 나온 데이터를 공유메모리에 넣을 수 있도록 설계하였다.

  • PDF

센싱 데이터 수집 시스템을 위한 통합검증 프로세스 설계 (Design of Integrated Verification Process for Sending Data Gathering System)

  • 김유두
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.305-306
    • /
    • 2021
  • 다양한 센싱 데이터를 수집하는 시스템은 복잡하게 구성되어 있다. 따라서 그 기능에 대한 검증을 수행하는 절차를 설계하는 것이 매우 중요하다. 이러한 환경에서 개발된 시스템의 통합 검증 프로세스를 설계하기 위해서, 본 논문에서는 다양한 센싱 데이터를 수집하는 시스템을 검증하는 절차에 대해 설계한다.

  • PDF