• 제목/요약/키워드: 다변량 데이터

검색결과 213건 처리시간 0.023초

자기조직화 지도 신경망과 사례기반추론을 이용한 다변량 공정관리 (Integrated Procedure of Self-Organizing Map Neural Network and Case-Based Reasoning for Multivariate Process Control)

  • 강부식
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.53-69
    • /
    • 2003
  • 현대의 생산공정에서는 많은 공정변수가 발생하고 있으며 복잡한 연관관계를 가지고 제품의 품질에 영향을 미치고 있다. 따라서 공정의 이상 유무 확인을 위해서는 많은 품질특성치를 동시에 관리하는 다변량 공정관리가 필요하다. 본 연구는 자기조직화 신경망(SOM)과 사례기반추론(CBR) 기법을 이용한 다변량 공정관리 방안을 제안한다. SOM을 이용하여 공정 데이터의 패턴을 생성하고 이상 유무 판단을 위해 기준패턴과 적합성 검정을 한다. 제안한 방법의 검증을 위해 공정에서 발생 가능한 패턴별로 데이터를 생성하여 실험하였고, 실험을 통해 이상패턴을 효과적으로 구별할 수 있음을 보였다. 또한 CBR 방법론을 적용하여 1종 오류는 줄이면서 2종 오류를 아주 작게 유지할 수 있음을 보임으로써, SOM과 CBR 이 결합된 절차가 다변량 공정관리를 위한 한 대안이 될 수 있음을 보였다.

  • PDF

다변량 시계열 이상 탐지 과업에서 비지도 학습 모델의 성능 비교 (A Survey on Unsupervised Anomaly Detection for Multivariate Time Series)

  • 임주완;이재구
    • 정보보호학회논문지
    • /
    • 제33권1호
    • /
    • pp.1-12
    • /
    • 2023
  • 다변량 시계열 이상 탐지 과업에서 정답 값이 존재하는 데이터를 얻는 것은 매우 시간 집약적인 일이다. 따라서 최근 정답 값이 필요 없는 비지도 학습법(unsupervised learning)에 관한 많은 연구가 진행되었다. 하지만 다변량 시계열 이상 탐지 과업에 특화된 주요 구조와 세부적인 특성에 대한 심화 있는 논의는 이루어지지 않았다. 본 논문에서는 비지도 학습 기반의 다변량 시계열 이상 탐지 모델과 특장점을 포괄적으로 분석하여 분류하였다. 전력 계통(power grid) 또는 Cyber Physical System(CPS)과 같은 현실 세계 데이터 집합에서 현실적인 이상 상황을 고려하여 학습을 진행하였고, 실험 결과를 바탕으로 각 모델의 정량적 성능을 비교 분석하였다. 성능 지표로는 정밀도(precision), 재현율(recall)과 F1 점수를 사용하여 성능을 측정하였다.

Water Temperature Prediction Study Using Feature Extraction and Reconstruction based on LSTM-Autoencoder

  • Gu-Deuk Song;Su-Hyun Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권11호
    • /
    • pp.13-20
    • /
    • 2023
  • 본 논문에서는 LSTM-Autoencoder 기반 특징추출과 재구성 데이터를 이용한 수온 예측 방법을 제안한다. 냉수대 현상이 발생한 동해 낙산 지역의 해수면 수온과 수온에 영향을 미치는 풍향, 풍속 등 다변량 시계열 데이터를 이용하고, LSTM-Autoencoder 모델을 이용하여, 원본 데이터의 차원 축소를 통해 추출된 특징 데이터를 원본 데이터의 다변수 데이터로 결합한 데이터, 복원 데이터, 원본 데이터 총 3가지를 사용한다. 수온 예측을 위해 LSTM 모델에 3가지 데이터를 학습하고, 정확도를 평가한 결과 MAE 0.3652, RMSE 0.5604, MAPE 3.309%으로 LSTM-Autoencoder의 특징추출을 이용한 수온 예측 정확도가 가장 우수한 성능을 보이는 것을 확인하였다. 본 연구의 결과는 냉수대와 같이 해수면 수온 변화가 급변하는 구간의 예측 정확도를 높여, 자연재해의 피해를 예방할 수 있을 것으로 기대한다.

다변량 지구과학 데이터와 가우시안 혼합 모델을 이용한 공간 분포 추정 (Estimation of Spatial Distribution Using the Gaussian Mixture Model with Multivariate Geoscience Data)

  • 김호림;유순영;윤성택;김경호;이군택;이정호;허철호;류동우
    • 자원환경지질
    • /
    • 제55권4호
    • /
    • pp.353-366
    • /
    • 2022
  • 지구과학 데이터(지오데이터)의 공간 이질성, 희소성 및 고차원성으로 인해 공간 분포 추정에 어려움이 있다. 따라서 지구과학의 많은 응용 분야에서 지오데이터의 고유 특성을 고려할 수 있는 공간 추정 기법이 필요하다. 본 연구에서는 기계 학습 알고리즘 중 하나인 가우시안 혼합 모델(Gaussian Mixture Model; GMM)을 이용하여 공간 예측 방법을 제공하고자 하였다. 제안된 기법의 성능을 검증하기 위해, 옛 제련소 부지에서 휴대용 X선 형광분석기(PXRF) 및 유도결합플라즈마-원자방출분광법(ICP-AES)을 이용하여 분석된 토양 농도 자료를 활용하였다. ICP-AES를 이용해 분석된 As와 Pb를 주변수로 하고, 나머지 자료는 보조변수로 활용하였다. 다차원의 보조변수 중 중요 변수를 선별하기 위해 랜덤포레스트 기반의 변수선택법을 적용하였다. ICP-AES 및 PXRF를 통해 구축된 다변량 데이터를 사용한 GMM의 결과를 단변량 및 이변량 데이터를 사용한 정규 크리깅(Ordinary Kriging; OK) 및 정규 공동크리깅(Ordinary Co-Kriging; OCK)의 결과와 비교하였다. GMM의 결과는 OK 및 OCK의 결과보다 낮은 평균 제곱근 편차(RMSE; 비소는 최대 0.11 및 납은 0.33까지 향상)와 높은 상관관계(r; 비소는 최대 0.31 및 납은 0.46까지 향상)를 제공하였다. 이는 GMM을 사용할 경우 토양 오염의 범위 해석의 성능을 향상시킬 수 있음을 지시한다. 본 연구는 다 변량 공간추정 접근법이 복잡하고 이질적인 지질 및 지구 화학자료의 특징을 이해하는 데 효과적으로 적용될 수 있음을 증명하였다.

다변량 통계 분석을 이용한 결측 데이터의 예측과 센서이상 확인 (Missing Value Estimation and Sensor Fault Identification using Multivariate Statistical Analysis)

  • 이창규;이인범
    • Korean Chemical Engineering Research
    • /
    • 제45권1호
    • /
    • pp.87-92
    • /
    • 2007
  • 최근 공정의 이상을 감지하고 진단하기 위한 공정 모니터링 시스템의 개발이 공정 시스템 분야에서 많은 주목을 받고 있다. 공정으로부터 얻어지는 데이터는 공정의 특성에 대한 유용한 정보를 제공하고 이는 공정의 모델링과 모니터링 그리고 제어에 사용된다. 현대의 화학 및 환경 공정은 고차원적인 특성과 변수간의 강한 상관관계와 동특성 그리고 비선형적 특성을 가지고 있어 모델 기반 접근을 통해 공정을 분석하는 것을 쉽지 않다. 이러한 모델 기반 접근의 한계를 극복하기 위해 많은 시스템 엔지니어와 연구자들이 주성분 분석법(principal component analysis, PCA) 또는 부분 최소 자승법(partial least squares, PLS)과 같은 다변량 분석을 접목한 통계 기반 접근법에 초점을 맞추고 있다. 또한 동특성, 비선형성 등과 같은 특성을 가진 공정에 적용하기 위해 많은 다변량 분석법들이 보완되었다. 여기에서는 동적 주성분 분석법(dynamic PCA)과 케노니컬 변수 분석법(canonical variate analysis)을 이용한 결측 데이터의 예측법과 공정 변수의 복원을 통한 센서 오작동의 판별법에 대해 언급해 보고자 한다.

다변량 분위수 회귀나무 모형에 대한 연구 (Multivariate quantile regression tree)

  • 김재오;조형준;방성완
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권3호
    • /
    • pp.533-545
    • /
    • 2017
  • 분위수 회귀모형은 반응변수의 조건부 분포에 대하여 포괄적이고 유용한 통계적 정보를 제공한다. 그러나 많은 실제 자료는 설명변수와 반응변수가 비선형의 관계를 갖고 있어 전통적인 선형 분위수 회귀모형은 왜곡되고 잘못된 결과를 초래할 수 있다. 또한 자료의 복잡성이 증가하여 반응변수가 여러개인 다변량 자료의 분석에 대한 보다 정확한 예측과 더불어 풍부한 해석에 대한 요구가 증가하고 있다. 이러한 이유로 본 연구에서는 다변량 분위수 회귀나무 모형을 제안하였다. 본 연구에서는 기존의 다변량 회귀나무 모형의 분할변수 선택 알고리즘의 문제점을 지적하고 향상된 분할변수 선택 알고리즘을 제안하였다. 제안한 알고리즘은 합리적인 계산시간으로 적용 가능하며 분할변수 선택에서 편향 발생의 문제를 갖지 않는 동시에 기존 방법보다 더 정확하게 분할변수를 선택할 수 있있다. 본 연구에서는 모의실험과 실증 예제를 통해 제안한 방법의 우수한 성능과 유용성을 확인하였다.

다변량 정규분포에서 대안적인 VaR의 특성 (Properties of alternative VaR for multivariate normal distributions)

  • 홍종선;이기쁨
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권6호
    • /
    • pp.1453-1463
    • /
    • 2016
  • 가장 선호하는 금융위험 측정 방법은 통계적으로 최대손실금액을 추정하는 VaR (Value at Risk)이다. 포트폴리오를 구성하는 여러 산업에 대한 VaR (Value at Risk)는 분산공분산 행렬과 특정한 포트폴리오가 포함되어 변환된 일변량 위험을 이용하여 추정한다. Hong 등 (2016)은 다변량 분위벡터를 바탕으로 Vector at Risk를 정의하였으며, 특정한 포트폴리오가 설정되면 Vector at Risk 중의 한 점을 최적의 VaR 즉, 대안적인 VaR (AVaR)로 제안하였다. 본 연구에서는 다변량 정규분포에 대하여 AVaR의 특성을 탐색한다. 여러 종류의 분산공분산 행렬과 다양한 포트폴리오 가중값 벡터인 경우의 이변량과 삼변량의 정규분포를 따르는 모의실험 자료와 실증예제를 이용하여 대안적인 최대손실금액인 AVaR을 구하고 VaR과 비교 분석한다. 다변량 분위벡터를 이용한 AVaR는 VaR보다 작게 추정함을 발견하였으며, 이런 특징과 함께 AVaR의 특성을 토론한다.

가중 포트폴리오에서의 CTE (CTE with weighted portfolios)

  • 홍종선;신동식;김재영
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.119-130
    • /
    • 2017
  • 다변량 분포에서의 VaR (Value at Risk)와 CTE (Conditional Tail Expectation)에 관한 많은 연구문헌에서는 특정한 포트폴리오 구성비를 이용하여 일변량 분포로 변환하여 추정하였다. 다변량 분포에서 분위수에 관한 많은 연구가 존재한다. 그러나 분위수가 유일하게 존재하지 않으므로, VaR와 CTE의 추정에 어려움이 있다. 본 연구에서는 다변량 분위 벡터를 이용한 대안적인 VaR와 통합적인 다변량 CTE의 연구를 확장하여, 여러 종류의 포트폴리오로 구성된 다양한 비율 조합에 따른 가중 CTE 벡터들을 제안한다. 일변량에 대한 CTE 관계식을 다차원의 관계식으로 확장하고, 일변량의 관계식과의 특징과 차이점에 대하여 토론한다. 정규분포로부터 추출한 자료와 실증 예제를 통하여 본 연구에서 제안한 가중 CTE를 탐색하면서 가중 CTE의 활용성과 장점을 유도한다.

다변량 통계기법을 활용한 데이터기반 실시간 진단 (Data-based On-line Diagnosis Using Multivariate Statistical Techniques)

  • 조현우
    • 한국산학기술학회논문지
    • /
    • 제17권1호
    • /
    • pp.538-543
    • /
    • 2016
  • 고품질의 제품과 조업 안전을 확보하기 위해서는 적절한 실시간 공정 감시 및 진단 시스템이 설치되어있는 것이 무엇보다 중요하다. 공정 감시 시스템과 결합된 신뢰도 높은 진단 시스템은 공정에서 발생한 특별한 사건이나 사고의 근본적인 원인과 공정 변수를 알려준다. 본 연구에서는 다변량 통계 분석과 분류기법에 기반한 공정진단 체계를 제시한다. 이 진단시스템은 비선형 데이터 표현과 필터링을 통한 지능적 데이터 표현으로 구성되어 있다. 진단 성능을 평가하기 위해 사례연구를 수행하였으며 다른 방법론과의 결과를 비교하기 위하여 진단 결과와 미래값 추정 방법을 평가하였다. 그 결과 본 연구에서 비교된 진단 방법론들에 비해 신뢰도 높은 진단 결과를 얻을 수 있었다.

다변량 입력이 딥러닝 기반 저수율 예측에 미치는 영향 분석과 중장기 예측 방안 (Analyzing the Impact of Multivariate Inputs on Deep Learning-Based Reservoir Level Prediction and Approaches for Mid to Long-Term Forecasting)

  • 박혜승;윤종욱;이호준;양현호
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.199-207
    • /
    • 2024
  • 지역 저수지들은 농업용수 공급의 중요한 수원공으로 가뭄과 같은 극단적 기후 조건을 대비하여 안정적인 저수율 관리가 필수적이다. 저수율 예측은 국지적 강우와 같은 지역적 기후 특성뿐만 아니라 작부시기를 포함하는 계절적 요인 등에 크게 영향을 받기 때문에 적절한 예측 모델을 선정하는 것만큼 입/출력 데이터 간 상관관계 파악이 무엇보다 중요하다. 이에 본 연구에서는 1991년부터 2022년까지의 전라북도 400여 개 저수지의 광범위한 다변량 데이터를 활용하여 각 저수지의 복잡한 수문학·기후학적 환경요인을 포괄적으로 반영한 저수율 예측 모델을 학습 및 검증하고, 각 입력 특성이 저수율 예측 성능에 미치는 영향력을 분석하고자 한다. 신경망 구조에 따른 저수율 예측 성능 개선이 아닌 다변량의 입력 데이터와 예측 성능 간의 상관관계에 초점을 맞추기 위하여 실험에 사용된 예측 모델로 합성곱신경망 또는 순환신경망과 같은 복잡한 형태가 아닌 완전연결계층, 배치정규화, 드롭아웃, 활성화 함수 등의 조합으로 구성된 기본적인 순방향 신경망을 채택하였다. 추가적으로 대부분의 기존 연구에서는 하루 단위의 단기 예측 성능만을 제시하고 있으며 이러한 단기 예측 방식은 10일, 한 달 단위 등 중장기적 예측이 필요한 실무환경에 적합하지 않기 때문에, 본 연구에서는 하루 단위 예측값을 다음 입력으로 사용하는 재귀적 방식을 통해 최대 한 달 뒤 저수율 예측 성능을 측정하였다. 실험을 통해 예측 기간에 따른 성능 변화 양상을 파악하였으며, Ablation study를 바탕으로 예측 모델의 각 입력 특성이 전체 성능에 끼치는 영향을 분석하였다.