• 제목/요약/키워드: Multiple Machine Learning

검색결과 356건 처리시간 0.025초

행정 빅데이터 환경에서 컷오프-투표 분류기를 활용한 빅데이터 예측모형의 실험 (Operation Plan of Big Data Prediction Model using Cut-off-Voting Classifier in Administrative Big Data Environment)

  • 이우식
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.145-154
    • /
    • 2024
  • 행정 빅데이터를 활용하는 예측 모형을 운영하기 위해서는 정책의 변화 및 변동성 심한 데이터의 특성이 고려가 되어야만 한다. 이런 상황을 고려하여 본 연구에서는 Cut-off Voting Classifier(CVC) 알고리즘을 제안한다. 제안하는 알고리즘은 여러개의 약 분류기를 활용하여 적중률이 급격하게 하락하는 것을 방지하는 알고리즘이다. 본 연구에서는 제안하는 알고리즘을 실험을 통해 성능을 검증한다. 성능검증 결과 급격하게 예측모형 적중률이 하락하는 상황에서도 안정적으로 예측률을 유지한다는 것을 입증할 수 있었다.

심층신경망 모델을 이용한 대기오염망 자료확정 알고리즘 연구 (A Study on the Air Pollution Monitoring Network Algorithm Using Deep Learning)

  • 이선우;양호준;이문형;최정무;윤세환;권장우;박지훈;정동희;신혜정
    • 융합정보논문지
    • /
    • 제11권11호
    • /
    • pp.57-65
    • /
    • 2021
  • 본 논문은 딥 러닝(Deep Learning)을 이용하여 대기오염측정망 데이터 중 특정 증상이 나타나는 이상 데이터를 탐지하는 방법을 제시한다. 기존 방법들은 일반적으로 시계열 데이터 내에서 기존과는 다른 특이한 패턴이 나타나는 데이터를 탐지하여 이상치로 분류하며, 이는 특정 증상만을 탐지하기에는 적합하지 않다. 본 논문에서는 주로 이미지의 전경 분리(Sementic Segmentation)에 사용되는 DeepLab V3+ 모델의 2차원 합성곱 신경망 구조를 1차원 구조로 변형하여 이미지 대신 여러 센서의 시계열 측정값을 입력받고 특정 증상이 나타나는 데이터를 탐지하도록 하는 방법을 제시한다. 또한, 데이터에 '조각별 집계 근사법(Piecewise Aggregate Approximation)'을 적용하여 잡음이 많은 대기오염측정망 데이터의 복잡도를 줄임으로써 성능을 높인다. 실험 결과를 통해 준수한 성능으로 이상치 탐지를 수행할 수 있음을 확인할 수 있다.

가까운 벌림 빠짐 해결을 위한 딥러닝 기반의 트레이스 내삽 및 외삽 기술에 대한 고찰 (A Review of Deep Learning-based Trace Interpolation and Extrapolation Techniques for Reconstructing Missing Near Offset Data)

  • 박지호;설순지;변중무
    • 지구물리와물리탐사
    • /
    • 제26권4호
    • /
    • pp.185-198
    • /
    • 2023
  • 해양 탄성파 탐사 수행 시 송·수신 케이블의 구조적인 거리차에 의해서 필연적으로 발생하는 가까운 벌림(near offset)의 트레이스(trace)빠짐은 뒤따르는 탄성파 자료처리의 결과 및 영상화에 악영향을 끼치게 된다. 특히 가까운 벌림의 자료의 부재는 정확한 탄성파 영상화를 저해하는 다중반사파의 제거에 주요한 인자로 작용하므로 다중반사파의 영향력이 강해지는 천해 및 연안 탐사의 경우 빠짐을 효과적으로 해결해야 한다. 전통적으로 다양한 라돈 변환(Radon transform) 기반의 내삽 방법들이 가까운 벌림 빠짐의 해결책으로 제시되어왔으나 여러 한계점을 보여, 최근 이를 보완하기 위한 딥러닝(deep learning) 기반의 방법들이 제시되고 있다. 이 논문에서는 기존에 제시된 두 가지의 대표적인 딥러닝 기반의 접근법에 대해 면밀히 분석하여 앞으로 가까운 벌림 내삽 연구가 해결해야 하는 문제점들에 대해 깊이 있게 논의한다. 또한 기존의 딥러닝 기반의 트레이스 내삽 기술을 가까운 벌림 상황에 적용할 때 나타나는 한계점을 현장자료 실험을 통해 명확히 분석하여 향후 가까운 벌림 자료 빠짐의 문제는 내삽이 아닌 외삽으로 접근해야 한다는 것을 보여준다.

집합 결합과 신경망을 이용한 복합질환의 예측 (A Prediction Model for Complex Diseases using Set Association & Artificial Neural Network)

  • 최현주;김승현;위규범
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.323-330
    • /
    • 2008
  • 복합질환은 다수의 유전자들이 상호작용하여 유발되는 질병으로서, 여러 유전자들이 관여한다는 복잡성 때문에 전통적인 분석 방법을 적용하는데 한계가 있다. 최근에는 기계학습 기법을 이용한 새로운 분석 방법들이 제안되고 있다. 신경망은 이처럼 복잡한 데이터에서 일정한 패턴을 찾아 이를 분류하는데 적합한 모델이다. 그러나 다량의 데이터가 입력으로 들어오는 경우에 학습에 오랜 시간이 걸리고 패턴을 찾기가 어려워지는 단점이 있다. 본 연구에서는 다량의 SNP 데이터로부터 질병에 연관된 소수의 중요 SNP을 찾기 위한 통계학적인 방법인 집합결합(set association)과 신경망을 결합한 모델을 제시한다. 이 모델을 천식 관련 SNP 데이터에 적용하여 천식 발병 여부를 예측한 결과, 신경망만 사용했을 때보다 실행 시간도 빠르고 예측 정확도도 높았다. 이 모델은 다른 복합질환의 예측에도 효과적으로 사용할 수 있을 것으로 기대한다.

진화연산 기반 계층적 하이퍼네트워크 모델에 의한 암 특이적 microRNA-mRNA 상호작용 탐색 (Exploring Cancer-Specific microRNA-mRNA Interactions by Evolutionary Layered Hypernetwork Models)

  • 김수진;하정우;장병탁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.980-984
    • /
    • 2010
  • microRNA (miRNA)와 mRNA 조절 상호작용 탐색은 다양한 생물학적 현상에 있어 새로운 시야를 제공해 줄 수 있다. 최근 생물학적 프로세스에서 miRNA는 유전자 발현을 제어하고 세포를 기능적으로 조절하는 중요한 역할을 하는 요소로 밝혀졌다. 이에 복잡한 생물학 시스템에서 miRNA의 기능적 활동을 이해하기 위해서는 miRNA와 mRNA간 상호작용 분석은 필수적이다. 그러나 아직까지 복잡한 miRNA와 mRNA간 상호작용 관계를 추론하는 것은 어려운 문제이기 때문에 많은 연구자들이 실험적, 전산학적 접근 방법을 제안하며 활발한 연구를 진행하고 있다. 본 논문에서는 이종의 발현 데이터로부터 기능적으로 상호작용하는 miRNA-mRNA 조합을 탐색하기 위한 진화 연산 기반의 새로운 하이퍼네트워크 모델을 제안한다. 이에 실험결과로 제안하는 방법을 인간 암 관련 miRNA와 mRNA 발현 데이터에 적용하여 암 특이적 miRNA-mRNA 상호작용 집합을 탐색하고 발견한 miRNA-mRNA 상호작용 관계가 생물학적으로 유의함을 제시한다.

Gated Multi-Modal Neural Networks를 이용한 다중 웨어러블 센서 결합 방법 및 일상 행동 패턴 분석 (Multi-Modal Wearable Sensor Integration for Daily Activity Pattern Analysis with Gated Multi-Modal Neural Networks)

  • 온경운;김은솔;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권2호
    • /
    • pp.104-109
    • /
    • 2017
  • 본고에서는 다중 웨어러블 센서 데이터로부터 사용자의 일상 생활 행동 패턴을 분석할 수 있는 새로운 기계학습 모델을 제안한다. 제안하는 모델은 다중 웨어러블 센서 데이터를 효과적으로 학습하기 위하여 사람이 다중 센서 정보를 처리하는 방법을 적용한 새로운 신경망 모델이다. 제안하는 Gated multi-modal neural netoworks는 계층적 신경망 구조를 가지고 있으며 Gate 모듈을 통해 각 센서 데이터를 선택적으로 결합하여 처리하는 특징을 가진다. 실험을 위해 다중 웨어러블 장치를 착용하고 일상 생활 중 한 가지인 레스토랑에서의 행동 센서 데이터를 수집하였다. 실험 결과로서, 제시하는 모델을 이용하여 실제 웨어러블 센서 데이터를 분석하였을 때 분류 정확도가 비교적 정확하고 빠르게 처리할 수 있음을 확인하였다. 또한 모델의 중간 계층에서의 노드의 활성화 패턴 분석을 통해 자동으로 일상생활 패턴을 추출할 수 있고 이를 이용하여 지식 스키마를 생성할 수 있음을 확인하였다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.

광주광역시 아파트 매매가 영향요인 분석 (An Analysis of the Key Factors Affecting Apartment Sales Price in Gwangju, South Korea)

  • 임성연;고창완;정영선
    • 스마트미디어저널
    • /
    • 제11권3호
    • /
    • pp.62-73
    • /
    • 2022
  • 국내 아파트 매매가 예측에 관한 연구는 현재까지 지속적으로 수행되어 왔지만, 아파트 가격은 다양한 특성이 복합적으로 작용하기 때문에 예측하는데 어려움을 겪고 있다. 아파트 매매가를 예측하는데 앞서 정확도를 높이기 위해서는 주요 변수 선정 및 영향요인 분석이 무엇보다 중요하다. 이에 본 연구는 현재 꾸준한 상승률을 보이는 광주광역시를 대상으로 아파트 매매가에 영향을 주는 요인을 분석해보고자 한다. 이를 위해 6년간의 광주광역시 아파트 실거래가와 각종 사회적 요인 데이터를 토대로, 다중회귀분석, 랜덤 포레스트, 심층인공신경망 알고리즘을 적용하여 각 모델에서 주요 영향요인을 파악하였으며, 모델의 성능은 평균 제곱근 오차, 평균 절대 오차 그리고 결정계수를 통해 비교 분석하였다. 본 연구에서는 딥러닝의 일종인 심층인공신경망의 성능이 가장 우수함을 보였고, 매매가에 영향을 미치는 주요 요인으로 건축경과연수, 계약연도, 적용면적, 양도성예금증서, 주택담보대출금리, 선행지수, 생산자물가지수, 동행지수 등이 도출되었다.

Support Vector Machines을 이용한 다중 클래스 문제 해결 (Solving Multi-class Problem using Support Vector Machines)

  • 고재필
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권12호
    • /
    • pp.1260-1270
    • /
    • 2005
  • 최근 기계학습 분야에서 커널머신을 이용한 대표적 학습기로 Support Vector Machines (SVM)이 주목 받고 있다. SVM은 통계적 학습이론에 기반하여 뛰어난 일반화 성능을 보여주며, 다양한 패턴인식 문제에 적용되고 있다. 그러나. SVM은 이진 분류기이므로 일반적인 다중 클래스 문제에 곧바로 적용할 수 없다. SVM을 다중 클래스 문제의 하나인 얼굴인식에 도입하기 위한 방법으로는, One-Per-Class와 All-Pairs가 대표적이다. 상기 두 방법은 다중 클래스 문제를 여러 개의 이진 클래스 문제로 분할하고, 이들을 다시 종합하여 최종 결정을 내리는 출력코딩이라는 일반적인 방법에 속한다. 본 논문에서는 이진 분류기인 SVM의 다중 클래스 분류기 확장 방안으로 출력코딩 방법론을 설명한다. 또한 출력코딩 방법론의 대표적인 이론적 기반인 ECOC(Ewor-Correcting Output Codes)를 근간으로 하는 새로운 출력코딩 방법들을 제안하고, 얼굴인식 실험을 통해 SVM을 기반 분류기로 사용할 경우의, 출력코딩 방법의 특성을 비교$\cdot$분석한다.

센서 데이터 변곡점에 따른 Time Segmentation 기반 항공기 엔진의 고장 패턴 추출 (Fault Pattern Extraction Via Adjustable Time Segmentation Considering Inflection Points of Sensor Signals for Aircraft Engine Monitoring)

  • 백수정
    • 산업경영시스템학회지
    • /
    • 제44권3호
    • /
    • pp.86-97
    • /
    • 2021
  • As mechatronic systems have various, complex functions and require high performance, automatic fault detection is necessary for secure operation in manufacturing processes. For conducting automatic and real-time fault detection in modern mechatronic systems, multiple sensor signals are collected by internet of things technologies. Since traditional statistical control charts or machine learning approaches show significant results with unified and solid density models under normal operating states but they have limitations with scattered signal models under normal states, many pattern extraction and matching approaches have been paid attention. Signal discretization-based pattern extraction methods are one of popular signal analyses, which reduce the size of the given datasets as much as possible as well as highlight significant and inherent signal behaviors. Since general pattern extraction methods are usually conducted with a fixed size of time segmentation, they can easily cut off significant behaviors, and consequently the performance of the extracted fault patterns will be reduced. In this regard, adjustable time segmentation is proposed to extract much meaningful fault patterns in multiple sensor signals. By considering inflection points of signals, we determine the optimal cut-points of time segments in each sensor signal. In addition, to clarify the inflection points, we apply Savitzky-golay filter to the original datasets. To validate and verify the performance of the proposed segmentation, the dataset collected from an aircraft engine (provided by NASA prognostics center) is used to fault pattern extraction. As a result, the proposed adjustable time segmentation shows better performance in fault pattern extraction.