• Title/Summary/Keyword: 분산 기계 학습

Search Result 89, Processing Time 0.022 seconds

Noise-Reduction of Student's Learning Data using k-NN Method (k-NN 기법을 이용한 학습자 데이터의 노이즈 선별 방법)

  • Yun, Tae-Bok;Lee, Ji-Hyeong;Jeong, Yeong-Mo;Cha, Hyeon-Jin;Park, Seon-Hui;Kim, Yong-Se
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.135-138
    • /
    • 2006
  • 사용자 모델링을 위해서는 사용자의 성향 및 행위 등의 다양한 정보를 수집하여 분석에 이용한다. 하지만 사용자(인간)로 부터 얻은 데이터는 기계나 환경에서 수집된 데이터 보다 패턴을 찾기 힘들어 모델링하기 어렵다. 그 이유는 사용자는 사용자의 현재 상태와 상황에 따라 다양한 결과를 보이며, 일관성을 유지 하지 않는 경우가 있기 때문이다. 사용자 모델링을 위해서는 분산되어 있는 데이터에서 노이즈를 선별하고 연관성 있는 데이터를 분류할 수 있는 기술이 필요하다. 본 논문은 사용자로 부터 수집된 데이터를 k-NN(Nearest Neighbor) 기법을 이용하여 노이즈를 선별한다. 노이즈가 제거된 데이터는 의사결정나무(Decision Tree)방법을 이용하여 학습하였고, 노이즈가 분류되기 전과 비교 분석 하였다. 실험에서는 홈 인테리어 학습 컨텐츠인 DOLLS-HI를 이용하여 수집된 학습자의 데이터를 이용하였고, 생성된 학습자 모델링의 신뢰도가 높아지는 것을 확인하였다.

  • PDF

Application of Machine Learning Algorithm and Remote-sensed Data to Estimate Forest Gross Primary Production at Multi-sites Level (산림 총일차생산량 예측의 공간적 확장을 위한 인공위성 자료와 기계학습 알고리즘의 활용)

  • Lee, Bora;Kim, Eunsook;Lim, Jong-Hwan;Kang, Minseok;Kim, Joon
    • Korean Journal of Remote Sensing
    • /
    • v.35 no.6_2
    • /
    • pp.1117-1132
    • /
    • 2019
  • Forest covers 30% of the Earth's land area and plays an important role in global carbon flux through its ability to store much greater amounts of carbon than other terrestrial ecosystems. The Gross Primary Production (GPP) represents the productivity of forest ecosystems according to climate change and its effect on the phenology, health, and carbon cycle. In this study, we estimated the daily GPP for a forest ecosystem using remote-sensed data from Moderate Resolution Imaging Spectroradiometer (MODIS) and machine learning algorithms Support Vector Machine (SVM). MODIS products were employed to train the SVM model from 75% to 80% data of the total study period and validated using eddy covariance measurement (EC) data at the six flux tower sites. We also compare the GPP derived from EC and MODIS (MYD17). The MODIS products made use of two data sets: one for Processed MODIS that included calculated by combined products (e.g., Vapor Pressure Deficit), another one for Unprocessed MODIS that used MODIS products without any combined calculation. Statistical analyses, including Pearson correlation coefficient (R), mean squared error (MSE), and root mean square error (RMSE) were used to evaluate the outcomes of the model. In general, the SVM model trained by the Unprocessed MODIS (R = 0.77 - 0.94, p < 0.001) derived from the multi-sites outperformed those trained at a single-site (R = 0.75 - 0.95, p < 0.001). These results show better performance trained by the data including various events and suggest the possibility of using remote-sensed data without complex processes to estimate GPP such as non-stationary ecological processes.

A Distributed Scheduling Algorithm based on Deep Reinforcement Learning for Device-to-Device communication networks (단말간 직접 통신 네트워크를 위한 심층 강화학습 기반 분산적 스케쥴링 알고리즘)

  • Jeong, Moo-Woong;Kim, Lyun Woo;Ban, Tae-Won
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.24 no.11
    • /
    • pp.1500-1506
    • /
    • 2020
  • In this paper, we study a scheduling problem based on reinforcement learning for overlay device-to-device (D2D) communication networks. Even though various technologies for D2D communication networks using Q-learning, which is one of reinforcement learning models, have been studied, Q-learning causes a tremendous complexity as the number of states and actions increases. In order to solve this problem, D2D communication technologies based on Deep Q Network (DQN) have been studied. In this paper, we thus design a DQN model by considering the characteristics of wireless communication systems, and propose a distributed scheduling scheme based on the DQN model that can reduce feedback and signaling overhead. The proposed model trains all parameters in a centralized manner, and transfers the final trained parameters to all mobiles. All mobiles individually determine their actions by using the transferred parameters. We analyze the performance of the proposed scheme by computer simulation and compare it with optimal scheme, opportunistic selection scheme and full transmission scheme.

Parallel Information Retrieval using Document Clustering Techniques (문서 클러스터링 기법을 활용한 병렬 정보 검색)

  • 강유경;박세진;류광렬;정상화
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.750-752
    • /
    • 1998
  • 본 논문은 고품질의 정보를 신속하게 제공할 수 있으며, cost-effective 한 medium-grained 병렬 정보 검색 시스템을 제시하고 있다. 본 검색 시스템은 병렬 모델의 효율을 극대화하는 방안으로 문서 라이브러리를 작은 단위의 클러스터로 세분화하고 검색 시 클러스터 단위로 프로세서에 할당될 수 있게 하여 할당될 작업의 단위를 적절히 중규모화하였을 뿐만 아니라, 각 클러스터마다 독립적인 염색인 파일을 별도로 두어 순위 부여 계산시 통신을 최소화 할 수 있도록 하였다. 또한, 기계 학습 기법을 이용하여 가능한 한 유사한 문서군이 되도록 클러스터링 함으로써 불필요한 크러스터가 검색될 가능성을 최소화하여 성능을 높였다. 본 검색 시스템은 분산메모리 MIMD 구조의 트랜스퓨터에서 구현되었으며, Connection machine에서 사용되는 Stanfill방법과의 비교 실험을 통하여 계층적인 접근법의 성능을 비교, 평가하였다. 그리고 random클러스터링 기법과 비교하여 기계학습을 통한 클러스터링 접근방법이 우수함을 보이고 있다.

  • PDF

Design of traffic congestion predictive system with Machine Learning (기계학습을 이용한 교통 정체 구간 예측 시스템 설계)

  • Jeon, Woohyeok;Choi, Jiin;Park, Kyungbin;Kim, Kyungsup
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2016.10a
    • /
    • pp.367-369
    • /
    • 2016
  • 정보통신기술이 발전함에 따라 수많은 데이터가 발생하고 있다. 이러한 '빅데이터'의 활용은 국민의 니즈 파악, 공공서비스 제공 등 미래 경쟁력의 핵심 가치라 할 수 있다. 이에 본 논문에서는 기상데이터와 교통데이터를 수집한 후, 분산 시스템 환경 하에서 실행되는 기계학습 알고리즘을 이용하여 기상기후와 관련된 교통 정체 구간 예측 시스템에 대해 제안하고자 한다.

Distributed controller using Learning Vector Quantization algorithm in SDN environment (SDN 환경에서 Learning Vector Quantization 알고리즘을 이용한 분산 컨트롤러)

  • Yoo, Seung-Eon;Lym, Hwan-Hee;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.207-208
    • /
    • 2018
  • 본 논문에서는 기계학습의 하나인 Learning Vector Quantization 알고리즘을 이용하여 컨트롤러 순서를 정하는 모델을 제안하였다. 제안한 모델은 모든 컨트롤러 정보를 수집하여 Learning Vector Quantization의 LVQ1와 LVQ2 기법을 이용하여 컨트롤러의 순서를 정한다. 이를 통해, 효율적인 컨트롤러 동기화가 이뤄질 것으로 기대된다.

  • PDF

Stale Synchronous Parallel Model in Edge Computing Environment (Edge Computing 환경에서의 Stale Synchronous Parallel Model 연구)

  • Kim, Dong-Hyun;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.01a
    • /
    • pp.89-92
    • /
    • 2018
  • 본 논문에서는 Edge computing 환경에서 다수의 노드들로 구성된 네트워크의 디바이스를 효율적으로 관리하기 위한 방법을 제안한다. 기존의 클라이언트-서버 모델은 모든 데이터와 그에 대한 요청을 중심 서버에서 처리하기 때문에, 다수의 노드로부터 생성된 많은 양의 데이터를 처리하는 데 빠른 응답속도를 보장하지 못한다. Edge computing은 분담을 통해 네트워크의 부담을 줄일 수 있는 IoT 네트워크에 적합한 방법으로, 데이터를 전송하고 받는 과정에서 네트워크의 대역폭을 사용하는 대신 서로 연결된 노드들이 협력해서 데이터를 처리하고, 또한 네트워크 말단에서의 데이터 처리가 허용되어 데이터 센터의 부담을 줄일 수 있다. 여러병렬 기계학습 모델 중 본 연구에서는 Stale Synchronous Parallel(SSP) 모델을 이용하여 Edge 노드에서 분산기계 학습에 적용하였다.

  • PDF

A Study on Machine Learning-Based Caching System for Improving Sensor Data Processing in Samrt Home Environment (스마트홈 환경에서 센서 데이터 처리율 향상을 위한 기계학습 기반 캐싱 시스템 설계)

  • Song, Jin-Su;Lee, Pil-Won;Shin, Yong-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.05a
    • /
    • pp.82-85
    • /
    • 2021
  • 최근 초연결화를 근간으로 한 스마트 홈 구성을 위해 스마트 홈 내부에 센서를 탑재한 디바이스가 증가하고 있으며, 이를 효과적으로 사용하기 위해 빅데이터 처리 시스템이 활발하게 도입되고 있다. 그러나 기존 빅데이터 처리 시스템은 분산노드에 할당되기 전 모든 요청이 클러스터 드라이버로 향하기 때문에 동시에 많은 요청이 발생하는 경우 분할 작업을 관리하는 클러스터 드라이버에 병목현상이 발생함에 따라 네트워크를 공유하는 클러스터 전체의 성능감소로 이어진다. 특히 작은 데이터 처리를 지속적으로 요청하는 스마트 홈 디바이스에서 지연율이 더 크게 나타난다. 이에 본 논문에서는 동시간에 빈번한 요청이 발생하는 스마트 홈 환경에서 효과적인 데이터 처리를 위한 기계학습 기반 캐싱 시스템을 설계하였다.

Real-time construction machine data processing and fault prediction system (실시간 건설기계 데이터 처리 및 이상 유무 예측 시스템)

  • Kim, Chan-Hyup;An, Jae-Hoon;Han, Jae-Seung;Kim, Young-Hwan
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.364-366
    • /
    • 2018
  • 본 논문에서는 Digital Twin 기반 건설기계 지능화를 위한 실시간 건설기계 데이터 처리 및 이상 유무 예측 시스템을 제안한다. 이 시스템은 빅 데이터 분산처리 기반으로 실시간 스트리밍 처리가 가능하며, CEP(Complex Event Processing)의 Sliding Window Operator를 활용한 Rule 적용을 통해 건설기계 데이터 처리 및 분석한다. 분석된 결과로 건설기계의 실시간 이상 유무를 판단할 수 있으며, 결과를 기반으로 Deep Learning 기술을 적용하고 학습된 모델을 통해 건설기계의 이상 유무를 예측하여 원활한 부품관리를 할 수 있다.

  • PDF

Processing large-scale data with Apache Spark (Apache Spark를 활용한 대용량 데이터의 처리)

  • Ko, Seyoon;Won, Joong-Ho
    • The Korean Journal of Applied Statistics
    • /
    • v.29 no.6
    • /
    • pp.1077-1094
    • /
    • 2016
  • Apache Spark is a fast and general-purpose cluster computing package. It provides a new abstraction named resilient distributed dataset, which is capable of support for fault tolerance while keeping data in memory. This type of abstraction results in a significant speedup compared to legacy large-scale data framework, MapReduce. In particular, Spark framework is suitable for iterative machine learning applications such as logistic regression and K-means clustering, and interactive data querying. Spark also supports high level libraries for various applications such as machine learning, streaming data processing, database querying and graph data mining thanks to its versatility. In this work, we introduce the concept and programming model of Spark as well as show some implementations of simple statistical computing applications. We also review the machine learning package MLlib, and the R language interface SparkR.