• 제목/요약/키워드: 분산 기계 학습

검색결과 89건 처리시간 0.025초

빅 데이터 분석을 위한 지지벡터기계 (Support vector machines for big data analysis)

  • 최호식;박혜원;박창이
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.989-998
    • /
    • 2013
  • 최근 산/학계에서 주목받고 있는 빅 데이터는 정의상 한꺼번에 자료를 메모리에 올려 분석할 수 없기 때문에 기존의 데이터마이닝 시대에 개발된 일괄처리 (batch processing) 방식의 알고리즘을 적용할 수 없게 된다. 따라서 가장 시급히 해결해야 하는 문제는 기존의 여러 가지 기계학습방법을 빅 데이터에 적용할 수 있도록 분산처리 (distributed processing)를 수행하는 적절한 알고리즘을 개발하는 것이라 볼 수 있다. 본 논문에서는 분류문제에서 각광받는 지지벡터기계 (support vector machines)의 여러 알고리즘을 살펴보고자 한다. 특히 빅 데이터 분류문제에 유용할 것으로 예상되는 온라인 타입 알고리즘과 병렬처리 알고리즘에 대하여 소개하고, 이러한 알고리즘들의 성능 및 장단점을 선형분류에 대한 모의실험을 통해서 살펴본다.

앙상블 학습과 온도 변수를 이용한 A 호텔의 전력소모량 예측 (Prediction of electricity consumption in A hotel using ensemble learning with temperature)

  • 김재휘;김재희
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.319-330
    • /
    • 2019
  • 과거의 전력소모량을 분석하여 미래의 전력소모량을 예측하는 것은 에너지 계획과 정책 결정에 있어 많은 이점을 가져다준다. 기계학습은 최근 전력소모량을 예측하는 분석 방법으로 많이 사용하고 있다. 그중 앙상블 학습은 모형의 과적합 현상을 방지하고 분산을 줄여 예측의 정확성을 높이는 방법으로 알려져 있다. 하지만 일별 데이터에 앙상블 학습을 적용했을 때 분석 방법의 특성으로 인해 피크를 잘 나타내지 못하고 중심값으로 예측하는 단점을 보였다. 본 연구에서는 앙상블 학습 전에 온도 변수와의 상관성을 고려하여 선형모형으로 적합함으로써 앙상블 학습의 단점을 보완한다. 그리고 9개의 모형을 비교한 결과 온도 변수를 선형모형으로 적합하고 랜덤포레스트를 사용한 모형이 결과가 가장 좋음을 보여준다.

분산 유전 알고리즘에서 자동 마이그레이션 조절방법 (Distributed Genetic Algorithm using Automatic Migration Control)

  • 이현정;나용찬;양지훈
    • 정보처리학회논문지B
    • /
    • 제17B권2호
    • /
    • pp.157-162
    • /
    • 2010
  • 본 논문에서는 분산된 거대한 네트워크상의 데이터에서 유용한 정보를 추출하는 새로운 마이그레이션 조절방법을 이용한 유전 알고리즘을 제안한다. 제안된 알고리즘의 주된 아이디어는 부분 개체군 사이에서 개체들의 이동에 필요한 파라미터들을 적응적으로 결정하는 것이다. 또 이동된 개체들이 새로운 부분 개체군에서 도태되지 않고 적응 할 수 있기 위한 방법을 제시한다. UCI 기계학습 관련 데이터 셋에서 중앙 집중적 단일 유전 알고리즘과 제안된 알고리즘을 비교하기 위해 여섯 개의 데이터를 사용했다. 결론적으로 분산 유전 알고리즘을 적용한 특징 부분 집합이 단일 유전 알고리즘을 적용한 것 보다 좋은 성능을 보였다.

동시발생 행렬과 하둡 분산처리를 이용한 추천시스템에 관한 연구 (A Study On Recommend System Using Co-occurrence Matrix and Hadoop Distribution Processing)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.468-475
    • /
    • 2014
  • 추천시스템은 선호 데이터가 대형화, 컴퓨터 처리능력과 추천 알고리즘 등에 의해 실시간 추천이 어려워지고 있다. 이에 따라 추천시스템은 대형 선호데이터를 분산처리 하는 방법에 대한 연구가 활발히 진행되고 있다. 본 논문은 하둡 분산처리 플랫폼과 머하웃 기계학습 라이브러리를 이용하여, 선호데이터를 분산 처리하는 방법을 연구하였다. 추천 알고리즘은 아이템 협업필터링과 유사한 동시발생 행렬을 이용하였다. 동시발생 행렬은 하둡 클러스터의 여러 노드에서 분산처리를 할 수 있으며, 기본적으로 많은 계산량이 필요하지만, 분산처리과정에서 계산량을 줄일 수 있다. 또한, 본 논문은 동시발생 행렬처리의 분산 처리과정을 4 단계에서 3 단계로 단순화하였다. 결과로서, 맵리듀스 잡을 감소할 수 있으며, 동일한 추천 파일을 생성할 수 있었다. 또한, 하둡 의사 분산모드를 이용하여 데이터를 처리하였을 때 빠른 처리속도를 보였으며, 맵 출력 데이터가 감소되었다.

SDN 환경에서 효율적 Flow 전송을 위한 전송 지연 평가 기반 부하 분산 기법 연구 (Transmission Delay Estimation-based Forwarding Strategy for Load Distribution in Software-Defined Network)

  • 김도현;홍충선
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권5호
    • /
    • pp.310-315
    • /
    • 2017
  • Software-Defined Network의 등장은 하드웨어적인 네트워크 기능들을 소프트웨어적인 형태의 모듈로 Controller에 보다 유연하게 적용시키도록 함으로써 전통적인 네트워크의 구조를 변화시키고 있다. 이러한 환경 속에서 최근 네트워크 트래픽에 대한 Quality of Service 및 자원관리와 같은 다양한 관점에서의 네트워크 관리정책에 대한 연구개발이 진행되고 있고, 이러한 관리정책을 뒷받침 할 수 있는 네트워크 모니터링에 대한 기법들 또한 제시되어 왔다. 이에 본 논문에서는 기계 학습 기법인 Naive Bayesian Classification을 통하여 Flow를 분류한 후, 전송 지연 측정 모듈을 통하여 효율적인 전송경로를 선정하는 기법을 제안한다. 이는 다양한 대역폭을 갖는 여러 경로들로 이루어진 네트워크상에서 효율적인 경로 분배 역할을 할 수 있고, 부하를 분산시킴으로써 보다 원활한 네트워크 환경 및 서비스 품질을 제공할 수 있다.

한국어에 적합한 단어 임베딩 모델 및 파라미터 튜닝에 관한 연구 (On Word Embedding Models and Parameters Optimized for Korean)

  • 최상혁;설진석;이상구
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-256
    • /
    • 2016
  • 본 논문에서는 한국어에 최적화된 단어 임베딩을 학습하기 위한 방법을 소개한다. 단어 임베딩이란 각 단어가 분산된 의미를 지니도록 고정된 차원의 벡터공간에 대응 시키는 방법으로, 기계번역, 개체명 인식 등 많은 자연어처리 분야에서 활용되고 있다. 본 논문에서는 한국어에 대해 최적의 성능을 낼 수 있는 학습용 말뭉치와 임베딩 모델 및 적합한 하이퍼 파라미터를 실험적으로 찾고 그 결과를 분석한다.

  • PDF

SDN 환경에서 자기조직화지도 신경망을 이용한 분산 컨트롤러 (Distributed controllers using a Self-Organizing Map Neural Network in SDN environment)

  • 유승언;김민우;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.47-48
    • /
    • 2019
  • 본 논문에서는 신경망의 일종인 자기조직화지도(Self Organizing Map)을 이용하여 컨트롤러의 순서를 정하는 모델을 제안하였다. 자기조직화지도는 자율 학습에 의한 클러스터링을 수행하는 알고리즘으로써 컨트롤러에 가중치를 부여하고 컨트롤러 간 거리를 계산하여 효율적인 컨트롤러 선택을 목표로 한다.

  • PDF

기계학습을 활용한 이더리움 미확인 스마트 컨트랙트 자동 분류 방안 (Automated Classification of Unknown Smart Contracts of Ethereum Using Machine Learning)

  • 이동건;권태경
    • 정보보호학회논문지
    • /
    • 제28권6호
    • /
    • pp.1319-1328
    • /
    • 2018
  • 암호화폐를 위해 개발된 블록체인 시스템은 탈중앙화, 분산원장 및 부분적 실명은닉성의 특징을 가지고 있어 최근 다양한 분야에서 적용이 시도되고 있다. 그 중 부분적 실명은닉성은 사용자 프라이버시를 강력히 보장하지만 범죄악용 등 부작용 또한 나타나고 있어 이를 공격하기 위한 방안들이 지속 연구되어 왔다. 본 연구에서는 2세대 암호화폐의 대표인 이더리움 블록체인 시스템에서의 사용자 행위 식별을 위해 기계학습을 활용한 미확인 스마트 컨트랙트 기능 및 디자인 패턴의 자동 분류 방안에 대하여 제안한다.

분산정보를 이용한 특징 선택과 PCA-ELM 기반의 유도전동기 고장진단 기법 개발 (Development of Induction Motor Diagnosis Method by Variance Based Feature Selection and PCA-ELM)

  • 이대종;전명근
    • 조명전기설비학회논문지
    • /
    • 제24권8호
    • /
    • pp.55-61
    • /
    • 2010
  • 본 논문은 클래스 내와 클래스 간의 분산정보를 이용한 주파수 성분의 선택적 추출기법과 PCA-ELM 기반의 유도전동기 고장진단 시스템을 제안한다. 제안된 방법은 취득된 전류신호를 DFT에 의해 주파수 영역으로 변환한 후 분산정보를 이용하여 고장상태별로 차별성이 큰 순서대로 주파수 성분을 추출한다. 다음 단계로 선택된 주파수 성분에 대해서 PCA를 이용하여 고장상태별 특징들을 추출한다. 마지막 단계는 학습속도가 매우 우수한 ELM분류기에 의해 유도전동기의 상태를 진단하게 된다. 다양한 부하에 대하여 몇몇의 전기적 고장과 기계적 고장 하에서 획득한 데이터를 이용하여 제안된 방법의 타당성을 검증한다.

K-means 군집화 및 Harmony Search 알고리즘을 이용한 분산 SDN의 부하 분산 기법 (A Load Balancing Scheme for Distributed SDN Based on Harmony Search with K-means Clustering)

  • 김세준;유승언;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.29-30
    • /
    • 2019
  • 본 논문에서는 다중 컨트롤러가 존재하는 분산 SDN 환경에서 과도한 제어 메시지로 인한 과부하된 컨트롤러의 부하를 줄이기 위하여 이주할 스위치를 K-means 군집화와 Harmony Search(HS)를 기반으로 선정 하는 기법을 제안하였다. 기존에 HS를 이용하여 이주할 스위치를 선택하는 기법이 제시되었으나, 시간 소모에 비하여 정확도가 부족한 단점이 있다. 또한 Harmony Memory(HM) 구축을 위해 메모리 소모 또한 크다. 이를 해결하기 위하여 본 논문에서는 유클리드 거리를 기반으로 하는 K-means 군집화를 이용하여 이주할 스위치를 골라내어 HM의 크기를 줄이고 이주 효율을 향상 시킨다.

  • PDF