• 제목/요약/키워드: 머신 데이터

검색결과 1,185건 처리시간 0.033초

헬름홀츠 머신 기반의 탐색점 분포 학습에 의한 최적화 (Optimization by Helmhotz Machine-Based Learning of the Distribution of Search Points Using Helmholtz Machine)

  • 신수용;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.250-252
    • /
    • 2000
  • 많은 최적화 문제에서 해답들의 구조는 서로 의존성을 가지고 있다. 이러한 경우 기존의 진화연산이 사용하는 빌딩 블록 개념으로는 문제를 해결하는데 많은 어려움을 겪게 된다. 이를 극복하기 위해서 헬름홀츠 머신(Helmholtz machine)을 이용해서 데이터의 분포를 예측한 후 최적화를 수행하는 방법을 제안한다. 기존의 진화 연산을 바탕으로 하지만 교차연산이나 돌연변이 연산을 사용하는 대신에, 헬름홀츠 머신을 이용해서 데이터의 분포를 파악하고, 이를 이용해서 새로운 데이터를 생성하는 과정을 통해 최적화 과정을 수행한다. 진화연산으로 해결하는데 곤란을 겪고 있는 여러 함수들을 해결하는 이를 검증하였다.

  • PDF

화음 탐색법을 활용한 가상머신 재배치 연구 (Harmony Search for Virtual Machine Replacement)

  • 최재호;김장엽;서영진;김영현
    • 한국산학기술학회논문지
    • /
    • 제20권2호
    • /
    • pp.26-35
    • /
    • 2019
  • 데이터센터는 서버, 스토리지, 네트워킹 기기 등을 운영하는 과정에서 냉각시설, 공조시설, 비상발전시설 등 많은 전력이 소비된다. 미국의 경우에는 2004년 데이터센터에서 소비하는 전력은 전체 전력 소비량의 1.8% 정도를 차지하기도 하였다. 데이터센터 산업은 큰 규모로 점진적으로 발전해왔으며, 향후에는 규모가 큰 하이퍼스케일 데이터센터의 수가 늘어날 것으로 전망되고 있다. 하지만 데이터센터의 서버 점유율을 조사해 본 결과, 평균 점유율이 15~20% 정도 밖에 되지 않는 등 서버가 효율적으로 사용되지 않는 문제가 존재하였다. 이러한 현상 및 문제점을 개선하고자 가상머신 마이그레이션 기능을 활용하여 가상머신 재배치 연구를 제안하고자 한다. 본 연구에서는 효과적인 가상머신 재배치를 위해 메타 휴리스틱 기법 중 하나인 화음 탐색법을 활용하였다. 유휴 서버 최대화를 목표로 하는 가상머신 재배치 문제를 설계하였으며 실험을 통해 풀이하였다. 본 연구는 가상머신 재배치를 통해 데이터센터 서버의 절전을 유도하여, 데이터센터의 운영비용을 절감하는 것을 목적으로 한다.

GAN 데이터 기반의 머신러닝 모델을 통한 미계측 하천에서의 수생태계 건강성 등급 예측 방안 연구 (A study on the prediction of aquatic ecosystem health grade in ungauged rivers through the machine learning model based on GAN data)

  • 이서로;이지민;이관재;김종건;임경재
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.448-448
    • /
    • 2021
  • 최근 급격한 기후변화와 도시화 및 산업화로 인한 지류하천에서의 수량과 수질의 변동은 생물 다양성 감소와 수생태계 건강성 저하에 큰 영향을 미치고 있다. 효율적인 수생태 관리를 위해서는 지속적인 유량, 수질, 그리고 수생태 모니터링을 통한 데이터 축적과 더불어 면밀한 상관 분석을 통해 수생태계 건강성의 악화 원인을 규명해야 할 필요가 있다. 그러나 수많은 지류하천을 대상으로 한 지속적인 모니터링은 현실적으로 어려움이 있으며, 수생태계의 특성 상 단일 영향 인자만으로 수생태계의 건강성 변화와의 관계를 정확히 파악하는데 한계가 있다. 따라서 지류하천에서의 유량 및 수질의 시공간적인 변동성과 다양한 영향 인자를 고려하여 수생태계의 건강성을 효율적으로 예측할 수 있는 기술이 필요하다. 이에 본 연구에서는 경험적 데이터 기반의 머신러닝 모델 구축을 통해 미계측 하천에서의 수생태계 건강성 지수(BMI, TDI, FAI)의 등급(A to E)을 예측하고자 하였다. 머신러닝 모델은 학습 데이터셋의 양과 질에 따라 성능이 크게 달라질 수 있으며, 학습 데이터셋의 분포가 불균형적일 경우 과적합 또는 과소적합 문제가 발생할 수 있다. 이를 보완하고자 본 연구에서는 실제 측정망 데이터셋을 바탕으로 생성적 적대 신경망 GAN(Generative Adversarial Network) 알고리즘을 통해 머신러닝 모델 학습에 필요한 추가 데이터셋(유량, 수질, 기상, 수생태 등급)을 확보하였다. 머신러닝 모델의 성능은 5차 교차검증 과정을 통해 평가하였으며, GAN 데이터셋의 정확도는 실제 측정망 데이터셋의 정규분포와의 비교 분석을 통해 평가하였다. 최종적으로 SWAT(Soil and Water Assessment Tool) 모형을 통해 예측 된 미계측 하천에서의 데이터셋을 머신러닝 모델의 검증 자료로 사용하여 수생태계 건강성 등급 예측 정확도를 평가하였다. 본 연구에서의 GAN에 의해 강화된 머신러닝 모델은 수질 및 수생태 관리가 필요한 우심 지류하천 선정과 구조적/비구조적 최적관리기법에 따른 수생태계 건강성 개선 효과를 평가하는데 활용될 수 있을 것이다. 또한 이를 통해 예측된 미계측 하천에서의 수생태계 건강성 등급 자료는 수량-수질-수생태를 유기적으로 연계한 통합 물관리 정책을 수립하는데 기초자료로 활용될 수 있을 것이라 사료된다.

  • PDF

비전공자 대상 머신러닝 모델 학습 및 활용교육 커리큘럼 (A Machine Learning Model Learning and Utilization Education Curriculum for Non-majors)

  • 허경
    • 실천공학교육논문지
    • /
    • 제15권1호
    • /
    • pp.31-38
    • /
    • 2023
  • 본 논문에서는 비전공자들을 위한 기초 머신러닝 모델 학습 및 활용교육 커리큘럼을 제안하고, Orange 머신러닝 모델 학습 및 분석 도구를 활용한 교육 방법을 제안하였다. Orange는 오픈 소스기반 머신러닝 및 데이터 시각화 도구로서, 복잡한 프로그래밍 없이 시각적인 위젯을 사용하여, 데이터를 학습시켜 머신러닝 모델을 만들 수 있다. Orange는 비전공자 학부생부터 전문가 그룹까지 다양하게 사용되는 플랫폼이다. 본 논문에서는 한 학기 분량의 기초 머신러닝 모델 학습 및 활용교육 커리큘럼과 주별 실습 내용을 제시하였다. 그리고, 머신러닝 모델 학습 및 활용에 대한 교육 내용 실체를 실증하기 위해, Orange 도구를 활용하여, 분류 데이터(Categorical Data) 표본과 수치 데이터(Numerical Data) 표본으로부터 머신러닝 모델을 학습시키고, 모델을 활용하여 모집단의 결과를 예측하는 활용 사례들을 제안하였다. 마지막으로 본 커리큘럼에 대한 교육 만족도를 비전공자 대상으로 조사 및 분석하였다.

가상화 클라우드 데이터센터에서 가상 머신 간의 균등한 성능 보장을 위한 제어 알고리즘 (Control Algorithm for Virtual Machine-Level Fairness in Virtualized Cloud Data center)

  • 김환태;김황남
    • 한국통신학회논문지
    • /
    • 제38C권6호
    • /
    • pp.512-520
    • /
    • 2013
  • 본 논문은 가상 머신 기반의 클라우드 데이터센터에서 가상 머신의 CPU 스케줄링으로 인해 발생할 수 있는 네트워크 불평등 현상을 해결하는 가상머신 수준의 제어 알고리즘을 제안한다. 이를 위해 이기종 호스트들로 구성된 클라우드 데이터 센터 테스트베드를 구축하고, 가상 머신간의 네트워크 불평등 현상이 발생함을 실험적으로 보인다. 그리고 이를 해결할 수 있는 PID 제어 기법 기반의 가상 머신 네트워크 성능 보장 제어 알고리즘을 설계하고, 이를 실제 시스템에 구현하기 위한 방안을 설명한다. 실제 테스트베드에 제안하는 알고리즘을 구현하여 알고리즘 동작 결과를 분석한다.

머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구 (A Study on Automation of Big Data Quality Diagnosis Using Machine Learning)

  • 이진형
    • 한국빅데이터학회지
    • /
    • 제2권2호
    • /
    • pp.75-86
    • /
    • 2017
  • 본 연구에서는 빅데이터의 품질을 진단하는 방법을 자동화하는 방법을 제안하고 있다. 빅데이터의 품질진단을 자동화해야 하는 이유는 4차 산업혁명이 이슈화 되면서 과거보다 더 많은 볼륨의 데이터를 발생시키고 이 데이터들을 활용 하려는 요구가 증가하기 때문이다. 데이터는 급증하지만 데이터의 품질을 진단하기 위해 많은 시간이 소비된다면 데이터를 활용하기 위해 많은 시간이 걸리거나 데이터의 품질이 낮아질 수 있다. 그러면 이러한 낮은 품질의 데이터로부터 의사결정이나 예측을 한다면 그 결과 또한 잘못된 방향을 제시할 것이다. 이러한 문제를 해결하기 위해 많은 데이터를 신속하게 진단하고 개선할 수 있는 머신러닝 이용한 빅데이터 품질 향상을 위한 진단을 자동화 할 수 있는 모델을 개발하였다. 머신러닝을 이용하여 도메인 분류 작업을 자동화하여 도메인 분류 작업 시 발생할 수 있는 오류를 예방하고 작업 시간을 단축시켰다. 연구 결과를 토대로 데이터 변환의 중요성, 학습되지 않은 데이터에 대한 학습 시킬 수 있는 방안 모색, 도메인별 분류 모델을 개발에 대한 연구를 지속적으로 진행한다면 빅데이터를 활용하기 위한 데이터 품질 향상에 기여할 수 있을 것이다.

  • PDF

Codeless 데이터 사이언스 학습 소프트웨어 (Codeless Data Science Learning Software)

  • 최효현;송다혜
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.507-508
    • /
    • 2021
  • 4차산업 혁명시대가 도래하고, 클라우드 컴퓨팅의 발전과 동시에 데이터 처리 효율과 속도가 높아지면서, 지속적으로 다양한 분야의 데이터가 누적되고, 이를 활용한 기술들이 발전하고 있는 가운데 데이터 사이언스의 역량을 필요로 하는 직군 또한 넓어지고 있다. 본 논문에서는 데이터 사이언스에 막 뛰어든 입문자들이 고난이도의 코딩 없이 데이터 분석 및 전처리, 머신러닝에 익숙해질 수 있도록 디자인적 접근성을 고려한 코드리스 프로그램을 개발하였다.

  • PDF

캐글 데이터셋을 이용한 머신러닝 악성코드 분류시스템에서 분류정확도 향상방법 (Improvement Method of Classification Rate in ML Antivirus systems using Kaggle Datasets)

  • 김경신
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.49-52
    • /
    • 2019
  • 머신러닝을 이용한 악성코드 분류 시스템의 대부분이 캐글 데이터셋 10,868건을 사용하여 분류의 정확도를 측정한다. 이 데이터셋에 포함된 바이러스 바이트코드에는 미확인(undefined)필드라는 부분이 과도하게 존재한다. 캐글 데이터셋 특정 Label의 미확인필드 포함도는 75%가 넘는 경우도 존재한다. 이 경우 미확인 필드를 어떻게 처리하느냐가 시스템의 성능에 가장 큰 영향을 끼친다. 본 연구에서는 이러한 캐글 데이터셋의 미확인필드 처리방법을 제시하고 그에 따른 분류 정확도를 연구하였다. 다양한 처리방법에 대한 정확도를 측정하여 제안한 방식의 타당성을 증명하였다.

  • PDF

머신러닝 기법을 활용한 교량데이터 설계 시 슬래브두께 예측에 관한 연구 (A Study on the Use of Machine Learning Models in Bridge on Slab Thickness Prediction)

  • 홍철승;김효관;이세희
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권5호
    • /
    • pp.325-330
    • /
    • 2023
  • 본 논문은 머신러닝을 활용하여 교량 데이터 설계 시 기존 엔지니어의 구조해석결과 또는 경험 및 주관에 따라 슬래브 두께를 예측하여 왔던 프로세스를 머신러닝 기법을 적용하여 디지털 기반 의사결정이 가능하도록 제시한다. 본 연구에서는 슬래브 두께 선정을 구조해석 외에 머신러닝 기법을 활용하여 엔지니어에게 가이드 값을 제공하게 함으로써 신뢰성 있는 설계 환경을 구축하고자 한다. 교량 데이터 중 가장 많은 비중을 차지하고 있는 거더교를 기준으로 상부구조물 중 슬래브 두께를 예측하기 위한 예측모델 프로세스를 정의 하였다. 각 프로세스 별 예측 값을 산출하기 위하여 다양한 머신러닝 모델 (Linear Regress, Decision Tree, Random Forest, Muliti-layer Perceptron)을 프로세스별 경합하여 최적의 모델을 도출하였다. 본 연구를 통해 기존 구조해석을 통해서만 슬래브 두께 예측을 하였던 영역에 머신러닝 기법의 적용 가능성을 확인하였으며 정확도 또한 95.4%를 도출하였다, 향후 프로세스 확장 및 데이터를 지속 확보하여 예측모델 정확도를 향상시킨다면 공사 환경에 머신러닝 모델이 지속 활용될 수 있을 것으로 기대된다.

부채널 파형 데이터를 사용한 머신러닝 암호 분류 (Machine learning cipher classification using side-channel trace data)

  • 권혁동;김현지;서화정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.468-471
    • /
    • 2022
  • 부채널 분석은 하드웨어에서 발생하는 빛, 열, 전자기파와 같은 각종 부채널 정보를 이용하는 공격이다. 부채널 분석은 강력한 보안 위협에 속하지만, 부채널 정보 분석에 오랜 시간과 노력이 소요된다. 때문에 부채널 분석에 머신러닝을 접목하고자 하는 연구가 진행되었다. 머신러닝은 대량의 데이터를 학습하고 패턴을 파악하는데 용이하기 때문에 대량의 부채널 정보를 분석하는데 유리하다. 본 논문에서는 부채널 파형 데이터를 사용하여 암호 분류를 하는 머신러닝 모델을 소개한다.