• 제목/요약/키워드: Learning Machine

검색결과 5,616건 처리시간 0.033초

보편적 빅데이터와 빅데이터 교육의 방향성 연구 - 빅데이터 전문가의 인식 조사를 기반으로 (Study on the Direction of Universal Big Data and Big Data Education-Based on the Survey of Big Data Experts)

  • 박윤수;이수진
    • 정보교육학회논문지
    • /
    • 제24권2호
    • /
    • pp.201-214
    • /
    • 2020
  • 최근 데이터 관련 법안이 개정되면서 빅데이터의 활용 분야는 점차 확장되고 있으며, 빅데이터 교육에 대한 관심이 증가하고 있다. 그러나 빅데이터를 활용하기 위해서는 높은 수준의 지식과 스킬이 필요하고, 이를 모두 교육하기에는 오랜 시간과 많은 비용이 소요된다. 이에 본 연구를 통해 산업 현장에서 사용되는 광범위한 영역의 빅데이터를 보편적 빅데이터(Universal Big Data)로 정의하고, 대학교 수준에서 보편적 빅데이터를 교육하기 위해서 중점적으로 교육해야 할 지식 영역을 산출하고자 한다. 이를 위해 빅데이터 관련 산업에 종사하는 전문인력을 구분하기 위한 기준을 마련하고, 설문 조사를 통해 빅데이터에 대한 인식을 조사했다. 조사 결과에 의하면 전문가들은 컴퓨터과학에서 의미하는 빅데이터보다 광범위한 범위의 데이터를 빅데이터로 인식하고 있었으며, 빅데이터의 가공 과정에 반드시 빅데이터 처리 프레임워크 또는 고성능 컴퓨터가 필요한 것은 아니라고 인식하고 있었다. 이는 빅데이터를 교육하기 위해서는 컴퓨터과학(공학)적 지식과 스킬보다는 빅데이터의 분석 방법과 응용 방법을 중심으로 교육해야 한다는 것을 의미한다. 분석 결과를 바탕으로 본 논문에서는 보편적 빅데이터 교육을 위한 새로운 패러다임을 제안하고자 한다.

한국 인플루엔자 의사환자 단기 예측 모형 개발: 주간 ILI 감시 자료와 웹 검색 정보의 활용 (Short-term Predictive Models for Influenza-like Illness in Korea: Using Weekly ILI Surveillance Data and Web Search Queries)

  • 정재운
    • 디지털융복합연구
    • /
    • 제16권9호
    • /
    • pp.147-157
    • /
    • 2018
  • 구글의 인플루엔자 의사환자(ILI) 예측 서비스 시작 이래로 웹 검색 정보를 활용한 ILI 예측 연구들이 급속도로 확산되고 있는 가운데, 본 연구는 ILI 자료와 웹 검색 정보를 활용한 한국 ILI 단기 예측 모형을 개발해 성능을 평가해 보고자 한다. 한국에 특화된 ILI 예측 모형 개발을 위해 한국질병관리본부의 ILI 감시 자료와 구글 및 네이버의 한국어 검색정보를 ARIMA 모형과 함께 사용하였다. 모형1은 ILI 자료만 사용하였으며, 모형 2와 3은 모형1에 구글과 네이버의 검색자료를 각각 추가하였다. 모형4는 모형 2와 3의 공통 검색어를 모형1에 추가하였다. 모형 훈련기간 동안 모든 예측모형들이 95%($R^2$) 이상의 높은 적합도를 보였으며, 예측기간 1과 2에서 모형1이 가장 우수한 예측력(99.98%, 96.94%)을 보였다. 모형 3(a)와 4(b, c)는 전체 예측기간에서 90% 이상의 안정적인 예측력을 보였지만, 모형1의 성능에는 미치지 못하였다. 본 연구에서 정확하고 안정적인 예측력을 보인 모형들은 성능개선에 관한 보완적 연구와 더불어 국내 인플루엔자 유행 조기경보시스템에 활용 가능하다.

자료기반 학습 알고리즘을 이용한 지하수위 변동 예측 모델의 국가지하수관측망 자료 적용에 대한 비교 평가 연구 (Application of groundwater-level prediction models using data-based learning algorithms to National Groundwater Monitoring Network data)

  • 윤희성;김용철;하규철;김규범
    • 지질공학
    • /
    • 제23권2호
    • /
    • pp.137-147
    • /
    • 2013
  • 지하수자원의 효율적인 관리를 위해 강우에 대한 지하수위 변화를 예측하는 것은 중요한 문제이다. 본 연구에서는 자료기반 학습 알고리즘인 인공신경망과 지지벡터기계를 이용하여 시계열 예측 모델을 만들고 이를 국가지하수관측망 중 가산, 신광, 청성 관측소 지하수위 변화 예측에 적용하였다. 모델의 입력 성분 구성 방법에 따라 네 가지 모형을 설정하고 각 관측소 및 모델 별 예측 결과를 비교 평가하였다. 강우 입력 모형의 경우 지하수위 감쇠 및 기저 변화 예측을 위해 큰 규모의 입력 성분 구성이 필요하지만 강우 및 지하수위 입력 모형은 보다 작은 규모의 입력 성분으로 효과적으로 지하수위 변화를 예측하는 것으로 나타났다. 강우 및 지하수위 입력 모형의 활용성 증대를 위해 고안된 반복 예측 모형의 경우 관측값과 예측값 사이에 0.75~0.95의 상관계수를 보여 적용 가능성이 큰 것으로 판단된다. 전체적으로 강우-지하수위 교차상관계수가 낮은 신광 관측소의 예측 오차가 크게 나타났고 ANN 모델에 비해 SVM의 예측력이 다소 높은 것으로 조사되었다. 또한 반복 예측 모형의 모델 파라미터 선정 과정에서 보정 단계 오차에 대한 예측 단계 오차의 비의 분포를 조사한 결과 SVM의 경우가 더 작게 나타나 SVM이 본 연구 자료에 대해 보다 안정적이고 효율적인 모델임을 평가하였다.

특징집합 IG-MLP 평가 기반의 최적화된 특징선택 방법을 이용한 질환 예측 머신러닝 모델 (Optimized Feature Selection using Feature Subset IG-MLP Evaluation based Machine Learning Model for Disease Prediction)

  • 김경륜;김재권;이종식
    • 한국시뮬레이션학회논문지
    • /
    • 제29권1호
    • /
    • pp.11-21
    • /
    • 2020
  • 암을 제외한 한국인의 가장 높은 사망원인은 심뇌혈관질환으로 사망원인의 24%를 차지한다. 현재 국내 환자의 심혈관질환의 위험도 산출은 프레밍험 위험지수를 기반으로 하지만, 국외의 가이드라인에 의존하고 있어 정확도가 떨어지는 편이며, 뇌혈관질환의 예측에 대한 위험도는 산출할 수 없다. 심뇌혈관질환은 예방을 위한 조기증상들의 특징 분석이 어려워 질환예측이 힘들며, 한국인에 적합한 예측 방법이 필요하다. 본 연구의 목적은 심뇌혈관질환 데이터를 이용하여, 특징집합 IG-MLP 평가 기반의 특징선택 방법론을 시뮬레이션 하여 검증하는 것이다. 제안하는 방법은 제4~7기 국민건강영양조사 원시자료를 이용한다. 심뇌혈관질환의 예측에 중요한 특징들을 선별하기 위해, 속성들의 심뇌혈관질환에 대한 정보이득-다층신경망을 이용한 분석을 실시하며, 최종적으로 선별된 특징을 이용한 심뇌혈관질환 예측 모델을 제공한다. 제안하는 방법으로 한국인의 심뇌혈관질환에 관련된 중요한 특징들을 찾을 수 있으며, 최적화된 특징들로 구성된 예측 모델은 한국인에 대해 더욱 정확한 심뇌혈관 예측을 할 수 있다.

분산 파일시스템의 소거 코딩 구현 및 성능 비교 (Implementation and Performance Measuring of Erasure Coding of Distributed File System)

  • 김재열;김영철;김동오;김홍연;김영균;서대화
    • 한국통신학회논문지
    • /
    • 제41권11호
    • /
    • pp.1515-1527
    • /
    • 2016
  • 최근의 빅데이터, 머신러닝, 클라우드 컴퓨팅 분야의 성장에 따라 대용량의 비정형 데이터를 저장할 수 있는 스토리지의 중요성은 날로 커지고 있다. 이에 따라 MAHA-FS, GlusterFS, Ceph 등의 개방형 하드웨어 기반의 분산 파일시스템 기술이 많은 주목을 받고 있다. 이러한 저비용 분산 파일시스템들은 데이터의 내결함성을 보장하기 위하여 초기에 복제 방식을 사용하였으나, 스토리지의 용량이 커질수록 복제 방식이 가지는 스토리지 공간의 저효율성이 점차 부각되면서 이를 보완하려는 방향으로 연구가 진행되고 있다. 본 논문은 복제방식을 대체하여 스토리지 공간 효율성을 향상시킬 수 있는 소거코딩 기법을 MAHA-FS 분산 파일시스템에 적용하여 스토리지의 효율성을 높이고, 소거코딩 지원에 따라 발생하는 데이터 일관성 문제를 해결하는 효율적인 방식으로 VDelta 기법을 제안하고 적용하였다. 본 논문은 MAHA-FS와 GlusterFS의 소거코딩의 구조적 차이점을 기술하고 두 파일시스템의 성능을 비교하여 MAHA-FS의 소거코딩 성능이 GlusterFS에 비해 우수함을 확인하였다.

한국 청년실업률 예측 모형에서 네이버와 구글 검색 정보의 유용성 분석 (Comparative Usefulness of Naver and Google Search Information in Predictive Models for Youth Unemployment Rate in Korea)

  • 정재운
    • 디지털융복합연구
    • /
    • 제16권8호
    • /
    • pp.169-179
    • /
    • 2018
  • 최근 고급 예측모형 연구에 웹 검색 정보가 활용되고 있다. 세계 웹 검색시장에서 구글이 절대적 우위를 점하고 있지만, 국내 웹 검색시장에서는 네이버가 절대적 우위를 보이고 있다. 이러한 특성을 토대로 본 연구는 예측모형을 활용하여 구글과 네이버의 한국어 검색 정보에 대한 유용성을 비교해 보고자 한다. 이를 위해 ARIMA 모형을 활용하여 세 가지의 한국 청년실업률 예측 시계열 모형을 개발하였다. 모형1은 한국 청년실업률 데이터만 사용하였으며, 모형2와 3은 모형1에 네이버와 구글의 검색어 정보를 각각 추가하였다. 모형 훈련기간에서는 모형1보다 모형2와 3이 더 우수한 예측력을 보였다. 모형2와 3은 서로 다른 검색어 정보와 상관관계를 보였으며, 예측기간 1과 2에서 모형3이 가장 좋은 성능을 보였다. 예측기간 2에서는 모형 3만 유의미한 예측결과를 나타내었다. 이 비교 연구는 네이버와 구글 검색엔진을 이용한 한국어 웹 검색 정보의 유용성을 이해하는 데 도움을 준다.

MaxEnt와 GIS를 활용한 반달가슴곰 동면장소 분석: 비동면 기간 동안의 서식지 비교 연구 (Analysis of Hibernating Habitat of Asiatic Black Bear(Ursus thibetanus ussuricus ) based on the Presence-Only Model using MaxEnt and Geographic Information System: A Comparative Study of Habitat for Non-Hibernating Period)

  • 정대호;강병선;조재운;김석범;김정진
    • 한국지리정보학회지
    • /
    • 제19권3호
    • /
    • pp.102-113
    • /
    • 2016
  • 본 연구는 지리산국립공원에 서식하는 반달가슴곰의 겨울철 서식지 환경을 체계적으로 관리하기 위해 GIS 및 기계학습 모형으로 서식환경을 분석하여 지리산국립공원의 겨울철 동면기 서식지인 동면 장소 출현과 비동면기 동안의 서식지 환경과의 관계를 파악하였다. 그 결과 환경요인 중 동면 장소 선택에 가장 큰 영향을 준 요인은 경사로 41.4%, 그 다음으로 고도가 20.4%, 탐방로로부터 거리 10.9%, 영급 7.7% 순으로 나타났다. 한편, 반달가슴곰 서식지와 동면지역 서식지 평가결과를 비교해 본 결과, 평균 고도는 동면지역이 63m가 높았으며 최적 고도는 400m 이상 높게 나타났다. 평균 경사는 $7^{\circ}$가 높고 최적 경사는 $12{\sim}43^{\circ}$ 더 급한 지역을 선호하는 것으로 나타났다. 도로와의 거리는 동면지역이 평균 300m 이상 더 떨어져 있었으며, 최적 이격 거리의 범위는 1,300~2,400m 더 떨어져 있는 것으로 나타났다. 이는 겨울철 동면의 메커니즘을 위한 동면 지역선택 시 조금 더 외부의 침입으로부터 안전하고, 인간과의 접촉에서 멀어지려는 습성에 의한 것으로 판단된다. 본 연구는 반달가슴곰이 동면기간 동안 혹독한 추위와 많은 위협요인을 피할 수 있는 동면 장소를 선택하는 서식환경요소를 분석함으로써, 반달가슴곰의 동면 생태 기작과 서식지 관리를 위한 기초적 자료를 제공하고자 한다.

기계공학과에서 제시하는 Hands-on Experience 중심의 "엔지니어링 디자인" 교과목의 강의사례 (A Case Study of "Engineering Design" Education with Emphasize on Hands-on Experience)

  • 김홍찬;김지훈;김관주;김정수
    • 공학교육연구
    • /
    • 제10권2호
    • /
    • pp.44-61
    • /
    • 2007
  • 본 논문은 공학 교육에서 강조하고 있는 창의력, 협업 능력 및 의사소통능력의 함양을 주 목적으로 홍익대학교 기계 시스템디자인공학과에서 새로이 개발한 교과목에 관하여 소개하고자 한다. '기계 시스템 디자인공학과'는 엔지니어링 디자인을 강조하는 새로운 교과목을 갖춘, 기존 홍익대학교 기계공학과의 새로운 이름이다. 급변하는 교육환경과 산업계의 요구에 부응하기위해서 기계공학과는 아날로그 기반, 산업중심의 하드한 관점에서 디지털 기반, 인간 중심의 소프트한 가치 중심으로 그 교육 접근방식을 전환하였다. 이러한 관점에서 새로이 개설된 세 가지 학과목인 기계 시스템디자인 개론, 창의적 공학 설계, 제품디자인은 공통적으로 팀 프로젝트를 통해서 손으로 직접 만들고 대화하고 표현하는(이하 Hands-on experience)경험을 중요시 하고 있다. 또한 이들 과정에서는 브레인스토밍(Brain Storming)과 스케치를 통한 시제작(Prototyping) 과정을 강조하고 있으며, 전통적으로 다루기 힘들고 무거운 금속 소재 대신에 폴리스티렌 블록이나 카드보드와 같은 가볍고 유연성 있는 소재를 사용하여 가능한 다양하고 창의적인 원형(Prototype)을 만들고, 팀원들간의 활발한 의사소통을 체험 할 수 있도록 유도하였다. Hands-on experience 중심 프로그램들은 학생들로 하여금 협업능력을 강조한 학과목들을 통해 시각적이며 구체적인 체험을 하게 하여 전통적으로 분석적이고 수학적이며 추상적인 사고에 초점을 맞춘 공학과목들을 균형적으로 보완하는 역할을 할 것으로 보이며, 졸업 후 그들이 산업현장에서 접하게 될 복잡하고 구체적인 엔지니어링 과제들을 해결하는 엔지니어링 감각과 창의력을 개발하는데 중요한 역할을 할 수 있을 것으로 예상된다.

초분광 표적 탐지를 위한 L2,1-norm Regression 기반 밴드 선택 기법 (Band Selection Using L2,1-norm Regression for Hyperspectral Target Detection)

  • 김주창;양유경;김준형;김준모
    • 대한원격탐사학회지
    • /
    • 제33권5_1호
    • /
    • pp.455-467
    • /
    • 2017
  • 초분광 영상을 이용한 표적 탐지를 수행할 때에는 인접한 분광 밴드의 중복성의 문제 및 고차원 데이터로 인해 발생하는 방대한 계산량의 문제점을 해결하기 위한 특징 추출 과정이 필수적이다. 본 연구는 기계 학습 분야의 특징 선택 기법을 초분광 밴드 선택에 적용하기 위해 $L_{2,1}$-norm regression 모델을 이용한 새로운 밴드 선택 기법을 제안하였으며, 제안한 밴드 선택 기법의 성능 분석을 위해 표적이 존재하는 초분광영상을 직접 촬영하고 이를 바탕으로 표적 탐지를 수행한 결과를 분석하였다. 350 nm~2500 nm 파장 대역에서 밴드 수를 164개에서 약 30~40개로 감소시켰을 때 Adaptive Cosine Estimator(ACE) 탐지 성능이 유지되거나 향상되는 결과를 보였다. 실험 결과를 통해 제안한 밴드 선택 기법이 초분광 영상에서 탐지에 효율적인 밴드를 추출해 내며, 이를 통해 성능의 감소 없이 데이터의 차원 감소를 수행할 수 있어 향후 실시간 표적 탐지 시스템의 처리 속도 향상에 도움을 줄 수 있을 것으로 보인다.

CRM의 기능 분류를 위한 통계적 학습에 관한 연구 (A Study of Statistical Learning as a CRM s Classifier Functions)

  • 장근;이정배;이병수
    • 정보처리학회논문지B
    • /
    • 제11B권1호
    • /
    • pp.71-76
    • /
    • 2004
  • 현재 ERP와 CRM은 대부분 전통적인 기능적 수행에만 초점이 맞추어져 있다. 그러나 최근의 경영환경은 인터넷(Internet)과 이를 기반으로 하는 전자상거래의 비약적 발전에 기인하여 시장의 변화를 가져왔으며, 이는 대부분 e-비즈니스화 되어 가고 있으며, 이를 추진하면서 제휴기관과의 관계증진, 고객관계의 혁신적 개선은 물론 조직내부의 업무프로세스의 획기적 개선을 통한 경쟁력 강화를 적극적으로 전개하고 있다. CRM(Customer Relationship Management)은 기업이 획득한 고객을 지속적으로 유지하고, 기업에 대한 고객의 가치를 증진시키기 위해 기업과 고객간의 상호 이익적 관계를 형성 유지 강화하려는 기업의 일련의 마케팅과정으로 다양하고도 수많은 고객들의 정보를 기반으로 수행되기 때문에 고객 정보를 파악할 수 있는 시스템 기반을 필요로 하며, 생산과 상품의 전달경로, 마케팅, 그리고 의사결정 등의 경영 카테고리와 연관되어 있다. 한편 ERP는 SCM과 CRM 및 SEM(Strategic Enterprise Management)등으로 기능을 확대해감에 따라 21세기의 ERP는 e-비즈니스의 전략적 도구로 발전해 갈 것이다. 본 논문에서는 이를 위한 중재 도구를 제시함으로써 고객에게 더욱 더 효율적이고 고 부가가치 있는 의미 있는 데이터들의 통계적 기계 학습법을 통해 CRM의 기능들을 효율적으로 분류할 수 있도록 한다. 또한 시스템 특징으로는 기존에 수작업으로 이루어지던 파일의 분류 작업을 기계 학습법을 통한 에이전트가 자동으로 수행함으로써 사용자가 좀 더 효율적으로 작업을 수행 할 수 있도록 한 것이다.