• 제목/요약/키워드: 자동화 머신러닝

검색결과 68건 처리시간 0.024초

RandomForest와 XGBoost를 활용한 한국어 텍스트 분류: 서울특별시 응답소 민원 데이터를 중심으로 (Korean Text Classification Using Randomforest and XGBoost Focusing on Seoul Metropolitan Civil Complaint Data)

  • 하지은;신현철;이준기
    • 한국빅데이터학회지
    • /
    • 제2권2호
    • /
    • pp.95-104
    • /
    • 2017
  • 2014년 서울시는 시민의 목소리에 신속한 응대를 목표로 '서울특별시 응답소' 서비스를 시작하였다. 접수된 민원은 내용을 바탕으로 카테고리 확인 및 담당부서로 분류 되는데, 이 부분을 자동화시킬 수 있다면 시간 및 인력 비용이 감소될 것이다. 본 연구는 2010년 6월 1일부터 2017년 5월 31일까지 7년치 민원 사례 17,700건의 데이터를 수집하여, 최근 화두가 되고 있는 XGBoost 모델을 기존 RandomForest 모델과 비교하여 한국어 텍스트 분류의 적합성을 확인하였다. 그 결과 RandomForest에 대비 XGBoost의 정확도가 전반적으로 높게 나타났다. 동일한 표본을 활용하여 업 샘플링과 다운 샘플링 시행 후에는 RandomForest의 정확도가 불안정하게 나타난 반면, XGBoost는 전반적으로 안정적인 정확도를 보였다.

  • PDF

네트워크 침입탐지를 위한 세션관리 기반의 LSTM 모델 (LSTM Model based on Session Management for Network Intrusion Detection)

  • 이민욱
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권3호
    • /
    • pp.1-7
    • /
    • 2020
  • 증가하는 사이버공격에 대응하기 위하여 머신러닝을 적용한 자동화된 침입탐지기술이 연구되고 있다. 최근 연구결과에 따르면, 순환형 학습모델을 적용한 침입탐지기술이 높은 탐지성능을 보여주는 것으로 확인되었다. 하지만 단순한 순환형 모델을 적용하는 것은 통신이 중첩된 환경일수록 연관된 통신의 특성을 반영하기 어려워 탐지성능이 저하될 수 있다. 본 논문에서는 이 같은 문제점을 해결하고자 세션관리모듈을 설계하여 LSTM(Long Short-Term Memory) 순환형 모델에 적용하였다. 실험을 위하여 CSE-CIC-IDS 2018 데이터 셋을 사용하였으며, 정상통신비율을 증가시켜 악성통신의 연관성을 낮추었다. 실험결과 통신연관성을 파악하기 힘든 환경에서도 제안하는 모델은 높은 탐지성능을 유지할 수 있음을 확인하였다.

트랜잭션 기반 머신러닝에서 특성 추출 자동화를 위한 딥러닝 응용 (A Deep Learning Application for Automated Feature Extraction in Transaction-based Machine Learning)

  • 우덕채;문현실;권순범;조윤호
    • 한국IT서비스학회지
    • /
    • 제18권2호
    • /
    • pp.143-159
    • /
    • 2019
  • Machine learning (ML) is a method of fitting given data to a mathematical model to derive insights or to predict. In the age of big data, where the amount of available data increases exponentially due to the development of information technology and smart devices, ML shows high prediction performance due to pattern detection without bias. The feature engineering that generates the features that can explain the problem to be solved in the ML process has a great influence on the performance and its importance is continuously emphasized. Despite this importance, however, it is still considered a difficult task as it requires a thorough understanding of the domain characteristics as well as an understanding of source data and the iterative procedure. Therefore, we propose methods to apply deep learning for solving the complexity and difficulty of feature extraction and improving the performance of ML model. Unlike other techniques, the most common reason for the superior performance of deep learning techniques in complex unstructured data processing is that it is possible to extract features from the source data itself. In order to apply these advantages to the business problems, we propose deep learning based methods that can automatically extract features from transaction data or directly predict and classify target variables. In particular, we applied techniques that show high performance in existing text processing based on the structural similarity between transaction data and text data. And we also verified the suitability of each method according to the characteristics of transaction data. Through our study, it is possible not only to search for the possibility of automated feature extraction but also to obtain a benchmark model that shows a certain level of performance before performing the feature extraction task by a human. In addition, it is expected that it will be able to provide guidelines for choosing a suitable deep learning model based on the business problem and the data characteristics.

인공지능을 활용한 정책의사결정에 관한 탐색적 연구: 문제구조화 유형으로 살펴 본 성공과 실패 사례 분석 (An Exploratory Study on Policy Decision Making with Artificial Intelligence: Applying Problem Structuring Typology on Success and Failure Cases)

  • 은종환;황성수
    • 정보화정책
    • /
    • 제27권4호
    • /
    • pp.47-66
    • /
    • 2020
  • 머신러닝과 딥러닝 등 인공지능 기술의 급속한 발전은 행정-정책 분야에도 영향을 확대하고 있다. 이 논문은 데이터분석과 알고리즘의 발전으로 자동화된 구성과 운용을 설계하는 인공지능 시대의 정책의사결정에 관한 탐색적 연구이다. 이 연구의 의의는 정책의사결정에서의 주요 연구 중 하나인 정책 문제의 문제구조화를 기반으로 하여, 문제정의가 잘 구조화된 정도에 따른 유형으로 이론적 틀을 구성하여 성공과 실패 사례를 구분하고 분석해서 시사점을 도출하였다. 즉 문제구조화가 어려운 유형일수록 인공지능을 활용한 의사결정의 실패 혹은 부작용의 우려가 크다는 것이다. 또한 알고리즘의 중립성여부에 대한 우려도 제시하였다. 정책적 제언으로는 우리나라 인공지능 추진체계구축 시 기술적 측면과 사회적 측면의 전문가들이 전문적으로 역할을 하는 소위원회를 병렬적으로 두고 이 소위원회들이 종합적, 융합적으로도 작동할 수 있는 운영의 묘를 발휘하는 거버넌스 추진체계 구축이 필요함을 제시하고 있다.

스마트 팩토리에서 머신 러닝 기반 설비 장애진단 예측 시스템 (A Predictive System for Equipment Fault Diagnosis based on Machine Learning in Smart Factory)

  • 조재형;이재오
    • KNOM Review
    • /
    • 제24권1호
    • /
    • pp.13-19
    • /
    • 2021
  • 최근 산업 분야에서는 공장 자동화 뿐만 아니라 장애 진단/예측을 통해 고장/사고를 사전에 방지하여 생산량을 극대화하기 위한 연구가 진행되고 있으며, 이를 구성하기 위해 많은 양의 데이터 축적을 위한 클라우드 기술, 데이터 처리를 위한 빅 데이터 기술, 그리고 데이터 분석을 쉽게 진행하기 위한 AI(Artificial Intelligence)기술이 도입되고 있다. 또한 최근에는 장애 진단/예측의 발전으로 인해 설비 유지보수(PM: Productive Maintenance) 방식도 정기적으로 설비를 유지보수 하는 방식인 TBM(Time Based Maintenance)에서 설비 상태에 따라 유지보수 하는 방식인 CBM(Condition Based Maintenance)을 조합하는 방식으로 발전하고 있다. CBM 기반 유지보수를 수행하기 위하여 설비의 상태(condition)의 정의와 분석이 필요하다. 따라서 본 논문에서는 머신 러닝(Machine Learning) 기반의 장애 진단을 위한 시스템 및 데이터 모델(Data Model)을 제안하며, 이를 기반으로 장애를 사전 예측한 사례를 제시하고자 한다.

흉부 X-ray 기반 의료영상 품질평가 보조 도구 개발 (Development of Medical Image Quality Assessment Tool Based on Chest X-ray)

  • 남기현;유동연;김양곤;선주성;이정원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권6호
    • /
    • pp.243-250
    • /
    • 2023
  • 흉부 X-ray 영상은 폐와 심장을 검사하는 방사선 검사이며 특히, 폐 질환을 진단하는 데 널리 사용되고 있다. 이러한 흉부 X-ray의 품질은 의사의 진단에 영향을 줄 수 있으므로 품질을 평가하는 과정이 필수적으로 거쳐야 하는데, 이 과정은 영상의학과 전문의의 주관이 개입될 수 있고, 수작업으로 이루어지기 때문에 많은 시간과 비용이 소모된다. 또한, 이러한 품질평가는 X-ray 영상의 특징과 사용 목적에 따라 일반적인 품질평가와는 다른 평가 요소가 필요하다. 따라서 본 논문에서는 X-ray 영상에서 검출되는 장기의 해상도, ,해부학적인 구조, 균형 등을 고려하여 임상 현장에서 사용되는 흉부 X-ray 영상 화질 평가 가이드라인을 적용하여 품질요소를 5가지(인공음영, 포함범위, 환자자세, 흡기정도, 그리고 투과상태)로 나누고 이를 자동화하는 도구를 제안한다. 제안하는 도구는 수작업으로 품질평가를 진행하는 본래의 방식 대비 소요 시간과 비용을 줄여주고, 더 나아가 흉부 X-ray를 이용한 학습 모델 개발에 높은 품질의 학습데이터를 선별하는 과정에도 사용될 수 있다.

스마트 플랜트를 위한 빅데이터 및 AutoML 플랫폼 개발 (Development of Big Data and AutoML Platforms for Smart Plants)

  • 강진영;정병석
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.83-95
    • /
    • 2023
  • 스마트 플랜트 발전에 있어서 빅데이터 분석과 인공지능은 중요한 역할을 한다. 본 연구에서는 플랜트 데이터를 위한 빅데이터 플랫폼과 인공지능 기반 플랜트 유지 관리를 위한 'AutoML 플랫폼'을 개발하였다. 빅데이터 플랫폼은 하둡, 스파크, 카프카를 활용하여 플랜트에서 발생하는 대용량의 데이터를 수집, 처리, 적재하는 플랫폼이다. AutoML 플랫폼은 설비의 예지보전 및 공정 최적화를 위한 예측 모델을 구축하는 머신러닝 자동화 시스템이다. 위 플랫폼은 기존 플랜트 운영 정보 시스템과의 호환성을 고려하여 데이터 파이프라인을 구성하고, 웹 기반 GUI를 통해 작업자의 접근성과 편의성을 향상하였으며, 데이터 처리와 학습 알고리즘에 사용자 정의 모듈을 탑재하는 기능을 통해 유연성을 증대시켰다. 본 논문은 국내 정유회사의 특정 공정을 대상으로 플랫폼을 실제 운영해보았고, 이를 통해 스마트 플랜트를 위한 효과적인 데이터 활용 플랫폼 사례를 제시한다.

다각형 이미지의 방향 결정을 이용한 새로운 CAPTCHA 시스템의 설계 (Design of A New CAPTCHA System using Detecting Orientation of Polygonal Image)

  • 정우근;김종우;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.766-769
    • /
    • 2010
  • CAPTCHA 시스템은 스팸이나 로봇에 의한 자동 가입, 계정 생성 방지도구로써 인간의 우수한 가독성을 통해 특정 언어 또는 그림을 해독할 수 있는 특성을 이용한 것으로 일반적으로 컴퓨터 프로그램이 해독하기 어려운 기호, 글자 등을 재입력하도록 하여 스팸을 위한 자동화 도구 등을 무력화 시키는 보안 기술이다. 하지만 기존에 존재하였던 텍스트 기반의 시스템은 웹봇이나 머신 러닝등을 통하여 쉽게 통과할 수 있는 단점을 나타냈다. 우리는 이러한 단점을 보완하고자 새로운 이미지 기반의 CAPTCHA 시스템을 제안하였다. 제안된 시스템은 일반적인 사진에서 부분 이미지를 출력, 무작위 회전을 가하여 사용자에게 올바른 교정을 요하는 시스템이었다. 본 논문에서는 일반적인 사진에서 출력되는 부분 이미지의 형태를 다각형으로 추출하여, 사용자에게 좀 더 인식률을 높일 수 있는 서브 이미지의 형태를 찾고, 좀 더 효과적이고 실용적일수 있는 CAPTCHA 시스템을 제안하고자 한다. 본 논문에서 제공하는 다각형의 형태는 정사각형, 정오각형, 정육각형, 정칠각형 그리고 정팔각형이다. 총 5가지 형태의 다각형 중에서 사용자에게 가장 효과적인 다각형을 실험을 통하여 찾을 것이다.

머신러닝 기반의 자동화된 소스 싱크 분류 및 하이브리드 분석을 통한 개인정보 유출 탐지 방법 (Machine Learning Based Automated Source, Sink Categorization for Hybrid Approach of Privacy Leak Detection)

  • 심현석;정수환
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.657-667
    • /
    • 2020
  • 안드로이드 프레임워크는 단 한번의 권한 허용을 통해 앱이 사용자의 정보를 자유롭게 이용할 수 있으며, 유출되는 데이터가 개인정보임을 식별하기 어렵다는 문제가 있다. 따라서 본 논문에서는 어플리케이션을 통해 유출되는 데이터를 분석하여, 해당 데이터가 실제로 개인정보에 해당하는 것인지를 파악하는 기준을 제시한다. 이를 위해 우리는 제어 흐름 그래프를 기반으로 소스와 싱크를 추출하며, 소스에서 싱크까지의 흐름이 존재하는 경우 사용자의 개인정보를 유출하는지 확인한다. 이 과정에서 우리는 구글에서 제공하는 위험한 권한 정보를 기준으로 개인정보와 직결되는 소스와 싱크를 선별하며, 동적분석 툴을 통해 각 API에 대한 정보를 후킹한다. 후킹되는 데이터를 통해 사용자는 해당 어플리케이션이 실제로 개인정보를 유출한다면 어떤 개인정보를 유출하는지 여부를 파악할 수 있다. 우리는 툴을 최신 버전의 API에 적용하기 위해 머신러닝을 통해 최신 버전의 안드로이드의 소스와 싱크를 분류하였으며, 이를 통해 86%의 정확도로 최신 배포 버전인 9.0 안드로이드의 API를 분류하였다. 또한 툴은 2,802개의 APK를 통해 평가되었으며, 개인정보를 유출하는 850개의 APK를 탐지하였다.

머신러닝을 활용한 음원 차트와 뉴미디어 데이터를 활용한 K-POP 아이돌 인기 요인 분석 (Analyzing K-POP idol popularity factors using music charts and new media data using machine learning)

  • 최지원;정다연;최강규;임태인;김대훈;정종균;노승민
    • Journal of Platform Technology
    • /
    • 제12권1호
    • /
    • pp.55-66
    • /
    • 2024
  • K-POP 시장은 문화를 넘어 외교, 환경 운동 등 사회 전반에 미치는 영향력이 지대해지고 있다. 이에 따라 아이돌의 성공 요인을 알아내고자 음원, 음반 등 전통적 데이터를 활용하여 머신러닝 기반으로 다양한 논문들이 수행되고 있다. 하지만, 기존의 선행 연구는 최근 아이돌의 인지도에 미치는 인스타그램 릴스, 유튜브 쇼츠, 틱톡, 트위터 등과 같은 뉴미디어 플랫폼의 영향을 반영하지 못했다는 한계점이 있다. 따라서 기존의 연구로는 매일 변화하는 미디어 트렌드를 고려하지 못하여 최근 아이돌 성공 요인의 인과관계를 뚜렷하게 밝히는데 어려움이 있었다. 이러한 문제점을 해결하기 위해, 본 논문은 아이돌 관련 데이터의 수집 시스템과 분석 방법론을 제안한다. 아이돌 데이터의 특이성을 반영한 컨테이너 기반 실시간 데이터 수집 자동화 시스템을 개발해, 아이돌 데이터 수집의 안정성과 확장성을 확보하고 K-Means 클러스터링 기반 이상치 탐지 모델을 통해 성공 아이돌 군집을 비교, 분석한다. 그 결과, 성별, 앨범 발매 시기 후 성공 시점, 뉴미디어와의 연관성 등 성공 아이돌들의 공통점을 파악할 수 있었다. 이를 통해, 최종적으로 각 아이돌별, 앨범 형태별, 컴백 시기에 따른 최적 컴백 프로모션을 기획해 아이돌의 성공 가능성을 증진할 수 있을 것으로 기대한다.

  • PDF