• 제목/요약/키워드: 기계학습알고리즘

검색결과 774건 처리시간 0.031초

통계와 시각화를 결합한 데이터 분석: 예측모형 대한 시각화 검증 (Data analysis by Integrating statistics and visualization: Visual verification for the prediction model)

  • 문성민;이경원
    • 디자인융복합연구
    • /
    • 제15권6호
    • /
    • pp.195-214
    • /
    • 2016
  • 예측 분석은 패턴인식(Pattern recognition) 혹은 기계학습(Machine learning)으로 불리는 확률적 학습 알고리즘을 기반으로 하기 때문에 사용자가 분석 과정에 개입하여 더 많은 정보를 얻어내기 위해서는 높은 통계적 지식수준이 요구된다. 또한 사용자는 분석 결과외의 다른 정보를 확인 할 수 없고 데이터의 특성 변화와 데이터 하나하나의 특징을 파악하기 힘들다는 단점이 있다. 본 연구는 이러한 예측분석의 단점을 보완하고자 통계적인 데이터 분석 방법과 시각화 분석 방법을 결합하여 데이터 분석을 진행하였으며 통계적인 분석 방법만을 진행 할 경우 발생하는 단점을 보완하고 데이터에서 더 많은 정보를 도출해 내기 위한 방법론을 제시 하고자하였다. 이를 위해 본 연구는 영화 리뷰에서 추출한 감정 어휘가 독립변인이고 영화의 흥행 값이 종속변인인 데이터를 예제 데이터로 활용하여 진행하였다. 본 연구의 연구 방법론을 적용하였을 때의 이점은 다음과 같다. 첫째, 의사결정나무 분석에서 제시된 분할 기준이 적용될 때 마다 변하는 데이터의 패턴을 파악할 수 있다. 둘째, 제시된 최종 예측모형에 포함된 데이터들의 특성을 확인 할 수 있다. 본 연구의 시사점은 예측모형의 단점을 보완하고 데이터로부터 더 많은 정보를 추출하기 위해 통계적인 데이터 분석과 시각적인 데이터 분석을 결합하여 시행하였다는 것이다. 통계적인 분석 방법을 통해 각 변수의 관계를 파악하고 높은 예측 값을 가지는 모형을 도출하였으며, 시각화 분석에서는 인터랙션 기능을 제공함으로서 통계적으로 제시된 예측모형을 검증하고 더 다양한 정보를 도출 할 수 있게 하였다.

자산변동 좌표 클러스터링 기반 게임봇 탐지 (Game-bot detection based on Clustering of asset-varied location coordinates)

  • 송현민;김휘강
    • 정보보호학회논문지
    • /
    • 제25권5호
    • /
    • pp.1131-1141
    • /
    • 2015
  • 본 논문에서는 MMORPG에서 각 캐릭터의 소지금 증가/감소 이벤트 로그 데이터를 위주로 플레이어의 액션 로그 데이터를 조사하여 게임봇을 탐지하는 기계 학습 기반의 새로운 접근 방법을 제안한다. 게임봇 계정과 일반 계정을 구분하는 주요 피쳐를 추출하기 위해 밀도 기반 군집화 알고리즘의 하나인 DBSCAN (Density Based Spatial Clustering of Application with Noise)를 이용하였다. DBSCAN 알고리즘을 통해 각 플레이어의 소지금 증가/감소 위치 좌표를 클러스터링하고, 그 결과 생성된 클러스터의 수, 코어 포인트의 비율, 멤버 포인트의 비율, 노이즈 포인트의 비율과 같은 공간적 특성을 나타내는 값들을 추출하였다. 해당 피쳐들을 사용하면 게임봇 개발자들이 게임봇 탐지 시스템의 원리를 알더라도 넓은 지역을 돌아다니며 사냥을 하도록 게임봇 프로그램을 제작하는 것은 매우 비효율적이기 때문에 탐지 시스템을 우회하기 어렵게 된다. 결과적으로, 게임봇은 소지금 변동 좌표 데이터로부터 추출한 공간적 특성에서 일반유저와 명확한 차이를 보였다. 예를 들면, DBSCAN 클러스터링 결과 중 노이즈 포인트의 비율에서 게임봇은 5% 이하의 낮은 값을 가지는 반면에 일반 유저들은 대부분 높은 값을 갖는다. 실제 MMORPG의 액션 로그 데이터를 이용한 게임봇 탐지에서, 본 논문에서 제안된 시스템은 높은 탐지율의 우수한 성능을 보였다.

머신비전을 이용한 전복 치패 계수에 관한 연구 (A Study on Abalone Young Shells Counting System using Machine Vision)

  • 박경민;안병원;박영산;배철오
    • 해양환경안전학회지
    • /
    • 제23권4호
    • /
    • pp.415-420
    • /
    • 2017
  • 본 논문에서는 머신비전을 이용하여 컨베이어 시스템에서 이동하는 객체를 계수하는 알고리즘을 제안하였다. 영상처리를 이용한 객체 계수 시스템은 유동인구나 교통량 파악 등의 다양한 산업현장에서 사용되고 있으며, 주로 템플릿 매칭이나 기계학습의 방법으로 검출하여 추적 후 계수한다. 하지만 빠르게 움직이는 컨베이어 벨트위의 물체를 검출하기 위해서는 연산에 소요되는 시간이 짧아야 하므로 영역기반의 방법으로 영상처리를 하였다. 본 연구에서는 모양과 크기, 그리고 색깔이 비슷한 전복 치패를 계수하였다. 컨베이어 시스템은 한 방향으로 동작하는 특성을 이용하여 첫 번째 영역에서 치패를 검출하여 정보를 얻은 것을 기반으로 다음 프레임에서의 물체의 위치 범위를 계속적으로 변화하여 치패를 검출하고 각각의 획득한 정보를 비교하여 계수하였다. 치패가 간격을 두고 이동 시에는 정확하게 계수됨을 확인하였으며, 치패가 붙어서 오는 경우에는 크기정보를 이용하여 계수하여 중복되거나 누락됨을 방지하였다. 본 논문에서 제안한 알고리즘은 컨베이어 시스템 위에서 움직이는 다양한 객체 계수 제어에 적용할 수 있을 것이다.

사례기반추론 코스트 모델의 정성변수 속성가중치 산정방법 (A Method of Assigning Weight Values for Qualitative Attributes in CBR Cost Model)

  • 이현수;김수영;박문서;지세현;성기훈;편재호
    • 한국건설관리학회논문집
    • /
    • 제12권1호
    • /
    • pp.53-61
    • /
    • 2011
  • 건축 프로젝트는 그 다양성과 특수성으로 인해 많은 불확실성을 갖고 있다. 이러한 불확실성을 해소하기 위해 공사비 예측은 건축 프로젝트의 전 과정에 걸쳐 반복적으로 이루어져야 하며 특히 초기단계의 공사비 예측은 효과적인 사업 추진을 위해 매우 중요한 과정이다. 통상 초기단계 공사비 예측은 과거에 수행되었던 실적공사와의 비교를 기반으로 하며, 이러한 원리를 이용한 기계학습방법이 사례기반추론이다. 사례기반추론은 해결하고자 하는 문제와 유사한 사례를 데이터베이스에서 검색, 수정하여 해답을 얻는 방법으로 이를 위해서는 속성 유사도와 속성 가중치의 정의가 필요하다. 그러나 속성 가중치를 결정하는 문제에 있어서, 기존의 방법들은 정성변수의 속성 가중치 결정이 불가능하다는 단점이 있으며, 이는 사례기반추론에 사용할 수 있는 변수를 한정시키기 때문에 공사비 예측의 정확성을 저해시키는 요인이 되고 있다. 따라서 본 연구는 최적화 문제를 해결하는 기법의 하나인 유전 알고리즘을 이용하여 정성변수의 속성 가중치 결정 방법을 제안하고, 이를 국방 병영생활관과 공공아파트에 적용하여 그 유효성을 검증하였다.

토지 보상비 결정 요인 분석 - 건설CALS 데이터 중심으로 (Analysis on the Determinants of Land Compensation Cost: The Use of the Construction CALS Data)

  • 이상규;서명배;김진욱
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.461-470
    • /
    • 2020
  • 본 연구는 건설 전주기 (기획, 설계, 시공, 관리) 과정에서 생성되는 건설 CALS(Continuous Acquisition & Life-Cycle Support) 시스템 내의 데이터 셋 (443개)을 활용하여 토지보상비에 영향을 주는 주요 결정 요인을 분석한다. 해당 분석을 위해 기존 토지 비용 관련 연구에서 활용된 주요 변수를 활용하였다. 이를 기반으로 8개 (토지면적, 개별 공시지가, 감정평가액, 지목, 용도지역 1, 지형 고저, 지형 형상, 도로 접면)의 주요 변수를 활용하였다. 더불어, 해당 변수는 기계학습 알고리즘 기반의 Xgboost 알고리즘을 통해 변수별 중요도 평가를 진행하였고, 해당 변수 중, 개별공시지가가 가장 중요도가 높은 변수로 확인하였다. 토지보상비 결정 요인에 대한 분석 및 검증을 위해 선형다중회귀분석을 사용하였다. 검증을 위해 구성되는 변수로 종속변수는 개별공시지가 변수를 활용하였고, 독립변수는 연속형 변수 1개 (면적), 범주형 변수는 5개 (지목, 용도지역1, 지형고저, 지형형상, 도로접면)를 활용하였다. 본 연구의 모델에 대한 검증결과, 지목, 용도지역 1, 도로접면에 대한 독립 변수가 유의미한 것으로 확인하였다.

SVM과 인공 신경망을 이용한 침입탐지 효과 비교 연구 (A Comparative Study on the Performance of SVM and an Artificial Neural Network in Intrusion Detection)

  • 조성래;성행남;안병혁
    • 한국산학기술학회논문지
    • /
    • 제17권2호
    • /
    • pp.703-711
    • /
    • 2016
  • 침입탐지시스템은 네트워크 데이터 분석을 통해 네트워크 침입을 탐지하는 역할을 수행하고 침입탐지를 위해 높은 수치의 정확도와 탐지율, 그리고 낮은 수치의 오경보율이 요구된다. 또한 네트워크 데이터 분석을 위해서는 전문가 시스템, 데이터 마이닝, 상태전이 분석(state transition analysis) 등 다양한 기법이 이용된다. 본 연구의 목적은 데이터 마이닝을 이용한 네트워크 침입탐지기법인 두 기법의 탐지효과를 비교하는데 있다. 첫번째 기법은 기계학습 알고리즘인 SVM이고 두번째 알고리즘은 인공 신경망 모형 중의 하나인 FANN이다. 두 기법의 탐지효과를 비교하기 위해 침입 탐지에 많이 쓰이는 KDD Cup 99 훈련 및 테스트 데이터를 이용하여 탐지의 정확도, 탐지율, 오경보율을 계산하고 비교하였다. 정상적인 데이터를 침입으로 간주하는 오경보율의 경우 SVM보다 FANN이 약간 많은 오경보율을 보이나, 탐지의 정확도 및 침입을 찾아내는 탐지율에서 FANN은 SVM보다 월등한 탐지효과를 보여준다. 정상적인 데이터를 침입으로 간주했을 때의 위험보다는 실제 침입을 정상적인 데이터로 인식할 때의 위험도가 훨씬 큰 것을 감안하면 FANN이 SVM보다 침입탐지에 훨씬 효과적임을 보이고 있다.

노인 운전자의 공격적인 운전 상태 검출 기법 (A Method of Detecting the Aggressive Driving of Elderly Driver)

  • 고동우;강행봉
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권11호
    • /
    • pp.537-542
    • /
    • 2017
  • 공격적인 성향의 운전은 자동차 사고의 주요한 원인이 된다. 기존 연구에서는 공격적 성향의 운전을 검출하기 위해, 주로 청년을 대상으로 연구가 이뤄졌으며 기계학습의 순수한 Clustering 또는 Classification 기법을 통해 이뤄졌다. 그러나 노인들은 취약한 신체적 조건에 의해 젊은 운전자와는 다른 운전 강도를 가지고 있어 기존의 방식으로는 검출이 불가능 하며, 데이터를 보정하는 등의 새로운 방법이 필요하다. 그리하여, 본 연구에서는 기존의 클러스터링 기법(K-means, Expectation - maximization algorithm)에, 새롭게 제안하는 ECA(Enhanced Clustering method for Acceleration data)기법을 추가하여, 주행 차량에 위치한 스마트폰으로부터 수집된 가속도 데이터를 분석하고 공격적인 운전 형태를 검출해 낸다. ECA는 모든 피험자의 데이터에서 K-means와 EM을 통해 검출된 군집군의 데이터 중 높은 강도의 데이터를 선별하여, 특징을 스케일링한 값을 통해 모델링한다. 본 방식을 통해 기존의 연구의 순수한 클러스터링 방식과는 달리, 모든 청장년 및 노인 실험 참가자 개인들의 공격적인 운전 데이터가 검출되었으며, 클러스터링 기법간의 비교를 통해 K-means 기법이 보다 높은 검출 효율을 갖고 있음을 확인했다. 또한, K-means 방식을 검출한 공격적인 운전 데이터에서는 젊은 운전자가 노인운전자에 비해 1.29배의 높은 운전 강도를 가지고 있음을 발견했다. 이와 같이 본 연구에서 제안된 방식은 낮은 운전 강도를 갖고 있는 노인의 데이터에서 공격적인 운전을 검출 가능하게 되었으며, 특히. 제안된 방법은 노인 운전자를 위한 맞춤형 안전운전 시스템을 구축이 가능하며, 추후 다양한 연구을 통해 이상 운전 상태를 검출하고 조기 경보하는데 활용이 가능할 것이다.

딥러닝과 머신러닝을 이용한 아파트 실거래가 예측 (Apartment Price Prediction Using Deep Learning and Machine Learning)

  • 김학현;유환규;오하영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권2호
    • /
    • pp.59-76
    • /
    • 2023
  • 코로나 시대 이후 아파트 가격 상승은 비상식적이었다. 이러한 불확실한 부동산 시장에서 가격 예측 연구는 매우 중요하다. 본 논문에서는 다양한 부동산 사이트에서 자료 수집 및 크롤링을 통해 2015년부터 2020년까지 87만개의 방대한 데이터셋을 구축하고 다양한 아파트 정보와 경제지표 등 가능한 많은 변수를 모은 뒤 미래 아파트 매매실거래가격을 예측하는 모델을 만든다. 해당 연구는 먼저 다중 공선성 문제를 변수 제거 및 결합으로 해결하였다. 이후 의미있는 독립변수들을 뽑아내는 전진선택법(Forward Selection), 후진소거법(Backward Elimination), 단계적선택법(Stepwise Selection), L1 Regularization, 주성분분석(PCA) 총 5개의 변수 선택 알고리즘을 사용했다. 또한 심층신경망(DNN), XGBoost, CatBoost, Linear Regression 총 4개의 머신러닝 및 딥러닝 알고리즘을 이용해 하이퍼파라미터 최적화 후 모델을 학습시키고 모형간 예측력을 비교하였다. 추가 실험에서는 DNN의 node와 layer 수를 바꿔가면서 실험을 진행하여 가장 적절한 node와 layer 수를 찾고자 하였다. 결론적으로 가장 성능이 우수한 모델로 2021년의 아파트 매매실거래가격을 예측한 후 실제 2021년 데이터와 비교한 결과 훌륭한 성과를 보였다. 이를 통해 머신러닝과 딥러닝은 다양한 경제 상황 속에서 투자자들이 주택을 구매할 때 올바른 판단을 할 수 있도록 도움을 줄 수 있을 것이라 확신한다.

MaxEnt 모형 분석을 통한 남북한 접경지역의 금강초롱꽃 자생가능지 예측 (Predicting Potential Habitat for Hanabusaya Asiatica in the North and South Korean Border Region Using MaxEnt)

  • 성찬용;신현탁;최송현;송홍선
    • 한국환경생태학회지
    • /
    • 제32권5호
    • /
    • pp.469-477
    • /
    • 2018
  • 금강초롱꽃(Hanabusaya asiatica)은 한반도 중동부에서만 제한적으로 분포하는 고유종으로, 분포범위가 좁고 개체수가 적어 서식지를 세계자연보전연맹(IUCN, International Union for Conservation of Nature) 중요 생물다양성 보호지역(key biodiversity areas: KBAs)으로 지정하여 보호할 필요가 있다. 본 연구에서는 maximum entropy(MaxEnt) 모형을 통해 남북한 접경지역 내 금강초롱꽃 자생가능지를 추정하고 이를 바탕으로 KBAs 후보지를 설정하였다. 기계학습(machine learning) 알고리즘의 하나인 MaxEnt 모형은 생물종의 출현지점만 기록한 데이터(presence-only data)로도 생물종 분포를 편향되지 않게 예측할 수 있는 생물종 분포 모형으로, 본 연구의 연구대상지처럼 현장 조사가 어려운 경우 유용한 방법이다. 본 연구에서는 현장 조사를 통해 수집한 38개 금강초롱꽃 출현 위치와 기후, 지형, 식생 등을 측정한 11개 환경변수를 이용하여 MaxEnt 모형을 학습하여 남북한 접경지역의 모든 지점에 대해 금강초롱꽃 출현확률을 추정하였다. MaxEnt 모형 분석 결과, 금강초롱꽃 출현확률이 0.5를 넘어 금강초롱꽃 분포가능지로 분류된 지역은 $778km^2$이었고, 추정된 서식가능지와 기지정된 보호지역 경계를 고려하여 설정한 최종 KBA 후보지는 $1,321km^2$이었다. 또한 11개 환경변수 중 표고와 연평균 강수량, 생장기 평균 강수량, 최한월 평균 기온이 금강초롱꽃 출현확률에 영향을 미쳐, 금강초롱꽃은 고도가 높은 서늘한 지역을 선호하는 것으로 분석되었다. 이와 같은 금강초롱꽃의 분포지 선호도 분석 결과는 KBA 후보지 설정 뿐 아니라 남북한 통일이나 기후변화와 같은 시나리오에 대비한 금강초롱꽃 보존 계획 수립의 기초자료로 활용될 수 있을 것으로 기대된다.

인공지능 기반 임상의학 결정 지원 시스템 의료기기의 성능 및 안전성 검증을 위한 간 종양 표준 데이터셋 구축 (Construction of a Standard Dataset for Liver Tumors for Testing the Performance and Safety of Artificial Intelligence-Based Clinical Decision Support Systems)

  • 김승섭;이동호;이민우;김소연;신재승;최진영;최병욱
    • 대한영상의학회지
    • /
    • 제82권5호
    • /
    • pp.1196-1206
    • /
    • 2021
  • 목적 간 종양의 조영증강 컴퓨터단층촬영(이하 CT) 영상에 관한 인공지능 알고리즘의 성능과 안전성을 검증할 수 있는 표준 테스팅 데이터셋을 구축하고자 하였다. 대상과 방법 국내 4개 3차 의료기관의 복부 영상의학 전문가 4인이 모여 간 종양 진단 알고리즘의 성능과 안전성을 검증하기 위해 표준 데이터셋이 갖춰야 할 조건을 논의하였다. 각 기관마다 간세포암 75예, 전이암 75예, 그리고 양성 병변 30-50예씩 수집하여, 총 783명 환자의 CT 영상을 대상으로 하였다. 간세포암과 전이암의 경우 병리학적으로 확진된 경우만을 대상으로 하였다. 각 기관의 복부 영상의학 전문가들이 직접 환자의 임상정보를 추출하고 CT 영상에 관한 데이터 라벨링(labeling)을 수기로 시행하였다. CT 영상은 의료용 디지털 영상 및 통신(Digital Imaging and Communications in Medicine, DICOM) 파일로 저장하였다. 결과 복부 영상의학 전문가들이 수기 데이터 라벨링을 시행한 총 783 증례의 간 종양 조영증강 CT의 표준 데이터셋을 구축하였다. 알고리즘의 성능 및 안전성은 병변의 발견 여부 및 특성화의 정확도에 대해 민감도와 특이도를 계산하여 평가할 수 있다. 결론 본 연구에서 구축한 간 종양 조영증강 CT 영상의 표준 데이터셋은 임상의학 결정 지원시스템을 위한 기계학습 기반 인공지능 알고리즘을 평가하는 데에 활용될 수 있다.