• 제목/요약/키워드: classifiers

검색결과 743건 처리시간 0.024초

자궁경부암 진단을 위한 3차원 세포핵 질감 특성값 유의성 평가에 관한 연구 (Study on evaluating the significance of 3D nuclear texture features for diagnosis of cervical cancer)

  • 최현주;김태윤;;;최흥국
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권10호
    • /
    • pp.83-92
    • /
    • 2011
  • 본 연구의 목적은 세포핵의 3차원 염색질 질감 특성값이 암의 진행정도를 인식하는데 있어 유용한 특성값인지 평가하는데 있다. 특히, 제안한 방법이 악성이라고 진단된 세포진 도말 표본에서 정상으로 보이는 세포의 염색질 패턴에서의 미세한 차이를 인식할 수 있는지 살펴보고자 한다. 분류등급 정상(Normal), 저등급 편평 상피내 병변(LSIL, Low grade Squamous Intraepithelial Lesion), 고등급 편평 상피내 병변(HSIL, High grade Squamous Intraepithelial Lesion)에서 각각 100개씩의 세포 볼륨데이터로부터 3차원 GLCM(Gray Level Co occurrence Matrix)에 기반한 질감 특성값과 3차원 Wavelet 변환에 기반한 질감 특성값을 추출하고 분류기를 생성한 후 각 분류기에 대한 분류정확도를 비교하였으며, 2차원 세포진 영상에서의 세포핵 질감 특성값과 비교하기 위해 동일한 실험 볼륨데이터의 투영된 2차원 영상을 이용하여 같은 방법으로 2차원 세포핵 질감 특성값을 추출하고 분류기를 생성한 후 분류정확도를 비교하였다. 2차원 세포핵 질감 특성값과의 비교연구에서 3차원 세포핵 질감 특성값이 등급별 분류에 있어 보다 효율적인 것을 확인 할 수 있었으며 이는 3차원 염색질 질감 특성값이 자궁경부 세포의 정량화에 대한 정확성과 재현성을 개선할 수 있음을 의미한다.

산불 피해강도 분류를 위한 고해상도 위성 및 무인기 다중분광영상의 활용 가능성 분석 (Analysis of Availability of High-resolution Satellite and UAV Multispectral Images for Forest Burn Severity Classification)

  • 신정일;서원우;김태정;우충식;박주원
    • 대한원격탐사학회지
    • /
    • 제35권6_2호
    • /
    • pp.1095-1106
    • /
    • 2019
  • 산불 피해는 복구, 보상 및 2차 피해 예방을 위해 빠르고 정확히 조사되어야 한다. 원격탐사 기반의 산불 피해강도 조사 방법으로 주로 산불 전과 후의 반사율 및 분광지수의 차이를 비교하고 있다. 최근 고해상도 위성영상 및 무인기 영상의 활용이 증가하고 있으나, 언제 어디에서 발생할지 예측할 수 없는 산불에 대한 발생 전 영상을 획득하는 것이 쉽지 않다. 본 연구에서는 산불 피해강도 분류에 있어 고해상도 영상과 감독분류 기법의 활용 가능성을 분석하고자 하였다. 산불 후에 촬영된 KOMPSAT-3A 영상과 무인기 다중분광영상에 반사율의 절대값을 이용하는 최대우도법과 반사율의 패턴을 이용하는 분광각매퍼의 두 가지 감독분류 기법을 적용하였다. 그 결과 분류 기법 측면에서 최대우도법이 분광각매퍼에 비해 높은 분류정확도를 보여주었으며, 이는 피해강도 등급 간에 분광반사율의 절대값은 다르지만 패턴이 유사한 등급들이 존재하기 때문인 것으로 판단된다. 공간해상도 측면에서 상대적으로 해상도가 높은 무인기 영상의 분류정확도가 위성영상보다 높게 나타났다. 그러나 무인기와 위성 영상 모두 분류정확도가 매우 높게 나타나고 있어 피해강도 분류에 활용 가능성이 높다고 할 수 있다. 따라서, 피해강도 분류에 있어 산불 후에 촬영된 고해상도 영상들을 이용할 수 있을 것으로 판단된다.

미분진화 기반의 초단기 호우예측을 위한 특징 선택 (Feature Selection to Predict Very Short-term Heavy Rainfall Based on Differential Evolution)

  • 서재현;이용희;김용혁
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.706-714
    • /
    • 2012
  • 본 논문에서는 대한민국의 국립기상연구소에서 제공한 최근 4년간의 데이터를 훈련 데이터, 검증 데이터 및 테스트 데이터로 나누어 초단기 호우 예측을 하고자 한다. 우리는 데이터 셋을 훈련 데이터, 검증 데이터와 테스트 데이터 세 부분으로 나눴다. 데이터의 차원이 커짐에 따라 해 공간의 크기가 지수적으로 증가하여 실험의 속도가 현저히 떨어지는 문제를 피하기 위하여 72개의 특징들 중에서 주요한 특징들만을 선택하게 되었다. 예측의 정확도를 높이기 위해 미분진화 알고리즘을 사용하였고, 진화연산의 적합도 함수로 두 개의 분류기를 선택하였는데, 일반적으로 우수한 성능을 보이는 서포트 벡터 머신(SVM)과 분류 속도가 빠른 최근린법(k-NN)을 사용하였다. 또한, 실험에 사용할 데이터 가공을 위해 언더샘플링과 정규화를 하였다. 진화연산의 적합도 함수로 SVM 분류기를 사용하였을 때 실험 결과가 대체로 우수하였는데, 미분진화 알고리즘 실험은 모든 특징을 선택한 실험보다 약 5 배 정도 우수한 성능을 보였고, 유전 알고리즘을 사용한 실험보다 약 1.36 배 정도 더 우수한 성능을 보였다. 실험 속도 면에서는 미분진화 알고리즘을 사용한 실험이 유전 알고리즘을 사용한 실험보다 약 20배 이상 실험 시간이 단축되었다.

주파수 공간상의 특징 데이터를 활용한 손목에 부착된 가속도 센서 기반의 낙상 감지 (Fall detection based on acceleration sensor attached to wrist using feature data in frequency space)

  • 노정현;김진헌
    • 스마트미디어저널
    • /
    • 제10권3호
    • /
    • pp.31-38
    • /
    • 2021
  • 낙상사고는 언제, 어디에서 일어날지 예측하기 어렵다. 또한 신속한 후속 조치가 수행되지 않으면 생명의 위협으로 이어지므로 낙상사고를 자동으로 감지할 수 있는 연구가 필요하게 되었다. 자동적인 낙상사고 감지기법 중 손목에 부착된 IMU 센서를 활용한 기법은 움직임이 많아 낙상사고 검출이 어렵지만, 착용의 간편함과 접근성이 뛰어난 기법으로 인식되고 있다. 낙상 데이터 확보의 어려움을 극복하기 위해 본 연구는 KNN과 SVM과 같은 머신러닝으로 적은 데이터를 효율적으로 학습하는 알고리즘을 제안한다. 또한, 이들 수학적 분류기의 성능을 높이기 위해 본 연구에서는 주파수 공간에서 취득한 특징 데이터를 활용하였다. 제안된 알고리즘은 표준 데이터세트를 활용한 실험을 통해 모델의 파라미터와 주파수 특징 추출기의 파라미터를 다각화하여 그 영향을 분석하였다. 제안된 알고리즘은 학습 데이터를 확보하기 어려운 현실적인 문제에 적절히 대처할 수 있었다. 또한 본 알고리즘이 다른 분류기보다 경량화되어 있기 때문에 SIMD(Single Instruction Multiple Data) 처리장치 탑재가 어려운 소형 임베디드시스템에도 구현이 용이했다.

아파트 하자 보수 시설공사 세부공종 머신러닝 분류 시스템에 관한 연구 (Classifying Sub-Categories of Apartment Defect Repair Tasks: A Machine Learning Approach)

  • 김은혜;지홍근;김지나;박은일;엄재용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권9호
    • /
    • pp.359-366
    • /
    • 2021
  • 대한민국 건설사들은 아파트 하자 정보를 축적하고 보수작업을 관리하기 위한 시스템을 운영하는데 상당한 인력과 비용을 투자하고 있다. 본 연구에서는 하자 접수 상세내용 텍스트 데이터를 이용하여 하자 보수 시설공사에 따른 세부공종을 분류하는 머신러닝 모델을 제안한다. 두 가지 단어 임베딩(Bag-of-words, Term Frequency-Inverse Document Frequency (TF-IDF))과 두 가지 분류기(Support Vector Machine, Random Forest)를 통해 한국어로 작성된 65만건 이상의 하자 접수데이터로부터 하자보수 시설공사 세부공종을 분류했다. 특히, 이번 연구에서는 특정 시설공사(마감공사)의 9개 세부공종(가전제품, 도배공사, 도장공사, 미장공사, 석공사, 수장공사, 옥내가구공사, 주방기구공사, 타일공사)을 분류하는 이진분류 모델과 다중 분류 모델을 연구했다. 그 결과, TF-IDF와 Random Forest를 사용한 두가지 분류 모델에서 90%이상의 정확도, 정밀도, 재현율 및 F1점수를 확인했다.

땅밀림 위험지 평가를 위한 기계학습 분류모델 비교 (A Performance Comparison of Machine Learning Classification Methods for Soil Creep Susceptibility Assessment)

  • 이제만;서정일;이진호;임상준
    • 한국산림과학회지
    • /
    • 제110권4호
    • /
    • pp.610-621
    • /
    • 2021
  • 지진 발생과 집중호우에 의해 땅밀림형 산사태 유형으로 분류되는 땅밀림 현상이 전국적으로 광범위하게 나타나고 있다. 산림청은 땅밀림으로 인한 인명 및 재산 피해를 예방하기 위해 땅밀림 우려지 현장조사 판정표를 통해 땅밀림 발생 위험지를 사전에 파악하고 있다. 한편 최근에는 컴퓨터 기술의 발달로 인공지능의 한 분야인 기계학습 분류기법을 이용하여 산지재해 취약성을 평가하거나 자연재해를 예측하고 있다. 따라서 이 연구에서는 기계학습 분류기법인 k-Nearest Neighbor(k-NN), Naive Bayes(NB), Random Forest(RF), 그리고 Support Vector Machine(SVM) 분류모델을 이용하여 땅밀림 발생 위험등급을 분류하였다. 한국치산기술협회의 2018~2020년 조사 자료 4,618개 중에서 땅밀림 현상의 발생 여부를 고려하여 발생지 총 146개소, 그리고 미발생지 146개소를 임의추출하여 292개 자료를 선정하였으며, 이 중 70%에 해당하는 204개소 자료를 훈련자료로 하여 모델을 구축하였다. 전체 자료의 30%에 해당하는 88개 검증자료에 대해 모델을 평가한 결과, k-NN은 0.727, NB는 0.750, RF는 0.807, 그리고 SVM은 0.750의 분류정확도를 보였다. 또한, Kappa 상관계수는 각각 0.534, 0.580, 0.673 및 0.585, 그리고 AUC는 각각 0.872, 0.912, 0.943 및 0.834로 계산되었다. 따라서 땅밀림 위험지역 판정을 위한 기계학습 분류모델은 RF, NB, SVM, 그리고 k-NN 순으로 높은 성능을 보였다. 기계학습 분류모델은 향후 산지토사재해의 예방 및 대응을 위한 기초자료로 활용 가능하며, 땅밀림 재해 관리 및 피해 경감에 위한 정책 개발에 필요한 정보를 제공할 것이다.

속성선택방법과 워드임베딩 및 BOW (Bag-of-Words)를 결합한 오피니언 마이닝 성과에 관한 연구 (Investigating Opinion Mining Performance by Combining Feature Selection Methods with Word Embedding and BOW (Bag-of-Words))

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권2호
    • /
    • pp.163-170
    • /
    • 2019
  • 과거 10년은 웹의 발달로 인한 데이터가 폭발적으로 생성되었다. 데이터마이닝에서는 대용량의 데이터에서 무의미한 데이터를 구분하고 가치 있는 데이터를 추출하는 단계가 중요한 부분을 차지한다. 본 연구는 감성분석을 위한 재표현 방법과 속성선택 방법을 적용한 오피니언 마이닝 모델을 제안한다. 본 연구에서 사용한 재표현 방법은 백 오즈 워즈(Bag-of-words)와 Word embedding to vector(Word2vec)이다. 속성선택(Feature selection) 방법은 상관관계 기반 속성선택(Correlation based feature selection), 정보획득 속성선택(Information gain)을 사용했다. 본 연구에서 사용한 분류기는 로지스틱 회귀분석(Logistic regression), 인공신경망(Neural network), 나이브 베이지안 네트워크(naive Bayesian network), 랜덤포레스트(Random forest), 랜덤서브스페이스(Random subspace), 스태킹(Stacking)이다. 실증분석 결과, electronics, kitchen 데이터 셋에서는 백 오즈 워즈의 정보획득 속성선택의 로지스틱 회귀분석과 스태킹이 높은 성능을 나타냄을 확인했다. laptop, restaurant 데이터 셋은 Word2vec의 정보획득 속성선택을 적용한 랜덤포레스트가 가장 높은 성능을 나타내는 조합이라는 것을 확인했다. 다음과 같은 결과는 오피니언 마이닝 모델 구축에 있어서 모델의 성능을 향상시킬 수 있음을 나타낸다.

인공지능기법을 이용한 온라인 P2P 대출거래의 채무불이행 예측에 관한 실증연구 (Artificial Intelligence Techniques for Predicting Online Peer-to-Peer(P2P) Loan Default)

  • 배재권;이승연;서희진
    • 한국전자거래학회지
    • /
    • 제23권3호
    • /
    • pp.207-224
    • /
    • 2018
  • 온라인 P2P 대출(Online Peer-to-Peer Lending)이란 대출자(차입자)들이 인터넷 및 모바일 P2P 플랫폼을 통해 대출을 신청하면 P2P 플랫폼 기업이 이를 심사하고, 공개하여 불특정 다수가 자금을 빌려주고 이자를 받는 대출중개 서비스를 말한다. 국내외적으로 P2P 대출시장의 성장과 수익률에 대한 관심이 커진 상황에서 현재는 P2P 대출에 대한 안정성 측면에서 문제가 제기되고 있다. P2P 대출시장은 높은 수익률을 제공하지만 P2P 업체의 연체율과 부실률(채무불이행률)도 함께 높아지고 있는 실정이다. P2P 금융시장의 신뢰도를 높이기 위해서는 P2P 대출의 연체율과 채무불이행률을 줄이는 것이 무엇보다 중요하다. 본 연구는 세계적인 P2P 기업인 렌딩클럽(Lending Club)의 P2P 대출거래데이터베이스를 이용하여 인공지능기반의 P2P 채무불이행 예측모형을 구축하고자 한다. 구체적으로 벤치마크(benchmark) 모형으로 통계기법인 판별분석과 로지스틱 회귀분석을 이용하고, 인공지능기법으로는 신경망, CART, 그리고 C5.0을 이용하여 P2P 대출거래의 채무불이행 예측모형을 구축하고자 한다. 연구결과, P2P 대출거래의 채무불이행 예측을 위해 우선 고려해야 할 변수는 대출이자율이며, 중요도 3순위에 가장 많이 언급된 대출금액과 총부채상환비율도 고려해야 할 요인으로 추출되었다. 전통적인 통계기법보다는 인공지능기법의 예측성과가 더 좋은 것으로 나타났으며, 신경망의 경우 모든 데이터 셋에서 오분류율이 가장 낮은 예측모형으로 나타났다.

효과적 이모션마이닝을 위한 속성선택 방법에 관한 연구 (Exploring Feature Selection Methods for Effective Emotion Mining)

  • 어균선;이건창
    • 디지털융복합연구
    • /
    • 제17권3호
    • /
    • pp.107-117
    • /
    • 2019
  • 블로그, 소셜 미디어 등의 발달로 인해 점점 더 많은 사람들이 본인의 의견이나 감정을 표현하기 위해 온라인상에서 텍스트 문장을 작성한다. 그리고 이같은 온라인 텍스트 문장속에 숨겨져 있는 긍정 또는 부정등의 감성을 찾아내는 연구분야를 감성분석 이라고 한다. 그중에서도 이모션 마이닝은 사람들의 구체적인 이모션을 찾아내는데 초점을 맞춘 연구분야이다. 본 연구에서는 속성선택 방법과 단일 및 앙상블 분류기를 조합하여 효과적인 이모션 마이닝 예측모델을 제시하고자 한다. 이를 위해 두가지 대표적인 오픈 데이터인 Tweet와 SemEval2007 데이터를 이용하여 TF-IDF를 계산하고 백 오브 워즈(BOW: bag-of-words) 형태로 속성 셋을 구성하였다. 그리고 효과적인 이모션 마이닝이 될 수 있는 최적의 속성을 선택하기 위하여 상관관계 기반 속성선택(CFS), 정보획득 속성선택 (IG), 그리고 ReliefF 등 세가지 속성선택 방법을 적용하였다. 선택된 속성을 이용하여 아홉가지 분류기 모델로 이모션 마이닝의 정확도를 비교하였다. 실험 결과, Tweet 데이터는 의사결정나무(DT)가 CFS, IG, ReliefF에 의한 속성을 이용할 경우 정확도가 상승했고, 랜덤서브스페이스(RS)는 CFS, IG에 선택된 속성을 사용할 경우 정확도가 상승했다. SemEval2007 데이터는 ReliefF에 의해 선택된 속성으로 로지스틱 회귀분석(LR)을 적용하였을 때 정확도가 상승했고, 나이브 베이지안 네트워크(NBN)은 CFS, IG에 의한 속성을 사용할 경우 정확도가 상승하였다.

용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구 (Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers)

  • 정해강;김남규
    • 경영과정보연구
    • /
    • 제37권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.