• 제목/요약/키워드: Classification Algorithms

검색결과 1,182건 처리시간 0.031초

유전자알고리즘을 이용한 시그모이드 활성화 함수 파라미터의 최적화와 이중나선 문제의 입력공간 패턴인식 분석 (Optimization of Sigmoid Activation Function Parameters using Genetic Algorithms and Pattern Recognition Analysis in Input Space of Two Spirals Problem)

  • 이상화
    • 한국콘텐츠학회논문지
    • /
    • 제10권4호
    • /
    • pp.10-18
    • /
    • 2010
  • 본 논문에서는 유전자알고리즘을 이용한 시그모이드 활성화 함수 파라미터의 최적화와 이중나선기준문제(two spirals benchmark problem)의 입력공간 패턴인식 상태를 분석 한다. 실험을 위하여 캐스케이드 코릴레이션 학습 알고리즘(Cascade Correlation learning algorithm)을 이용한다. 첫 번째 실험에서는 기본적인 시그모이드 활성화 함수를 사용하여 이중나선 문제를 분석하고, 두 번째 실험에서는 시그모이드 활성화 함수(sigmoidal activation function)의 파라미터 값이 서로 다른 함수를 사용하여 8개의 풀을 구성한다. 세 번째 실험에서는 시그모이드 함수의 변위를 결정하는 세 개의 파라미터 값을 유전자 알고리즘을 이용하여 얻고 이 파라미터 값들이 적용된 시그모이드 함수들은 후보뉴런의 활성화를 위해서 사용된다. 이러한 알고리즘의 성능평가를 위하여 각 학습단계 마다 입력패턴공간에서 인식된 이중나선의 형태를 보여준다.

기계학습 알고리즘을 이용한 주택 모기지 금리에 대한 시민들의 감정예측 (Prediction of Citizens' Emotions on Home Mortgage Rates Using Machine Learning Algorithms)

  • 김윤기
    • 지적과 국토정보
    • /
    • 제49권1호
    • /
    • pp.65-84
    • /
    • 2019
  • 본 연구의 목적은 기계학습 알고리즘을 이용하여 주택모기지 금리에 대한 시민들의 감정을 예측하는 것이었다. 연구목적을 달성하기 위해 본 연구는 관련문헌을 검토한 다음 두개의 연구 질문을 설정하였다. 또한 연구 질문에 대한 답을 구하기 위해 본 연구는 Akman의 분류에 따라 감정을 분류 한 다음 여섯 가지 기계학습 알고리즘을 이용하여 모기지 금리에 대한 시민들의 감정을 예측하였다. 분석결과 AdaBoost가 모든 평가범주에서 가장 우수한 분류기로 확인되었다. 그러나 Naive Bayes의 성능수준은 다른 분류기들의 성능수준보다 낮은 것으로 밝혀졌다. 또한 본 연구는 어느 분류기가 각 감정범주를 잘 예측해주는지를 파악하기 위해 ROC 분석을 실시하였다. 분석결과, AdaBoost가 모든 감정범주에서 주택모기지 금리에 대한 주민들의 감정을 가장 잘 예측해주는 것으로 확인되었다. 그러나 슬픔범주에서 여섯 가지 알고리즘의 성능수준은 다른 감정범주보다 훨씬 낮게 나타났다.

디지털 인문학에서 비정형 데이터 분석을 이용한 사조 분류 방법 (Mining Intellectual History Using Unstructured Data Analytics to Classify Thoughts for Digital Humanities)

  • 서한솔;권오병
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.141-166
    • /
    • 2018
  • 최근 디지털 인문학 (Digital humanities) 연구분야의 등장으로 정보기술을 활용하여 인문학 연구의 효율성 제고에 기여하고 있다. 특히 인문학 연구에서 특정한 인물 혹은 문서가 어떠한 사상 (idea)을 담고 있는지와 다른 사상과의 어떤 연결성을 가지는지를 자동적인 방법으로 분석하는 것은 지성사(intellectual history)를 파악하는 데 중요한 도전이 될 것이다. 본 연구의 목적은 책이나 논문, 기사와 같은 비정형 데이터 (unstructured data)에 포함된 주장을 파악하고 이를 다른 주장이나 사상과 어떠한 관련이 있는지를 자동으로 분석하는 방법을 제안하는 것이다. 특히 본 연구에서는 주장과 주장 사이의 영향관계를 밝히는 히스토리 마이닝 (History Mining)이라는 방법도 제안하였다. 이를 위해 딥러닝 기법 (deep learning method)을 포함한 분류알고리즘 기법 (classification algorithm)을 활용하였다. 본 연구가 제안하는 방법론의 성능을 검증하기 위하여 철학 사조 중에서 대표적으로 대비되는 경험주의와 합리주의 관련 철학자들을 선정하고 관련된 저서 혹은 인터넷 상의 글을 수집하였다. 분류 알고리즘의 성능은 Recall, Precision, F-Score 및 Elapsed Time으로 측정하였으며 DNN, Random Forest, 그리고 앙상블 등이 우수한 성능을 보였다. 선정된 분류 알고리즘으로 특정 철학자의 글에 대해 합리주의 혹은 경험주의로 분류하였으며, 그 철학자의 활동 연도를 고려하여 히스토리 맵을 생성할 수 있었다.

기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.37-62
    • /
    • 2018
  • 문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, "정보관리학회지"에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

유전자 알고리즘 및 국소 적응 오퍼레이션 기반의 의료 진단 문제 자동화 기법 연구 (Medical Diagnosis Problem Solving Based on the Combination of Genetic Algorithms and Local Adaptive Operations)

  • 이기광;한창희
    • 지능정보연구
    • /
    • 제14권2호
    • /
    • pp.193-206
    • /
    • 2008
  • 의료 진단 문제는 기정의된 특성치들로 표현되는 환자의 상태 데이터로부터 병의 유무를 판단하는 일종의 분류 문제로 간주할 수 있다. 본 연구는 혼용 유전자 알고리즘 기반의 분류방법을 도입함으로써 의료 진단 문제와 같은 다차원의 패턴 분류 문제를 해결할 수 있는 방안을 제안하고 있다. 일반적으로 분류 문제는 데이터 패턴에 존재하는 여러 클래스 간 구분경계를 생성하는 접근방법을 사용하는데, 이를 위해 본 연구에서는 일단의 영역 에이전트들을 도입하여 이들을 유전자 알고리즘 및 국소 적응조작을 혼용함으로써 데이터 패턴에 적응하도록 유도하고 있다. 일반적인 유전자 알고리즘의 진화단계를 거친 에이전트들에 적용되는 국소 적응조작은 영역 에이전트의 확장, 회피 및 재배치로 이루어지며, 각 에이전트의 적합도에 따라 이들 중 하나가 선택되어 해당 에이전트에 적용된다. 제안된 의료 진단용 분류 방법은 UCI 데이터베이스에 있는 잘 알려진 의료 데이터, 즉 간, 당뇨, 유방암 관련 진단 문제에 적용하여 검증하였다. 그 결과, 기존의 대표적인 분류기법인 최단거리이웃방법(the nearest neighbor), C4.5 알고리즘에 의한 의사 결정트리(decision tree) 및 신경망보다 우수한 진단 수행도를 나타내었다.

  • PDF

병렬 프로세서 기반의 패턴 분류 기법을 이용한 유전자 발현 데이터 분석 (Gene Expression Data Analysis Using Parallel Processor based Pattern Classification Method)

  • 최선욱;이종호
    • 전자공학회논문지CI
    • /
    • 제46권6호
    • /
    • pp.44-55
    • /
    • 2009
  • 최근 활발히 연구가 진행 중인 마이크로어레이로부터 얻어지는 유전자 발현 데이터를 이용한 질병 진단은, 데이터를 직접적으로 분석하기 힘들기 때문에 일반적으로 기계 학습 알고리즘을 사용하여 이루어져왔다. 그러나 유전자 발현 데이터를 분석함에 있어서 유전자들 간의 상호작용을 고려하는 분석이 필요하다는 최근의 연구 결과들은 기존 기계 학습 알고리즘들을 이용한 분석에 한계가 있음을 의미한다고 볼 수 있다. 본 논문에서는 특징들 사이의 고차원 상관관계를 고려 가능한 하이퍼네트워크 모델을 이용하여 유전자 발현 데이터의 분류를 수행하고 기존의 기계 학습 알고리즘들과 분류 성능을 비교한다. 또한 기존 하이퍼네트워크 모델의 단점을 개선 한 모델을 제안하고, 이를 병렬 프로세서 상에서 구현하여 처리 성능을 비교한다. 실험 결과 제안 된 모델은 기존의 기계 학습 방법들과의 비교에서도 경쟁력 있는 분류 성능을 보여주었고, 기존 하이퍼네트워크 모델 보다 안정적이고 향상된 분류 성능을 보여주었다. 또한 이를 병렬 프로세서 상에서 구현 할 경우 처리 성능을 극대화 할 수 있음을 보였다.

IDENTIFICATION OF FALSIFIED DRUGS USING NEAR-INFRARED SPECTROSCOPY

  • Scafi, Sergio H.F.;Pasquini, Celio
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.3112-3112
    • /
    • 2001
  • Near-Infrared Spectroscopy (NIRS) was investigated aiming at the identification of falsified drugs. The identification is based on comparison of the NIR spectrum of a sample with a typical spectra of an authentic drug using multivariate modelling and classification algorithms (PCA/SIMCA). Two spectrophotometers (Brimrose - Luminar 2000 and 2030), based on acoustic-optical filter (AOTF) technology, sharing the same controlling computer, software (Brimrose - Snap 2.03) and the data acquisition electronics, were employed. The Luminar 2000 scans the range 850 1800 nm and was employed for transmitance/absorbance measurements of liquids with a transflectance optical bundle probe with total optical path of 5 mm and a circular area of 0.5 $\textrm{cm}^2$. Model 2030 scans the rage 1100 2400 nm and was employed for reflectance measurement of solids drugs. 300 spectra, acquired in about 20 s, were averaged for each sample. Chemometric treatment of the spectral data, modelling and classification were performed by using the Unscrambler 7.5 software (CAMO Norway). This package provides the Principal Component Analysis (PCA) and SIMCA algorithms, used for modelling and classification, respectively. Initially, NIRS was evaluated for spectrum acquisition of various drugs, selected in order to accomplish the diversity of physico-chemical characteristics found among commercial products. Parameters which could affect the spectra of a given drug (especially if presented as solid tablets) were investigated and the results showed that the first derivative can minimize spectral changes associated with tablet geometry, physical differences in their faces and position in relation to the probe beam. The effect of ambient humidity and temperature were also investigated. The first factor needs to be controlled for model construction because the ambient humidity can cause spectral alterations that should cause the wrong classification of a real drug if the factor is not considered by the model.

  • PDF

Trace 변환과 펴지 기법을 이용한 곤충 발자국 인식 (Insect Footprint Recognition using Trace Transform and a Fuzzy Method)

  • 신복숙;차의영;우영운
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1615-1623
    • /
    • 2008
  • 이 논문에서는 곤충 발자국의 패턴을 찾아 개체를 인식하기 위해서, 개선된 SOM 알고리즘과 ART2 알고리즘을 사용하여 인식의 기본 영역을 추출한다. 또한 Trace 변환을 이용하여 발자국의 인식에 필요한 특징을 추출하고 개체를 판단하는 기법을 제안한다. 제안한 기법에서는 모폴로지 기법을 이용하여 region을 먼저 찾고, 개선된 SOM과 ART2 알고리즘을 이용하여 곤충의 크기와 종류에 관계없이 세그먼트를 추출한다. 그리고 곤충 발자국과 같이 다양한 변형이 존재하는 패턴에 적합한 특징값을 찾기 위해서 Trace 변환을 이용하고, 함수의 조합으로 재구성된 Triple 특징값을 이용하여 곤충별로 고유한 패턴을 찾아 인식 실험을 수행한다. 곤충 발자국에서 명확한 발자국과 그렇지 못한 발자국을 자동으로 결정하는 것이 매우 어렵다. 따라서 이와 같이 불확실한 대상을 제외시키지 않고 가능성의 대상으로 판단하고 분류하기 위해서 퍼지 가중치 평균을 이용하여 인식을 수행한다. 제안한 방법에 의한 곤충 발자국의 영역 추출과 인식 실험을 실시하고 그 결과를 제시하였다.

  • PDF

실시간 범죄 예측을 위한 랜덤포레스트 알고리즘 기반의 범죄 유형 분류모델 및 모니터링 인터페이스 디자인 요소 제안 (Classification Model of Types of Crime based on Random-Forest Algorithms and Monitoring Interface Design Factors for Real-time Crime Prediction)

  • 박준영;채명수;정성관
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권9호
    • /
    • pp.455-460
    • /
    • 2016
  • 최근 강도, 성폭력과 같은 중범죄들의 수위가 높아짐에 따라 범죄 예측 및 예방에 대한 중요성이 강조되고 있다. 정확한 범죄예측을 위해서는 과거 범죄기록 데이터를 기반으로 정확도 높은 범죄분류모델을 만드는 작업이 필요하며, 신속한 범죄 대응을 위한 시스템 인터페이스가 요구된다. 그러나 기존의 범죄 요소 분석 연구는 데이터 전처리에 대한 난해함으로 인해 정확도 측면에서 한계를 보이며, 범죄 모니터링 시스템은 방대한 양의 범죄 사건기록 분석 결과를 단순 제공함으로써 사용자에게 효과적인 모니터링 기능을 제공하지 못하고 있다. 따라서 본 연구는 실시간 범죄 예측을 위한 랜덤 포레스트 알고리즘 기반의 범죄 유형 분류모델 및 시스템 인터페이스 디자인 요소를 제안한다. 실험을 통해 본 연구는 제안하는 모델이 단순히 범죄기록 데이터만으로 범죄유형을 분류하는 모델 보다 우수함을 입증하였고, 기존의 범죄 모니터링 시스템 분석을 통해 실시간 범죄 모니터링을 위한 시스템 인터페이스를 설계 및 구현하였다.

링크구조분석을 이용한 스팸메일 분류 (A Spam Mail Classification Using Link Structure Analysis)

  • 이신영;길아라;김명원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권1호
    • /
    • pp.30-39
    • /
    • 2007
  • 기존의 내용기반 스팸메일 분류는 전자메일이 이미지를 많이 가지고 있고 텍스트는 적게 가지고 있을 경우에는 내용을 분석하기 어려우므로 스팸메일을 분류하는 데 한계가 있다. 이와 같은 문제를 해결하기 위하여 본 논문에서는 전자메일의 구조를 분석하는 링크구조분석 스팸메일 분류 알고리즘을 제안한다. 이것은 전자메일 안의 하이퍼링크의 개수와 하이퍼링크가 가리키는 웹 문서들이 다른 웹 문서에 의해 링크된 수를 측정하여 전자메일의 중요도를 계산한 후 의사결정트리를 학습하여 스팸메일과 정상메일을 분류한다. 또한 위의 링크구조분석 알고리즘과 하이퍼링크의 서버 주소만을 이용한 변형된 링크구조 분석 알고리즘, 그리고 SVM(support vector machine)을 이용한 내용기반 방법을 다수결 원칙으로 결합한 통합 스팸메일 분류 시스템을 제안한다. 실험 결과, 제안한 링크구조분석 알고리즘은 기존의 내용기반 방법 보다 스팸메일 분류 정확도가 94.8%로 약간 향상되었으며 또한 통합 스팸메일 분류 시스템도 내용기반 방법과 비교하여 향상된 97.7%를 나타냈다.