• 제목/요약/키워드: 비교 분류

검색결과 7,532건 처리시간 0.037초

계층적 분류체계를 적용한 한국질병사인분류 예측 모델의 개선 (The improvement of Korean Standard Classification of Diseases prediction model by applying the hierarchical classification system)

  • 정근영;이주상;선주오;정석원;신현진;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.59-64
    • /
    • 2022
  • 한국표준질병사인분류(KCD)는 사람의 질병과 사망 원인을 유사성에 따라 체계적으로 유형화한 분류체계이다. KCD는 계층적 분류체계로 구성되어 있어 분류마다 연관성이 존재하지만, 일반적인 텍스트 분류 모델은 각각의 분류를 독립적으로 예측하기 때문에 계층적 정보를 반영하는 데 한계가 있다. 본 논문은 계층적 분류체계를 적용한 KCD 예측 모델을 제안한다. 제안 방법의 효과를 입증하기 위해 비교 실험을 진행한 결과 F1-score 기준 최대 0.5%p의 성능 향상을 확인할 수 있었다. 특히 비교 모델이 잘 예측하지 못했던 저빈도의 KCD에 대해서 제안 모델은 F1-score 기준 최대 1.1%p의 성능이 향상되었다.

  • PDF

자질선정에 따른 Naive Bayesian 분류기의 성능 비교 (Performance Evaluation of a Naive Bayesian Classifier using various Feature Selection Methods)

  • 국민상;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2000년도 제7회 학술대회 논문집
    • /
    • pp.33-36
    • /
    • 2000
  • 베이즈 확률을 이용한 분류기는 자동분류 초기부터 사용되어 아직까지 이 분야에서 가장 많이 사용되는 분류기 중 하나이다. 본 논문에서는 KTSET 문서에서 임의로 추출한 198건의 정보과학회 관련 논문의 제목 및 초록을 대상으로 베이즈 확률을 이용한 문서의 자동분류 실험을 수행하였으며, 더불어 Naive Bayesian 분류기에 가장 적합한 자질선정 방법을 찾고자 카이제곱 통계량, 상호정보량 및 기대상호정보량, 정보획득량, 역문헌빈도, 역카테고리빈도 등 6가지의 자질선정 기준을 실험하였다. 실험 결과는 카이제곱 통계량을 이용한 분류 실험의 성능이 가장 좋았고, 기대상호정보량과 정보획득량, 역카테고리빈도 또한 자질수에 큰 영향을 받지 않고 비교적 안정적인 성능을 보였다.

  • PDF

문서분류 기법을 이용한 웹 문서 분류의 실험적 비교 (Empirical Analysis & Comparisons of Web Document Classification Methods)

  • 이상순;최정민;장근;이병수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.154-156
    • /
    • 2002
  • 인터넷의 발전으로 우리는 많은 정보와 지식을 인터넷에서 제공받을 수 있으며 HTML, 뉴스그룹 문서, 전자메일 등의 웹 문서로 존재한다. 이러한 웹 문서들은 여러가지 목적으로 분류해야 할 필요가 있으며 이를 적용한 시스템으로는 Personal WebWatcher, InfoFinder, Webby, NewT 등이 있다. 웹 문서 분류 시스템에서는 문서분류 기법을 사용하여 웹 문서의 소속 클래스를 결정하는데 문서분류를 위한 기법 중 대표적인 알고리즘으로 나이브 베이지안(Naive Baysian), k-NN(k-Nearest Neighbor), TFIDF(Term Frequency Inverse Document Frequency)방법을 이용한다. 본 논문에서는 웹 문서를 대상으로 이러한 문서분류 알고리즘 각각의 성능을 비교 및 평가하고자 한다.

  • PDF

MathML 수식 분류를 위한 자질 조합 비교 연구 (A Comparative Study on Feature Combination for MathML Formula Classification)

  • 김신일;양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.37-41
    • /
    • 2010
  • 본 논문에서는 Mathematical Markup Language(MathML) 형식으로 작성된 수학식 분류를 위해 필요한 자질과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 이것은 MathML 형식의 수학식을 분석하기 위한 전처리 작업으로, 연산자의 모호성을 해소하기 위한 가장 기본적인 단계에 해당한다고 볼 수 있다. 실험에 사용되는 기본자질(Baseline)은 MathML 태그 정보와 연산자이고, 여기에 다른 자질들을 추가하며 가장 높은 분류 성능을 가지는 자질을 찾는 방식으로 진행하였다. 학습은 지지벡터기기(Support Vector Machine: SVM)를 사용하였고 분류하고자 하는 단원은 '수학의 정석' 책을 토대로 총 12개(집합, 명제, 미분, 적분 등)로 나누었다. 실험을 통해 MathML 문서 안에서 가장 유용한 자질이 '식별자&연산자 바이그램'인 것을 알 수 있었고, 여러 가지 자질들을 조합하여 수학식을 분류한 결과 92.5%의 성능으로 분류하는 것을 확인할 수 있었다.

  • PDF

가뭄심도 분류기준의 개선방안 제시 (Development on Classification Standard of Drought Severity)

  • 권진주;안재현;김태웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2012년도 학술발표회
    • /
    • pp.407-407
    • /
    • 2012
  • 우리나라 뿐 아니라 전 세계적으로 지구온난화에 따른 기후변화에 의해 홍수 및 이상가뭄이 빈발하고 있다. 또한 산업화와 도시화에 따른 물수요 및 각종 오폐수의 증가로 수질오염도 심화되어 물 사용의 한계를 느끼게 되는 심각한 상황을 맞이하고 있다. 특히 우리나라는 1990년 이후 남부지역을 중심으로 겨울에서 봄철까지의 만성적인 가뭄 횟수가 증가하고 여름철에는 태풍과 집중호우가 빈번하게 발생함으로써, 가뭄 및 홍수로 인한 피해가 늘어나고 있는 실정이다(한국수자원공사, 2002). 이러한 상황에서 가뭄은 홍수에 비해 체계적인 종합대책 마련이 미비한 실정이다. 가뭄은 불가피성과 반복성을 가진 자연 현상이므로 가뭄 발생 전 사전대비계획과 가뭄발생시 가뭄관리체계 구축을 통해 그 피해를 최소화해야 한다. 또한 가뭄의 특성상 다른 자연재해와는 달리 진행속도가 느리므로 사전에 대처할 수 있는 시간적 여유가 있다. 따라서 가뭄 진행상황의 모니터링을 통해 신속한 대처와 피해경감 효과를 기대할 수 있다. 본 연구에서는 대상지역의 가뭄심도를 평가하여 가뭄상황에 대처하고자 우리나라에 적합한 가뭄 분류기준을 제시하였다. 관측년수 30년 이상의 강우자료를 확보한 61개 지점에 대해 1973년부터 37년 치의 월강우량 자료를 사용하였고 현 정부기관에서 사용되고 있는 가뭄상황단계를 그대로 활용하여 본 연구에서도 통일화된 가뭄 구간을 총 4등급으로 구분하였다. 한국수자원공사에서 제시한 주요가뭄발생현황을 참고하여 우리나라에 맞는 가뭄심도의 분류기준을 가뭄 발생의 누가 확률 98-100%를 예외적인 가뭄(Exceptional Drought), 94-98%를 극심 가뭄(Extreme Drought), 90-94%는 심한 가뭄(Severe Drought), 86-90%는 보통 가뭄(Moderate Drought)으로 구분하였다. 각 지점의 가뭄지수(SPI, PDSI)를 내림차순으로 작성하여 가뭄심도 분류기준에 맞는 가뭄지수의 정량적 값을 산정하였다. SPI와 PDSI의 가뭄심도 분류 결과와 실제 가뭄을 비교하기 위해 년 단위 비교와 월 단위 비교를 분석한 결과, 년 단위 비교와 SPI의 월 단위 비교는 각 지역의 가뭄지수 평가가 대부분 일치하게 나타났으나 같은 기간의 PDSI의 월 단위 비교는 실제 기록과 분석치가 일치하지 않았다. 이는 이들 지수의 상호보완에 대한 추후 연구의 필요성을 보여주는 것으로 판단된다.

  • PDF

인트라넷 기반의 최적의 웹문서 자동 분류기법 선정 (The selection of Best suited Automatic Web Document Classification Based on Intranet)

  • 김국희;윤희병
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2004년도 추계학술대회 학술발표 논문집 제14권 제2호
    • /
    • pp.423-426
    • /
    • 2004
  • 인트라넷에서는 증가하는 웹문서의 검색을 목적으로 웹 검색엔진의 도입이 활발히 진행 중이며 대부분 찾아야할 키워드를 알고 접근하는 검색엔진 형태이다. 그러나 사용자가 무엇을 찾아야 하는지 모르는 경우 웹문서 분류체계는 효율적인 방법을 제시할 수 있다. 일부 구축되어 있는 분류체계는 수작업에 의한 분류로 인해 증가하는 웹문서의 양에 효율적으로 대처하기 곤란하므로 자동분류기법을 활용한 분류가 더 효율적일 것이다. 본 논문에서는 국방인트라넷의 수작업으로 구축된 분류체계를 대상으로 용어 가중치를 계산하는 방법을 달리하여 다양한 분류기법을 적용하여 성능을 비교평가하고 웹문서 자동분류시스템에 적용하여 분류성능의 향상을 도모하고자 한다.

  • PDF

일반국도 도로특성분류를 위한 통계적 군집분석과 Kohonen Self-Organizing Maps의 비교연구 (A Comparative Study on Statistical Clustering Methods and Kohonen Self-Organizing Maps for Highway Characteristic Classification of National Highway)

  • 조준한;김성호
    • 대한토목학회논문집
    • /
    • 제29권3D호
    • /
    • pp.347-356
    • /
    • 2009
  • 본 연구는 기존의 도로기능분류 정의와 방법론을 벗어나 교통특성에 따른 도로분류 방법론인 도로특성분류를 기초로 분석을 수행하였다. 도로특성분류에 대한 일련의 과정 중에서 다양한 교통특성을 반영하는 설명변수를 기초로 요인점수를 산출하고, 동질한 도로구간을 그룹핑하는 군집화 분석과정과 적정 군집수 도출에 따른 군집결과비교에 본 연구는 초점을 맞추었다. 도로분류를 위해 병합적 계층 군집분석인 Ward법, 비계층적 군집분석인 K-means법, 자율신경 회로망을 이용한 K-SOM을 사용하여 비교분석하였다. 각 군집기법에 대한 결과를 토대로 비교분석한 결과, 군집 수 5 이하에서는 K-means법, 군집 수 14 이상에서는 Kohonen selforganizing maps가 가장 우수한 것으로 나타났으며, 군집수 5~9사이에서는 Ward법과 Kmeans법의 군집 성능이 불규칙한 패턴을 보임에 따라 세밀한 결과분석을 통해 우수성을 결정하는 것이 바람직할 것으로 분석되었다. 본 연구결과는 다양한 교통특성을 고려한 도로구간의 군집 속성을 분석하고 예측하는 분류화 작업에 중요한 기초적인 자료로 사용될 것으로 기대된다.

불균형 자료에 대한 분류분석 (Classification Analysis for Unbalanced Data)

  • 김동아;강수연;송종우
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.495-509
    • /
    • 2015
  • 일반적인 2집단 분류(2-class classification)의 경우, 두 집단의 비율이 크게 차이나지 않는 경우가 많다. 본 논문에서는 두 집단의 비율이 크게 차이나는 불균형 데이터(unbalanced data)의 분류 문제에 대해서 다루고자 한다. 불균형 데이터의 분류방법은 균형이 맞는 데이터(balanced data)의 경우보다 분류하기 어려운 경우가 많다. 이런 자료에서 보통의 분류모형을 적용하게 되면 많은 경우에 대부분의 관측치가 큰 집단으로 분류 되는 경우가 많은데 실질적인 어플리케이션에서는 이런 오분류가 손해가 더 큰 경우가 대부분이다. 우리는 sampling 기법을 이용하여 다양한 분류 방법론의 성능을 비교 분석 하였다. 또한 비대칭 손실(asymmetric loss)을 가정한 경우에 어떤 방법론이 가장 작은 loss를 생성하는 지를 비교하였다. 성능 비교를 위해서는 오분류율(misclassification rate), G-mean, ROC, 그리고 AUC(Area under the curve) 등을 이용하였다.

지상 분광반사자료를 훈련샘플로 이용한 감독분류의 정확도 평가: 세종시 금남면을 사례로 (Accuracy Assessment of Supervised Classification using Training Samples Acquired by a Field Spectroradiometer: A Case Study for Kumnam-myun, Sejong City)

  • 신정일;김익재;김동욱
    • 대한공간정보학회지
    • /
    • 제24권1호
    • /
    • pp.121-128
    • /
    • 2016
  • 많은 연구들에서 영상자료와 분류 알고리즘 측면에서 분류정확도를 비교하였지만, 참조자료 또는 분석자에 의존하는 훈련샘플에 의한 분류정확도 비교와 관련된 연구는 부족한 실정이다. 본 연구는 감독분류에 있어 훈련샘플로써 지상 분광반사자료의 유용성을 평가하고자 하였다. 이를 위하여 초분광영상과 다중분광영상을 대상으로 영상 수집 훈련샘플과 지상 분광반사자료를 사용하여 분류 정확도를 비교하였다. 그 결과 영상 수집 훈련샘플 사용 시 초분 광영상과 다중분광영상에서 공통적으로 약 90%의 분류정확도를 얻을 수 있었다. 그러나 지상 분광반사자료를 훈련 샘플로 사용하면 초분광영상의 경우 약 10%p, 다중분광영상의 경우 약 20%p의 분류정확도 감소가 발생하였다. 특히 다중분광영상에서 분광반사특성이 유사하게 나타나는 클래스들의 경우 분류정확도가 초분광영상에 비해 매우 낮게 나타났다. 따라서 지상 분광반사자료는 다중분광영상에 적용하는 데에는 한계가 있지만, 초분광영상을 이용한 토지피복분류에 있어 유용한 훈련샘플이 될 수 있다.

국내 분류체계와 학술표준분류체계의 비교·분석 연구 (A Comparative and Analysis Study on the Korean Classification System and the Academic Standard Classification System)

  • 노영희;양정모;강지혜;김용환;이종욱;왕동호
    • 한국비블리아학회지
    • /
    • 제33권2호
    • /
    • pp.55-73
    • /
    • 2022
  • 본 연구는 국내 분류체계의 사례를 조사하고 학술표준분류체계와 비교·분석하여 향후 개선 방향성을 도출하고자 국내 각 분야에서 운영되는 분류체계의 사례를 살펴보았다. 이를 바탕으로 제시하는 학술표준분류체계의 향후 개선 방향성은 다음과 같다. 첫째, 학술표준분류체계의 지속적 발전을 위해서 법률로서 분류체계의 운영을 명확하게 보장하는 것이 필요한 것으로 보인다. 둘째, 범용성 넓은 분류체계의 제작으로 학문연구 시 국내외 자료 수집 및 비교를 원활하게 할 수 있도록 현안과 세계적 범용성을 모두 충족하는 포괄적 분류원칙으로 개선해 나가야 한다. 셋째, 학술표준분류체계의 명확한 개정주기 선정이 필요하며, 방대한 분야에 걸친 학문 분야를 반영하기 위해서는 5년 주기로 개정을 진행하는 것이 적절한 것으로 보인다. 현재 이와 같은 국내 분류체계에 관한 연구가 부족한 실정으로 향후 이와 같은 조사가 지속적으로 이루어져 국내 분류체계에 대한 지속적 관심과 연구가 필요하다.