• 제목/요약/키워드: 혼동 행렬

검색결과 33건 처리시간 0.01초

혼동 행렬을 이용한 클러스터링 문제의 수리 계획적 접근 (Mathematical Programming Application for Clustering Problems in Conjunction with Confusing Matrix)

  • 김영민;최경현
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.605-608
    • /
    • 2000
  • 혼동 행렬 (confusion matrix)은 자극 또는 인식대상(데이터)에 대한 반응을 데이터화함으로써 인식대상(데이터)의 특성분석을 통하여 복잡한 시스템을 효율적으로 통제, 관리하기 위한 분석기법에 사용된다. 클러스터링은 인식 시스템을 위한 기법으로서 다양한 분야에서 널리 활용되고 있다. 본 연구에서는 혼동 행렬을 이용한 최적화 모델을 통하여 클러스터링(Clustering) 문제의 새로운 접근법을 제시한다. 최근 수리 계획 분야에서 클러스터링 분야에 대한 연구가 계속되고 있는데 그러한 수리 모델과 혼동 행렬을 접목하여 새로운 모델을 제시한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

나이브 베이즈 분류기와 혼동 행렬을 이용한 OCR에서의 철자 교정 (Using Naïve Bayes Classifier and Confusion Matrix Spelling Correction in OCR)

  • 노경목;김창현;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-312
    • /
    • 2016
  • OCR(Optical Character Recognition)의 오류를 줄이기 위해 본 논문에서는 교정 어휘 쌍의 혼동 행렬(confusion matrix)과 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier)를 이용한 철자 교정 시스템을 제안한다. 본 시스템에서는 철자 오류 중 한글에 대한 철자 오류만을 교정하였다. 실험에 사용된 말뭉치는 한국어 원시 말뭉치와 OCR 출력 말뭉치, OCR 정답 말뭉치이다. 한국어 원시 말뭉치로부터 자소 단위의 언어 모델(language model)과 교정 후보 검색을 위한 접두사 말뭉치를 구축했고, OCR 출력 말뭉치와 OCR 정답 말뭉치로부터 교정 어휘 쌍을 추출하고, 자소 단위로 분해하여 혼동 행렬을 만들고, 이를 이용하여 오류 모델(error model)을 구축했다. 접두사 말뭉치를 이용해서 교정 후보를 찾고 나이브 베이즈 분류기를 통해 확률이 높은 교정 후보 n개를 제시하였다. 후보 n개 내에 정답 어절이 있다면 교정을 성공하였다고 판단했고, 그 결과 약 97.73%의 인식률을 가지는 OCR에서, 3개의 교정 후보를 제시하였을 때, 약 0.28% 향상된 98.01%의 인식률을 보였다. 이는 한글에 대한 오류를 교정했을 때이며, 향후 특수 문자와 숫자 등을 복합적으로 처리하여 교정을 시도한다면 더 나은 결과를 보여줄 것이라 기대한다.

  • PDF

문자 인식을 이용한 한글 문서 검색 (Hangul Document Retrieval Using Character Recognition)

  • 안재철;오일석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.544-546
    • /
    • 2001
  • 이 논문은 OCR(Optical Character Reader)로 인식된 한글 문서에서의 오인식 경향을 분석하고, 이를 이용한 한글 단어 검색 방법을 제안한다. OCR로 인식된 많은 야의 한글 문서를 기반으로 자모별 인식 빈도수를 계산하고 이를 바탕으로 초성, 중성, 중성별 인식 혼동 행렬(confusion matrix)을 구성하였다. 또한 인식 정보를 적절히 이용하기 Bayes 정리를 이용하였다. 질의어에 대한 오인식 단어의 검색 방법을 제시하고 혼동 행렬과 이 검색 방법을 바탕으로 OCR 기반 단어 검색 시스템을 구축하였다.

  • PDF

효율적인 순로코드 발생을 위한 고속 한글 주소검색 시스템 개발 (High-Speed Korean Address Searching System for Efficient Delivery Point Code Generation)

  • 김경환;이석구;신미영;남윤석
    • 정보처리학회논문지D
    • /
    • 제8D권3호
    • /
    • pp.273-284
    • /
    • 2001
  • 실제로 사용되는 주소의 분석을 통해 한글주소의 해석방법을 제안하고, 제안한 주소해석 방법을 이용한 주소 검색시스템의 구현에 대하여 서술한다. 주소 상위 및 하위영역의 일치검증을 각각 순차적으로 수행하는 2단계 과정을 통해 최종 배달점에 대한 순로코드를 발생한다. 우편 번호와 주소 상위영역 일치검증 단계에서는 우편버호를 이용하여 주소사전에서 검색된 주소단어와 인식된 문자 후보들과의 비교를 통해 우편 번호를 검증하게 되며, 주소 상위영역과 주소 하위영역이 분리된다. 주소 상위영역 일치검증 과정의 성능향상을 위해 혼동행렬을 제안하고, 주소 인식결과에 혼동행렬을 적용하여 검증 성공률의 향상을 통해 혼동행렬의 유용성을 확인하였다. 주소 하위영역 검증은 번지정보와 건물명 정보를 이용하여 순로코드를 발생하였다. 부분적으로 완성된 광주와 부산지역의 DPF(Delivery Point File)와 레이블링된 데이터를 이용해 분석 가능한 주소에 대해 높은 정확도를 가지고 순로코드를 발생함을 확인할 수 있었다.

  • PDF

혼동행렬의 상관계수를 이용한 최적분류점 (Optimal threshold using the correlation coefficient for the confusion matrix)

  • 홍종선;오세현;최예원
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.77-91
    • /
    • 2022
  • 의학통계와 신용평가 분야에서 혼합분포함수를 판별하는 최적분류점 추정하기 위하여 판별력을 측정하는 다양한 정확도 측도들이 존재한다. 최근에 혼동행렬 빈도수로 표현되는 Matthews의 상관계수와 정밀도와 재현율의 조화평균인 F1 통계량의 정확도 측도들이 최적분류점을 추정하는데 연구되었다. 본 연구에서는 이런 정확도 측도들 중에서 표본크기에 의존하는 정확도 측도들은 두 표본크기 차이가 많은 경우에 최적분류점을 설정하는데 적절하지 않음을 발견한다. 그리고 대안적인 정확도 측도로 혼동행렬의 비율들의 함수인 상관계수를 정의하고, 이를 최대화하는 분류점을 최적분류점으로 추정하는 방법을 제안하고 이 방법의 유용성과 활용성에 대하여 토론한다.

한국어 자모 혼동행렬 기반 유사 외래어 표기 검출 기법 (Equivalent Writing of Loanwords Detection Method based on Korean Alphabet Confusion Matrix)

  • 권순호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.433-436
    • /
    • 2010
  • 최근 한국어 문서에는 한국어뿐만 아니라 외래어 표기 등이 혼합되어 사용되고 있다. 외래어 표기는 한 단어에 대해 한 개만 존재하는 것이 아니라 여러 개의 다른 표기로 사용되고 있다. 이러한 표기상 불일치는 하나의 단어가 다른 개념으로 인식되어 정보검색 시스템의 성능 저하의 원인이 된다. 따라서 정보검색 시스템의 성능 향상을 위해 여러 외래어 표기를 같은 개념으로 인식하는 시스템이 필요하다. 본 논문에서는 한국어 자모 혼동행렬을 기반으로 한 유사 외래어 표기 검출 기법을 제안한다. 제안한 기법에 따라 유사 외래어 표기를 검출해줌으로써 정보검색 시스템의 성능을 향상할 수 있다.

두 분류 분포를 위한 오즈 곡선 (Odds curve for two classification distributions)

  • 홍종선;오세현;오태규
    • 응용통계연구
    • /
    • 제34권2호
    • /
    • pp.225-238
    • /
    • 2021
  • 이진분류모형의 성능을 탐색하는 시각적인 대표적인 방법인 ROC 곡선과 TOC 곡선 그리고 TROC 곡선은 혼동행렬을 구성하는 TP, TN, FP, FN 그리고 이들의 비율인 TPR, TNR, FPR, FNR으로 구현된다. 본 연구에서는 두 종류의 비율비인 오즈를 고려하여 단위면적인 정사각형에서의 구현하는 오즈 곡선을 제안하고, ROC 곡선과의 관계를 보인다. 오즈 곡선에서 판별력을 측정하는 두 종류의 측도를 제안하고, 오즈 곡선들의 형태를 바탕으로 두 종류의 측도를 이용하여 두 분류 분포의 판단 기준을 설정한다. 본 연구에서 제안한 오즈 곡선은 다른 시각적인 방법 등과 같이 유용하게 사용할 수 있으며, 오즈 곡선의 판별력을 측정하는 두 종류의 측도들은 분류 성능을 판단하는 대안적인 방법으로 같이 이용할 수 있다.

중력장 가속도, 중력 가속도, 그리고 가속도계 측정값 사이의 관계

  • 이형근
    • 제어로봇시스템학회지
    • /
    • 제16권3호
    • /
    • pp.40-45
    • /
    • 2010
  • 물체의 운동을 측정하기 위하여 관성 센서(inertial sensor)에 대한 배경 지식이 없는 사용자가 가속도계(accelerometer)를 사용하고자 할 경우 센서의 이름이 주는 혼동에 의하여 물체의 운동 가속도(acceleration)를 쉽게 얻어낼 수 있으리라 기대하게 된다. 반면, 가속도계가 실제 측정하여 주는 값은 비력 가속도(acceleration due to specific force)에 해당되므로 적절한 처리를 부가하지 않으면 기대한 바와 같이 물체의 운동 가속도를 얻을 수 없다. 가속도계의 측정값으로부터 운동 가속도를 추출하기 위해서는 중력장 가속도 (gravitational acceleration), 중력 가속도 (acceleration due to gravity), 비력 가속도, 그리고 운동 가속도 사이의 관계를 명확하게 구분 이해할 필요가 있다. 본 고에서는 앞선 고들에서 다룬(막대) 벡터, 좌표값, 좌표계, 좌표변환행렬, 그리고 코리올리 효과 등의 개념을 확장하여 다양한 개념의 가속도들을 구분 설명하였다.

다층퍼셉트론 신경망 모형을 이용한 한반도 가뭄 예측성 평가

  • 정민수;장호원;이주헌;문영일
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.86-86
    • /
    • 2016
  • 본 연구는 가뭄 예측에 대한 오차를 알고리즘과 결합하여 다층 퍼셉트론 (Multi-layer Perceptron, MLP) 네트워크 구조를 인공신경망 모형에 적용하고, 표준강수지수(Standard Precipitation Index, SPI)를 입 력 및 출력 변수로 구성하여 가뭄예측을 시도하였다. 예측모델을 평가하기 위해 기상청 산하의 59개 관측소에 대한 1980년부터 2015년까지의 기상자료를 적용하였으며, 수립된 자료를 활용하여 한반도 전역의 가뭄에 대한 시공간적인 분석을 수행하였다. 단기가뭄 예측성능을 평가하기 위해 2000년에서 2015년까지 16년간의 모의결과를 ROC 분석을 통하여 시공간적 단기가뭄 예측성능을 평가하고 혼동행렬(Conversion Matrix) 구성에 대한 조건적 확률의 다각적 검토를 통해 모델 예측에 대한 정확성(Accuracy), 신뢰성(Precision) 등 다양한 예측성능에 대한 평가를 수행하고 2016년 가뭄전망을 제시하고자 한다.

  • PDF