• 제목/요약/키워드: 범주 불균형

검색결과 35건 처리시간 0.026초

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

자질선정을 통한 국내 학술지 논문의 자동분류에 관한 연구 (An Experimental Study on the Automatic Classification of Korean Journal Articles through Feature Selection)

  • 김판준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.69-90
    • /
    • 2022
  • 국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

회사채 신용등급 예측을 위한 SVM 앙상블학습 (Ensemble Learning with Support Vector Machines for Bond Rating)

  • 김명종
    • 지능정보연구
    • /
    • 제18권2호
    • /
    • pp.29-45
    • /
    • 2012
  • 회사채 신용등급은 투자자의 입장에서는 수익률 결정의 중요한 요소이며 기업의 입장에서는 자본비용 및 기업 가치와 관련된 중요한 재무의사결정사항으로 정교한 신용등급 예측 모형의 개발은 재무 및 회계 분야에서 오랫동안 전통적인 연구 주제가 되어왔다. 그러나, 회사채 신용등급 예측 모형의 성과와 관련된 가장 중요한 문제는 등급별 데이터의 불균형 문제이다. 예측 문제에 있어서 데이터 불균형(Data imbalance) 은 사용되는 표본이 특정 범주에 편중되었을 때 나타난다. 데이터 불균형이 심화됨에 따라 범주 사이의 분류경계영역이 왜곡되므로 분류자의 학습성과가 저하되게 된다. 본 연구에서는 데이터 불균형 문제가 존재하는 다분류 문제를 효과적으로 해결하기 위한 다분류 기하평균 부스팅 기법 (Multiclass Geometric Mean-based Boosting MGM-Boost)을 제안하고자 한다. MGM-Boost 알고리즘은 부스팅 알고리즘에 기하평균 개념을 도입한 것으로 오분류된 표본에 대한 학습을 강화할 수 있으며 불균형 분포를 보이는 각 범주의 예측정확도를 동시에 고려한 학습이 가능하다는 장점이 있다. 회사채 신용등급 예측문제를 활용하여 MGM-Boost의 성과를 검증한 결과 SVM 및 AdaBoost 기법과 비교하여 통계적으로 유의적인 성과개선 효과를 보여주었으며 데이터 불균형 하에서도 벤치마킹 모형과 비교하여 견고한 학습성과를 나타냈다.

신용카드 불법현금융통 적발을 위한 축소된 앙상블 모형 (Illegal Cash Accommodation Detection Modeling Using Ensemble Size Reduction)

  • 이화경;한상범;지원철
    • 지능정보연구
    • /
    • 제16권1호
    • /
    • pp.93-116
    • /
    • 2010
  • 불법현금융통 적발모형 개발에 앙상블 접근방법을 사용하였다. 불법현금융통은 국내 신용카드사의 손익에 영향을 미치며 최근 국제화되고 있음에도 불구하고 학문적인 접근이 이루어지지 않았다. 부정행위 적발모형(Fraud Detection Model, FDM)은 데이터 불균형 문제로 인하여 좋은 성능을 얻기 어려운데, 다수의 모형을 결합하는 앙상블이 대안으로 제시되어 왔다. 앙상블에 포함된 모형들의 다양성이 보장된다면 단일모형에 비해 더 좋은 성능을 보인다는 점은 이미 인정되고 있으며, 최근 연구 결과는 학습된 모든 기본모형들을 사용하는 것보다 적절한 기본모형들만 선택하여 앙상블에 포함시키는 것이 바람직하다는 것이다. 본 논문에서는 효과적인 불법현금융통 적발을 위하여 축소된 앙상블 기법을 사용하는데, 정확성과 다양성 척도를 사용하여 앙상블에 참여할 기본모형을 선택하는 것이다. 다양성은 앙상블을 구성하는 기본모형들 사이의 불일치 (Disagreement or Ambiguity)를 의미하는데, FDM에 내재된 데이터 불균형문제를 고려하여 두 가지 측면에 중점을 두었다. 첫째, 학습 자료의 추출 과정에서 다양성을 확보하기 위한 소수 범주의 과잉추출 방법과 적절한 훈련 방법에 대해 설명하였다. 둘째, 소수범주에 초점을 맞추어 기존의 다양성 척도를 효과적인 척도로 변형시키고, 전진추가법과 후진소거법의 동적 다양성 계산법을 도입하여 앙상블에 참여할 기본모형을 평가하였다. 실험에 사용된 학습 알고리즘은 신경망, 의사결정수와 로짓 회귀분석이었으며, 동질적 앙상블과 이질적 앙상블을 구성하여 성능평가를 하였다. 실험결과 불법현금융통 적발모형에 있어 축소된 앙상블은 모든 기본모형이 포함된 앙상블과 성능 차이가 없었다. 축소된 앙상블은 앙상블 구성의 복잡성을 감소시키고 구현을 용이하게 한다는 점에서 FDM에서도 유력한 모형 수립 접근방법이 될 수 있음을 보였다.

이미지 기반 축산물 불량 탐지에서의 희소 클래스 처리 전략 (Sparse Class Processing Strategy in Image-based Livestock Defect Detection)

  • 이범호;조예성;이문용
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1720-1728
    • /
    • 2022
  • 인공지능 기술의 발전으로 산업 4.0시대가 열렸고 축산업에서도 ICT 기술이 접목된 스마트 농장의 구현이 큰 관심을 받고 있다. 그중에서도 컴퓨터 비전 기반 인공지능 기술을 접목한 축산물 및 축산 가공품의 품질 관리 기술은 스마트 축산의 핵심 기술에 해당한다. 그러나 인공지능 모형 훈련을 위한 축산물 이미지 데이터 수의 부족과 특정 범주(class)에 대한 데이터 불균형은 관련 연구 및 기술 개발에 큰 장해물이 되고 있다. 이러한 문제들을 해결하기 위해, 본 연구에서는 오버샘플링과 적대적 사례 생성기법의 활용을 제안한다. 제안되는 방법은 성공적인 불량 탐지 (Defect detection) 관점을 기반으로 하며, 이는 부족한 데이터 레이블을 효과적으로 활용하는데 필요한 방법이다. 최종적으로 실험을 통해 제안된 방법의 타당성을 확인하고 활용 전략을 검토한다.

불균형 데이터 환경에서 변수가중치를 적용한 사례기반추론 기반의 고객반응 예측 (Response Modeling for the Marketing Promotion with Weighted Case Based Reasoning Under Imbalanced Data Distribution)

  • 김은미;홍태호
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.29-45
    • /
    • 2015
  • 고객반응 예측모형은 마케팅 프로모션을 제공할 목표고객을 효과적으로 선정할 수 있도록 하여 프로모션의 효과를 극대화 할 수 있도록 해준다. 오늘날과 같은 빅데이터 환경에서는 데이터 마이닝 기법을 적용하여 고객반응 예측모형을 구축하고 있으며 본 연구에서는 사례기반추론 기반의 고객반응 예측모형을 제시하였다. 일반적으로 사례기반추론 기반의 예측모형은 타 인공지능기법에 비해 성과가 낮다고 알려져 있으나 입력변수의 중요도에 따라 가중치를 상이하게 적용함으로써 예측성과를 향상시킬 수 있다. 본 연구에서는 프로모션에 대한 고객의 반응여부에 영향을 미치는 중요도에 따라 입력변수의 가중치를 산출하여 적용하였으며 동일한 가중치를 적용한 예측모형과의 성과를 비교하였다. 목욕세제 판매데이터를 사용하여 고객반응 예측모형을 개발하고 로짓모형의 계수를 적용하여 입력변수의 중요도에 따라 가중치를 산출하였다. 실증분석 결과 각 변수의 중요도에 기반하여 가중치를 적용한 예측모형이 동일한 가중치를 적용한 예측모형보다 높은 예측성과를 보여주었다. 또한 고객 반응예측 모형과 같이 실생활의 분류문제에서는 두 범주에 속하는 데이터의 수가 현격한 차이를 보이는 불균형 데이터가 대부분이다. 이러한 데이터의 불균형 문제는 기계학습 알고리즘의 성능을 저하시키는 요인으로 작용하며 본 연구에서 제안한 Weighted CBR이 불균형 환경에서도 안정적으로 적용할 수 있는지 검증하였다. 전체데이터에서 100개의 데이터를 무작위로 추출한 불균형 환경에서 100번 반복하여 예측성과를 비교해 본 결과 본 연구에서 제안한 Weighted CBR은 불균형 환경에서도 일관된 우수한 성과를 보여주었다.

목차 정보와 kNN 분류기를 이용한 사회과학 분야 도서 자동 분류에 관한 연구 (A Study on Book Categorization in Social Sciences Using kNN Classifiers and Table of Contents Text)

  • 이용구
    • 정보관리학회지
    • /
    • 제37권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 이 연구에서는 한 대학도서관의 신착 도서 리스트 중 사회 과학 분야 6,253권에 대해 목차 정보를 이용하여 자동 분류를 적용하였다. 분류기는 kNN 알고리즘을 사용하였으며 자동 분류의 범주로 도서관에서 도서에 부여한 DDC 300대 강목을 사용하였다. 분류 자질은 도서의 서명과 목차를 사용하였으며, 목차는 인터넷 서점으로부터 Open API를 통해 획득하였다. 자동 분류 실험 결과, 목차 자질은 분류 재현율과 분류 정확률 모두를 향상시키는 좋은 자질임을 알 수 있었다. 또한 목차는 풍부한 자질로 불균형인 데이터의 과적합 문제를 완화시키는 것으로 나타났다. 법학과 교육학은 사회 과학 분야에서 특정성이 높아 서명 자질만으로도 좋은 분류 성능을 가져오는 점도 파악할 수 있었다.

이동통신서비스의 보편적 서비스화를 위한 필요요건 분석 - 제도적 측면을 중심으로- (An Analysis of the Required Factors for Universal Service of Mobile Telecommunication Service in Korea - focusing on institutional aspects-)

  • 안지영;최성호
    • 한국통신학회논문지
    • /
    • 제31권4B호
    • /
    • pp.355-363
    • /
    • 2006
  • 최근 이동통신을 통한 음정 및 데이터서비스 수요의 급증과 이를 뒷받침하는 정보통신기술의 발전은 이제 이동통신서비스가 소비자의 정보통신의 선택적 수단이 아니라 필수수단으로 진화되었음을 뒷받침하기에 충분하다고 하겠다. 그러나 이러한 이동통신의 보편화로 인한 정보통신서비스 수준의 향상의 이면에는 사용자간의 정보격차의 문제로 인해 서비스 사용으로 얻는 효용의 불균형이 심화되고 있는 것도 현실임을 부정할 수 없다. 이는 이동통신서비스의 고도화와 보편화가 진행될수록 그 정도가 더욱 심화되며 유선통신의 예와 마찬가지로 이를 단순히 시장 기능으로만 해결하기에 어려운 점이 존재한다. 따라서 이를 해결하기 위한 이동통신서비스에 대한 체계적인 정책수립이 필요하며 제도적으로 보편적 서비스 범주 내에 포함시켜야 할 필요성도 고려해야 한다고 생각된다. 본 논문에서는 기존 보편적 서비스제도의 범위에 이동통신서비스를 포함시키기 위해 필요한 조건들을 제도적인 측면에서 살펴보고, 이를 통하여 정보격차 해소, 사회복지, 균형적인 사회발전 등에 기여할 수 있는 정도를 고려해 봄으로써 이동통신서비스의 보편적서비스화가 제도적으로 타당한 범주에 속하는지에 대한 분석을 시도한다.

인물 개체 분할을 위한 맥락-의존적 비디오 데이터 보강 (Context-Dependent Video Data Augmentation for Human Instance Segmentation)

  • 전현진;이종훈;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권5호
    • /
    • pp.217-228
    • /
    • 2023
  • 비디오 개체 분할은 비디오를 구성하는 영상 프레임 각각에 대해 관심 개체 분할을 수행해야 할 뿐만 아니라, 해당 비디오를 구성하는 프레임 시퀀스 전체에 걸쳐 개체들에 대한 정확한 트래킹을 요구하기 때문에 난이도가 높은 기술이다. 특히 드라마 비디오에서 인물 개체 분할은 다양한 장소와 시간대에서 상호 작용하는 복수의 주요 등장인물들에 대한 정확한 트래킹을 요구하는 특징을 가지고 있다. 또한, 드라마 비디오 인물 개체분할은 주연 인물들과 조연 혹은 보조 출연 인물들 간의 등장 빈도에 상당한 차이가 있어 일종의 클래스 불균형 문제도 있다. 본 논문에서는 미생 드라마 비디오들을 토대로 구축한 인물 개체 분할 데이터 집합인 MHIS를 소개하고, 등장인물 클래스 간의 심각한 데이터 불균형 문제를 효과적으로 해결하기 위한 새로운 비디오 데이터 보강 기법인 CDVA를 제안한다. 기존의 비디오 데이터 보강 기법들과는 달리, 새로운 CDVA 보강 기법은 비디오들의 시-공간적 맥락을 충분히 고려해서 목표 인물이 삽입되어야 할 배경 클립 내의 위치를 결정함으로써, 보다 더 현실적인 보강 비디오들을 생성한다. 따라서 본 논문에서 제안하는 새로운 비디오 데이터 보강 기법인 CDVA는 비디오 개체 분할을 위한 심층 신경망 모델의 성능을 효과적으로 향상시킬 수 있다. 본 논문에서는 MHIS 데이터 집합을 이용한 다양한 정량 및 정성 실험들을 통해, 제안 비디오 데이터 보강 기법의 유용성과 효과를 입증한다.

한국 영화산업의 집중성과 불균형의 맥락들 (The context of concentration and polarization of Korean film industry)

  • 김미현
    • 문화경제연구
    • /
    • 제21권1호
    • /
    • pp.3-20
    • /
    • 2018
  • 본 연구는 한국 영화산업의 수직계열화 구조와 배급 및 상영시장의 집중도를 파악하고, 이 두 범주 간의 상호연관성에 대한 통합적인 맥락을 제시하고자 하였다. 한국영화 배급 및 상영시장의 집중성은 규모의 경제를 추구하고 수요의 불확실성을 방어하기 위한 산업 논리의 결과이다. 메이저 배급사는 대작영화에 자원을 집중하고 공급량을 조절함으로써 흥행위험을 방어하려는 경향이 강해지고 있으며, 최대한 많은 스크린을 확보하려는 배급 경쟁에 의해 멀티플렉스 체인의 협상력은 강화되고 있다. 수직결합 기업의 멀티플렉스는 계열관계에 따라 각 배급사의 영화에 차별적인 좌석수를 배정하는 것으로 나타났다. 그러나 수직계열화 기업마다 차별의 정도는 차이가 있으며, 상영 스크린수가 증가할수록 관객의 좌석점유율도 증가하고 있어서, 상영관이 계열관계에 따라 비합리적인 선택을 한다고 보기에는 무리가 있다. 따라서 수직결합구조가 스크린 독과점과 양극화의 원인이라는 일반화하기는 어려우며 유통시장의 집중성을 완화하고 중소영화를 지원하는 정책 방향이 요구된다.