• 제목/요약/키워드: 정분류율

검색결과 28건 처리시간 0.024초

로지스틱회귀모형의 로버스트 추정을 위한 알고리즘 (Algorithm for the Robust Estimation in Logistic Regression)

  • 김부용;강명욱;최미애
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.551-559
    • /
    • 2007
  • 로지스틱회귀에서 일반적으로 사용되는 최대우도추정법은 이상점에 대해 로버스트 하지 않다. 따라서 본 논문에서는 로지스틱회귀모형의 로버스트 추정을 위한 알고리즘을 제안하고자 한다. 이 알고리즘은 V-마스크 형태의 경계기준에 의해 나쁜 지렛점과 수직이상점을 식별하고, 식별 결과를 바탕으로 이상점의 영향력을 감소시키기 위한 효과적인 방안을 모색한다. 이상점의 영향력 감소는 가중치와 조정치를 적절히 선정함으로 가능하며, 그 결과 붕괴점이 높은 추정치를 얻게 된다. 제안된 알고리즘을 다양한 자료에 적용하여 정분류율을 측정하여 비교하였는데, 새로운 알고리즘이 최대우도추정보다 정확한 분류를 해 주는 것으로 평가되었다.

데이터 마이닝을 이용한 신인성검사 판정 연구 - 복무적합도검사를 중심으로 - (A Study on Assessment of Personality Test using Data Mining)

  • 박영길;인호;김능회;이정빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.1373-1376
    • /
    • 2012
  • 복무적합도 검사는 정신질환이나 사고가능성이 있는 병사를 감별하고, 입대 후 적응문제로 조기 전역할 수 있는 집단을 예측하는 신인성검사 중 하나로, 현재 군에서 징병 및 입영단계에 실시하는 인성검사이다. 이는 전체 검사대상자를 상대로 정신과적 문제 식별을 위한 개별면담이 불가능하기 때문에 위 검사를 통해 대상자를 효율적으로 선별하기 위함이다. 본 연구는 데이터 마이닝을 통해 복무적합도 검사의 판정을 예측 할 수 있을지 확인하고자 하였다. 이를 위해 데이터 마이닝의 기법 중 회귀분석의 로지스틱 회귀분석 기법이 복무적합도검사 판정에 우수한 성능을 보임을 확인하였고, 로지스틱 회귀분석의 추정된 회귀계수를 이용하여 만든 반응확률에 대한 예측 모형식은 높은 정분류율을 보였고 평가 결과 통계적으로 의미가 있음을 증명하였다. 따라서 본 연구 결과를 활용하면 소수의 문항으로 복무적합도 검사 이전의 선별용 검사 개발이나 자가 진단용 검사 개발로 활용이 가능 할 것으로 기대한다.

랜섬웨어 탐지를 위한 동적 분석 자료에서의 변수 선택 및 분류에 관한 연구 (A study on variable selection and classification in dynamic analysis data for ransomware detection)

  • 이승환;황진수
    • 응용통계연구
    • /
    • 제31권4호
    • /
    • pp.497-505
    • /
    • 2018
  • 최근 랜섬웨어는 일반 PC 사용자에 비해 상대적으로 수준 높은 보안 체계를 갖추고 있는 기업과 정부 기관에 침입하여 상당한 피해를 입히는 등 기존 보안 체계의 허점을 찾아 진화하는 모습을 보이고 있다. 이처럼 계속해서 변화하는 랜섬웨어를 탐지하기 위해 랜섬웨어의 특징을 파악하는 정적 분석과 동적 분석과 관련된 연구가 활발히 이루어지고 있다. 본 연구에서는 582개의 랜섬웨어 샘플과 942개의 정상 샘플 프로그램을 쿠쿠 샌드박스 가상환경 내에서 실행시킨 뒤, PC에서 이루어지는 30,967가지의 행동 여부를 기록한 동적 분석 자료를 활용하여 랜섬웨어 분류에 유의한 변수를 탐색하기 위한 여러 변수 선택 방법의 적용과 랜섬웨어 분류를 위한 기계학습 모형들을 구축하고자 하였다. 변수 선택법으로 LASSO와 이항변수 만으로 이루어진 고차원 자료라는 특성을 활용하기 위한 카이제곱검정을 이용한 변수 선택, 선행 연구에서 이용된 방법인 상호정보를 이용한 변수 선택법을 적용하였으며 기계 학습 모형으로는 능형 로지스틱 회귀, 서포트 벡터 머신, 랜덤 포레스트, XGBoost가 활용되었다. 연구 결과, 정상 프로그램과 구별되는 랜섬웨어 프로그램만의 특징적인 행동을 확인할 수 있었으며 여러 변수 선택법과 기계학습 분류 모형들의 조합 중, 주어진 자료에서 카이제곱검정을 이용한 변수 선택법과 랜덤 포레스트 모형의 조합이 가장 높은 탐지율과 정분류율을 보이는 것을 확인하였다.

화장품구매 자료를 통한 고객 구매행태 분석 (A study on the behavior of cosmetic customers)

  • 조대현;김병수;석경하;이종언;김종성;김선화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제20권4호
    • /
    • pp.615-627
    • /
    • 2009
  • 본 연구의 목적은 효과적인 마케팅전략 수립에 도움이 되는 정보를 제공하는 데 있다. 이를 위하여 화장품구매 자료로부터 고객 구매형태와 재구매 간의 관계를 분석하여 고객충성도 예측모형을 개발하였다. 고객충성도는 재구매 가능성으로 측정하였다. 본 연구에서 사용된 자료는 국내의 한 화장품회사 고객들의 2000년부터 2008년까지 9년간의 구매자료 (432,528명, 2,440,107건)이다. 예측모형의 목표변수는 재구매 유무이고, 설명변수는 구매수량, 구매액, 휴면기간 등의 기본변수와 구매횟수와 거래 일자를 이용한 가공변수들이다. 충성도 예측모형은 데이터마이닝 기법인 로지스틱회귀, 의사결정나무 및 신경망모형을 사용하였다. 예측모형평가의 측도로는 하이드게 점수를 사용하였으며, 최대의 하이드게 점수를 가지는 분계점을 선택하였다. 각예측모형에서 선택된 변수는 유사하며, 모형비교 결과 세 모형의 효율과 평가측도의 차이는 크지 않았다. 정분류율이 다소 높고 해석과 활용이 쉬운 의사결정나무모형을 최종모형으로 선택했다.

  • PDF

사고위치별 로지스틱 회귀 교통사고 모형 - 청주시 4지 신호교차로를 중심으로 - (Logistic Regression Accident Models by Location in the Case of Cheong-ju 4-Legged Signalized Intersections)

  • 박병호;양정모;김준용
    • 한국도로학회논문집
    • /
    • 제11권2호
    • /
    • pp.17-25
    • /
    • 2009
  • 본 연구의 목적은 사고위치별(유입부, 유출부, 교차로내 및 횡단보도) 로지스틱 회귀 교통사고 모형을 개발하는 것이다. 충북지방경찰청의 2004$\sim$2005년도 사고 자료와 현장조사 자료를 근거로, 교통사고와 관련된 기하구조 요소, 환경 요소 등이 분석되었다. 개발된 모형은 카이제곱 p 값은 0.000 그리고 Nagelkerke $R^2$값 0.363$\sim$0.819로 모두 통계적으로 유의한 것으로 분석된다. 개발된 모형의 공통 사고요인은 교통량, 횡단거리 및 좌회전전용차로이며, 특정변수는 교차로내 사고모형의 부도로 교통량, 그리고 횡단보도 사고모형의 주도로 U턴인 것으로 나타나고 있다. Hosmer & Lomeshow 검정은 유입부를 제외한 모형들은 p값이 0.05보다 크기 때문에 통계적으로 적합한 것으로 평가된다. 또한 정분류율 결과는 모든 모형식이 73.9% 이상으로 높은 예측력을 보이는 것으로 분석된다.

  • PDF

혁신형 중소기업 기술금융 지원사업의 적절성에 대한 실증연구 (A Empirical Study on the Relevance of Technology Finance Supporting Business for Technologically Innovative SMEs)

  • 성웅현
    • 기술혁신학회지
    • /
    • 제16권1호
    • /
    • pp.303-322
    • /
    • 2013
  • 혁신형 중소기업 기술금융의 지속적인 확대와 발전을 위해서 기술금융 지원사업의 적절성이 요구된다. 본 연구에서 기술금융 수혜기업의 선정이 사업 목적과 취지에 적합한지 여부를 실증 분석하였다. 기술금융 여신이 발생될 확률은 기술력등급이 높을수록, 영업이익률이 높을수록 증가하는 것으로 나타났다. 반면에 자본금과 업력이 증가할수록 기술금융 여신 승인이 발생될 확률은 점진적으로 감소하는 것으로 나타났다. 로지스틱 분석결과 기술력 등급과 기업의 주요 특성이 기술금융 수혜기업 선정에 유의한 영향을 미친 것으로 나타났다. 그러나 모형의 적합성인 정분류율이 높지 않기 때문에, 기술금융의 적절성을 높이기 위한 개선을 제안하였다. 그리고 회귀분석 결과 대출금 규모와 기술력 등급사이에 연관성은 유의하지 않게 나타났다. 본 연구결과와 제안은 기술금융 결정의 적절성과 신뢰성을 확보하는 데 기여할 것이다.

  • PDF

남한지역 겨울철 황사출현일수에 대한 범주 예측모형 개발 (Binary Forecast of Asian Dust Days over South Korea in the Winter Season)

  • 손건태;이효진;김승범
    • 응용통계연구
    • /
    • 제24권3호
    • /
    • pp.535-546
    • /
    • 2011
  • 본 연구는 겨울철 남한지역 황사출현일수에 대한 이 범주 계절예측모형 개발을 목적으로 수행되었다. 최근 31년간 관측된 황사출현일수를 예측량으로 하고, 황사발원지 기상요소(지상기온, 강수량, 강설량, 지상풍속)에 대한 NCEP 재분석자료 예측치와 광역규모 기후지수들을 잠재적 예측인자로 사용하였다. 월별로 구분하여 예측모형을 개발하기 위하여 네 종류 통계모형(중회귀모형, 로지스틱 회귀모형, 의사결정나무모형, 지지벡터기계)을 각각 적용하였다. 예측모형 평가측도인 정분류율, 탐지확률, 잘못된 경고를 사용하여 모형 비교하고 예측모형을 제안하였다.

히스토그램과 퍼지 기법을 이용한 레이저 용접 결함 인식에 관한 연구 (A Study on Defect Recognition of Laser Welding using Histogram and Fuzzy Techniques)

  • 장영건
    • 전기전자학회논문지
    • /
    • 제5권2호
    • /
    • pp.190-200
    • /
    • 2001
  • 본 논문은 용접이상을 검출하기 위한 특징벡터의 선택과 퍼지 기술을 사용한 용접이상 분류기의 설계 및 구현에 관한 것이다. 용접이상 특징 벡터로써 시간 영역에서 절대적분치, 영교차수를, 주파수 영역에서 파워 스펙트럼 계수를, 두 영역 모두를 고려하여 히스토그램을 비교하였다. 그래프 분석에 의하여 특징벡터로서 히스토그램을 선택하였고, 상대 히스토그램의 최대 빈도수와 대응 구간 값이 정상 용접과 용입불량을 구분하는 데 가장 유효하다는 것을 발견하였다. 이 특징 벡터를 사용하여 퍼지 용접이상 분류기를 구현하였고, 695개의 용접 데이터 프레임에 대하여 시험하여 정분류율이 92.96%을 보여, 그 유효성을 입증하였다. 실험실에서의 결과로써 실제적인 산업용 레이저 용접 검사기로써 상대적 히스토그램을 이용한 퍼지 용접이상 분류기가 효과적임을 알 수 있다.

  • PDF

다범주 자료의 다항로짓 모형과 로지스틱 회귀모형 비교;장애연금 특성분석 중심으로 (Comparison of Multinomial Logit and Logistic Regression on Disability Pensioners' Characteristic)

  • 김미정
    • 응용통계연구
    • /
    • 제21권4호
    • /
    • pp.589-602
    • /
    • 2008
  • 순위형 다범주 자료에 있어서 범주값의 증감에 대한 설명변수의 특성분석을 위하여 다항로짓모형을 적합하여 분석하고 로지스틱 회귀모형을 적합하여 분석한 결과와 비교하였다. 이를 통하여 장애연금 수급자자료의 재정추계를 위해 필요한 일곱 가지 요인인 성별, 수급나이, 가입기간, 가입종별, 소득활동여부, 소득수준, 장애원인이 장애등급에 미치는 영향을 파악하였다. 일곱 요인 모두 장애응급에 대한 연관성이 있음을 확인하였고 이 가운데 다섯 요인은 장애등급의 증감에 있어서도 일정한 추세를 보였으나, 장애원인과 소득수준은 장애등급의 증감에는 일정한 추세를 보이지 않음을 확인하였다. 본 연구의 결과는 장애연금 관리방안을 모색하는데 있어서 장애등급에 따른 설명 요인의 특성을 반영하는데 필요한 가이드라인을 제공할 수 있을 것으로 기대한다. 장애등급 분류에 있어서 다중분류의 정분류율은 각각 42.56%와 42.43%로 로지스틱 회귀모형의 경우 다중로짓 모형의 경우보다 다소 높았지만 거의 비슷한 정확도를 보였다.

계층적 신경망을 이용한 객체 영상 분류 (Object Image Classification Using Hierarchical Neural Network)

  • 김종호;김상균;신범주
    • 한국산업정보학회논문지
    • /
    • 제11권1호
    • /
    • pp.77-85
    • /
    • 2006
  • 본 논문에서는 내용기반 영상 분류를 위한 방법론으로써 신경망을 이용한 계층적 분류 방법을 제안한다. 분류 대상 영상은 인터넷상의 다양한 영상들 중에서 전경과 배경의 구분이 있는 객체 영상이다. 전처리 과정에서 영역 분할을 이용하여 영상 내에서 배경을 제거하고 객체 영역을 추출한다. 분류를 위한 특징으로는 웨이블릿 변환 후 추출된 형태 특징과 질감 특징을 이용한다. 추출된 특징 값들을 Principal Component Analysis(PCA)와 K-means를 이용해서 군집화 시키고 유사한 군집들을 묶으면서, 5단계의 계층적 분류기를 구성한다. 계층적 분류기는 BP를 학습 알고리즘으로 사용하는 59개의 신경망분류기로 구성된다. 배경을 제거하고 질감특징 중 가장 높은 분류율을 보이는 대각 모멘트를 사용하여 실험하였을 때, 100종류에서 각 10개씩, 총 1000개의 학습 데이터와 1000개의 테스트 데이터에 대하여 각각 81.5%와 75.1%의 정분류율을 보였다.

  • PDF