• 제목/요약/키워드: 최근접이웃예측기법

검색결과 28건 처리시간 0.019초

데이터마이닝을 이용한 세분화된 고객집단의 프로모션 고객반응 예측 (Predicting the Response of Segmented Customers for the Promotion Using Data Mining)

  • 홍태호;김은미
    • 경영정보학연구
    • /
    • 제12권2호
    • /
    • pp.75-88
    • /
    • 2010
  • 정보기술의 발전과 더불어 기업과 고객간의 대부분의 정보가 축적되면서 기업은 거래고객의 자세한 정보를 활용하여 차별화된 마케팅을 제공할 수 있다. 본 연구는 기업이 제공하는 마케팅 전략을 보다 효과적으로 실행하기 위해 고객을 세분화하고, 세분화된 고객집단별 마케팅 프로모션에 대한 반응을 예측하는 모형을 제시하였다. 고객세분화에는 데이터마이닝 기법 중 SOM(Self-organizing Map)을 적용하였으며, 세분화된 집단별 프로모션 반응예측에는 로짓모형, 신경망 등의 단일모형과 k-최근접이웃법을 이용한 단일모형들의 통합모형을 적용하였다. 제시된 방법론으로 기업은 프로모션에 대한 고객반응을 예측할 뿐만 아니라 프로모션에 대한 반응을 쉽게 예측할 수 있는 고객집단과 반응예측이 어려운 고객집단으로 구분하여 프로모션의 효과를 극대화하고 각 집단에 맞는 프로모션 전략을 수립할 수 있다.

차대차 교통사고에 대한 상해 심각도 예측 연구 (A Study on Injury Severity Prediction for Car-to-Car Traffic Accidents)

  • 고창완;김현민;정영선;김재희
    • 한국ITS학회 논문지
    • /
    • 제19권4호
    • /
    • pp.13-29
    • /
    • 2020
  • 자동차는 우리의 일상에 필수재가 된 지 오래지만 자동차 교통사고로 인한 사회적 비용이 국가 예산의 9%를 넘을 정도로 심각하여 이에 대한 국가적인 예방 및 대응 체계 구축이 매우 필요한 실정이다. 이에 본 연구에서는 빅데이터 분석 기법을 활용하여 차대차 교통사고의 상해 심각도를 정확히 예측할 수 있는 모형을 제시하고자 하였다. 이를 위해 과거 3년간의 전국교통사고 발생 데이터를 토대로, K-최근접 이웃, 로지스틱 회귀분석, 나이브베이즈, 의사결정나무, 앙상블 알고리즘을 적용하여 각 모델의 상해 심각도 분류의 성능을 비교 분석하였다. 특히 이 과정에서 각 상해 심각도 수준 간의 데이터 수에 차이가 있음에 주목하여 표본수가 많은 그룹에 대해서는 과소표본추출을 시행하는 등의 방법을 통해 분류 예측의 정확도를 높일 수 있었고, 분산 분석을 통해 모델의 유의성을 검증하였다.

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.

강우사상의 지속기간별 분포 특성을 고려한 일강우 모의 기법 개발 (Development of methodology for daily rainfall simulation considering distribution of rainfall events in each duration)

  • 정재원;김수전;김형수
    • 한국수자원학회논문집
    • /
    • 제52권2호
    • /
    • pp.141-148
    • /
    • 2019
  • 기존의 Markov Chain 모형으로 일강우량 모의시에 강우의 발생여부를 모의하고 강우일의 강우량은 Monte Carlo 시뮬레이션을 통해 일강우 분포 특성에 맞는 분포형에서 랜덤으로 강우량을 추정하는 것이 일반적이다. 이때 강우 지속기간에 따른 강도 및 강우의 시간별 분포 등의 강우 사상의 특성을 반영할 수 없다는 한계가 있다. 본 연구에서는 이를 개선하기 위해 강우 사상을 1일 지속강우, 2일 지속강우, 3일 지속강우, 4일이상 지속강우로 구분하여 강우의 지속기간에 따라 강우량을 추정하였다. 즉 강우 사상의 강우 지속일별로 총강우량의 분포형을 비매개변수 추정이 가능한 핵밀도추정(Kernel Density Estimation, KDE)를 적용하여 각각 추정하였고, 강우가 지속될 경우에 지속일별로 해당하는 분포형에서 강우량을 구하였다. 각 강우사상에 대해 추정된 총 강우량은 k-최근접 이웃 알고리즘(k-Nearest Neighbor algorithm, KNN)을 통해 관측 강우자료에서 가장 유사한 강우량을 가지는 강우사상의 강우량 일분포 형태에 따라 각 일강우량으로 분배하였다. 본 연구는 기존의 강우량 추정 방법의 한계점을 개선하고자 하였으며, 연구 결과는 미래 강우에 대한 예측에도 활용될 수 있으며 수자원 설계에 있어서 기초자료로 활용될 수 있을 것으로 기대된다.

협동적 필터링을 이용한 K-최근접 이웃 수강 과목 추천 시스템 (K-Nearest Neighbor Course Recommender System using Collaborative Filtering)

  • 손기락;김소현
    • 정보교육학회논문지
    • /
    • 제11권3호
    • /
    • pp.281-288
    • /
    • 2007
  • 협동적 필터링은 사용자가 좋아할 만한 항목을 예측하기 위하여 비슷한 선호도를 가지는 다른 사람들의 평가 항목에 근거하여 추천하는 방법이다. 이러한 협동적 필터링 기법은 오늘날과 같이 대규모의 정보가 효과적으로 축적되고 이용 가능하게 된 정보화된 사회에서는 현명한 의사결정을 하도록 도와주는 역할을 한다. 본 논문에서는 대학생들이 수강과목의 취사선택을 용이하게 할 수 있도록 수강과목 추천 시스템을 설계하고 구현하였으며 실험적으로 평가하였다. 먼저, 학생들은 과거 자신이 수강하였던 과목에 대한 과목 선호도를 데이터베이스에 입력한다. 과목 선호도의 패턴이 유사한 학생들은 유사 그룹으로 간주된다. 성향이 유사한 사용자를 찾기 위해 일반적으로 사용되고 있는 피어슨 상관계수에 의한 유사도를 이용하였다. 수강 과목을 예측하려는 학생과 가장 유사한 패턴을 보이는 K 명의 학생들의 수강 과목에서 가장 높은 선호도를 보이는 과목들의 순서화된 리스트를 추천 과목으로 제시한다. 설문 조사를 통한 실험 데이터를 이용하였으며 평균 절대 에러를 사용하여 제안한 방법의 정확도를 평가하였다.

  • PDF

협업필터링 기법을 이용한 모바일 광고 추천 시스템 (Using collaborative filtering techniques Mobile ad recommendation system)

  • 김은숙;윤성대
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.3-6
    • /
    • 2012
  • 최근 모바일 시장이 급속도로 성장함에 따라, 현대인들은 컴퓨터가 가지는 여러가지 제약들을 극복하여 원하는 정보를 빠르게 얻을 수 있는 수단으로 모바일 컨텐츠 사용이 늘고 있다. 그러나 광범위한 콘텐츠의 추천으로 콘텐츠의 선택에 있어 많은 시간이 소요된다. 이러한 문제점을 해결하기 위해 사용자가 원하는 콘텐츠를 예측하여 정확하게 추천해 줄 수 있는 시스템이 필요하다. 본 논문에서는 이러한 사용자들의 요구에 맞추어 원하는 컨텐츠를 제공하기 위하여 협업필터링을 이용하여 추천의 선택 횟수를 높일 수 있는 방법을 제시한다. 첫번째 단계에서 대분류로 카테고리를 구분하여 목표고객과 사용자간의 유사도를 구하고, 최근접 이웃을 구성하여 대분류 카테고리간 선호도 예측값을 구하여 가장 높은 대분류 카테고리를 목표고객에게 추천한다. 두 번째 단계에서 소분류 카테고리 간 선호도 예측값을 구하여 가장 높은 소분류 카테고리를 목표고객에게 추천한다. 실험에서 대분류 카테고리 기반 협업필터링으로 모바일 컨텐츠를 추천하고, 소분류 카테고리 기반 협업필터링으로 모바일 컨텐츠를 추천해 두 가지 방법의 결과를 비교하여 소분류 카테고리 기반 협업필터링의 방법이 선택 횟수가 높다는 것을 검증하였다.

  • PDF

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.