• Title/Summary/Keyword: Statistics data

검색결과 13,842건 처리시간 0.035초

Data analysis for improving population management in animal shelters in Seoul

  • Cho, Yoon Ju;Lee, Young-Ah;Hwang, Bo Ram;Kim, Hyung Joon;Han, Jin Soo
    • 대한수의학회지
    • /
    • 제55권2호
    • /
    • pp.125-131
    • /
    • 2015
  • A total of 11,395 animals were impounded in shelters in Seoul in 2013. The Animal Protection Division of the Seoul metropolitan government has annual contracts with local veterinary associations as well as Korean animal rescue and management organizations for providing shelter to animals, and collects monthly statistics from these groups. In 2013, the collected intake and outcome data for 25 districts were reviewed to analyze shelter capacity in terms of housing capacity (monthly daily average intake, required holding capacity, and adoption-driven capacity), staff capacity (staff hours required for daily care), and live release rate. Seasonal variations in the monthly daily average intake were observed, indicating that management of these shelters requires various strategies. This study was performed to analyze and interpret meaningful statistics for improving the efficiency of animal shelters in Seoul. However, inconsistent collection of animal statistics limited data compilation. Creation of a basic animal statistics matrix with reference to well-designed matrices from recognized professional animal shelters is essential. These complied statistical data will help plan for future animal shelter needs in Seoul.

격자자료분석을 위한 이웃정보시스템의 비교 (Comparison of Neighborhood Information Systems for Lattice Data Analysis)

  • 이강석;신기일
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.387-397
    • /
    • 2008
  • 최근 공간통계를 이용한 많은 연구가 진행되고 있고 공간통계학을 접목한 소지역 추정(small area estimation) 방법이 좋은 결과를 주고 있는 것으로 알려져 있다 소지역 추정에 사용되는 격자자료(lattice data) 분석에서 이웃정보를 정의하는 것은 자료 분석의 성패를 결정짓는 매우 중요한 부분이다. 그러나 기존에 사용된 대부분의 이웃정보시스템은 경계선을 공유할 때 이웃으로 정하는 방법을 사용하고 있다. 이에 본 논문에서는 경계선 공유를 이용한 이웃정보시스템 뿐 아니라 다른 여러 이웃정보시스템을 구하는 방법을 설명하고 2001년 경제활동자료를 이용하여 이 시스템들을 비교하였다

Dimension reduction for right-censored survival regression: transformation approach

  • Yoo, Jae Keun;Kim, Sung-Jin;Seo, Bi-Seul;Shin, Hyejung;Sim, Su-Ah
    • Communications for Statistical Applications and Methods
    • /
    • 제23권3호
    • /
    • pp.259-268
    • /
    • 2016
  • High-dimensional survival data with large numbers of predictors has become more common. The analysis of such data can be facilitated if the dimensions of predictors are adequately reduced. Recent studies show that a method called sliced inverse regression (SIR) is an effective dimension reduction tool in high-dimensional survival regression. However, it faces incapability in implementation due to a double categorization procedure. This problem can be overcome in the right-censoring type by transforming the observed survival time and censoring status into a single variable. This provides more flexibility in the categorization, so the applicability of SIR can be enhanced. Numerical studies show that the proposed transforming approach is equally good to (or even better) than the usual SIR application in both balanced and highly-unbalanced censoring status. The real data example also confirms its practical usefulness, so the proposed approach should be an effective and valuable addition to usual statistical practitioners.

Bayesian Curve Clustering in Microarray

  • 이경은
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2006년도 PROCEEDINGS OF JOINT CONFERENCEOF KDISS AND KDAS
    • /
    • pp.39-42
    • /
    • 2006
  • We propose a Bayesian model-based approach using a mixture of Dirichlet processes model with discrete wavelet transform, for curve clustering in the microarray data with time-course gene expressions.

  • PDF

에어비앤비(Airbnb) 웹 로그 데이터를 이용한 고객 행동 예측 (Consumer behavior prediction using Airbnb web log data)

  • 안효인;최유리;오래은;송종우
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.391-404
    • /
    • 2019
  • 그동안의 고객 행동에 대한 예측은 주로 고객이 가지는 고정적인 특성을 이용해왔다. 최근에는 점차 고객들의 활동이 오프라인에서 온라인으로 이동하면서 각 고객의 웹 로그를 추적하는 일이 가능해졌다. 그러나 방대한 양의 웹 로그 데이터를 수집할 수 있게 된 반면, 이에 대한 연구는 로그 데이터를 정리하거나 기술적인 특성만을 설명하는 것에 그쳤다. 본 연구에서는 웹사이트 Kaggle에서 제공하는 Airbnb 고객들의 성별, 연령 등의 기본 정보 및 웹 로그가 포함된 데이터셋을 이용하여 첫 숙소 예약까지 걸리는 개인의 의사 결정 시간을 예측하였다. Lasso, SVM, Random Forest, XGBoost 등 다양한 방법론을 활용하여 최적의 모형을 찾고, 웹 로그 데이터의 유무에 따른 예측 오차를 비교하여 웹 로그의 효용성을 확인하였다. 결과적으로 오분류율이 약 20%로 낮은 랜덤 포레스트 분류모형을 최적모형으로 선택하였다. 또한, 웹 로그 데이터를 이용하여 고객 개개인의 행동을 예측한 결과 사용하지 않은 경우와 비교해 예측의 정확도가 최대 두 배 더 높아진 것을 확인할 수 있었다.

Basic Statistics in Quantile Regression

  • Kim, Jae-Wan;Kim, Choong-Rak
    • 응용통계연구
    • /
    • 제25권2호
    • /
    • pp.321-330
    • /
    • 2012
  • In this paper we study some basic statistics in quantile regression. In particular, we investigate the residual, goodness-of-fit statistic and the effect of one or few observations on estimates of regression coefficients. In addition, we compare the proposed goodness-of-fit statistic with the statistic considered by Koenker and Machado (1999). An illustrative example based on real data sets is given to see the numerical performance of the proposed basic statistics.

다항판별지수와 검정통계량 제안 (Proposition of polytomous discrimination index and test statistics)

  • 최진수;홍종선
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권2호
    • /
    • pp.337-351
    • /
    • 2016
  • 현실세계의 예측 문제에서 세 범주 이상의 결과로 예측되는 경우가 많다. 이러한 경우에 대한 기존의 문헌연구에서는 부합성을 짝 접근방법으로 활용한 통계량은 범주의 뚜렷한 구분 없이 표현되었다. 최근 새롭게 표현한 평가자료와 이를 바탕으로 부합성을 재표현하여 통계량들을 새롭게 정의함으로써 직관적으로 의미 파악이 가능해졌지만 통계량들의 판단기준이 구체적이지 않은 문제점을 갖고 있다. 또한 이 통계량들은 가능한 부합성의 짝으로 구성되었지만 실제범주들간에서 예측범주들의 부합성을 추가적으로 고려할 수 있기에 이를 포함한 두 가지 통계량을 제안하였다. 제안한 통계량은 선택된 두 범주로부터 모든 가능한 경우들 사이를 판별하는 장점이 있다. 본 연구에서 제안한 두 가지 통계량은 지시함수로 표현되므로 비모수적 통계량으로 변환할 수 있다. 그러므로 부합성 통계량을 가설검정 방법으로 사용할 수 있음을 제안한다.

Reliability Estimation in Bivariate Pareto Model with Bivariate Type I Censored Data

  • Cho, Jang-Sik;Cho, Kil-Ho;Kang, Sang-Gil
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권4호
    • /
    • pp.837-844
    • /
    • 2003
  • In this paper, we obtain the estimator of system reliability for the bivariate Pareto model with bivariate type 1 censored data. We obtain the estimators and approximated confidence intervals of the reliability for the parallel system based on likelihood function and the relative frequency, respectively. Also we present a numerical example by giving a data set which is generated by computer.

  • PDF

A note on Box-Cox transformation and application in microarray data

  • Rahman, Mezbahur;Lee, Nam-Yong
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.967-976
    • /
    • 2011
  • The Box-Cox transformation is a well known family of power transformations that brings a set of data into agreement with the normality assumption of the residuals and hence the response variable of a postulated model in regression analysis. Normalization (studentization) of the regressors is a common practice in analyzing microarray data. Here, we implement Box-Cox transformation in normalizing regressors in microarray data. Pridictabilty of the model can be improved using data transformation compared to studentization.

Analyzing Customer Management Data by Data Mining: Case Study on Chum Prediction Models for Insurance Company in Korea

  • Cho, Mee-Hye;Park, Eun-Sik
    • Journal of the Korean Data and Information Science Society
    • /
    • 제19권4호
    • /
    • pp.1007-1018
    • /
    • 2008
  • The purpose of this case study is to demonstrate database-marketing management. First, we explore original variables for insurance customer's data, modify them if necessary, and go through variable selection process before analysis. Then, we develop churn prediction models using logistic regression, neural network and SVM analysis. We also compare these three data mining models in terms of misclassification rate.

  • PDF