• 제목/요약/키워드: Statistics data

검색결과 13,789건 처리시간 0.03초

빅데이터와 통계학 (Big data and statistics)

  • 김용대;조광현
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권5호
    • /
    • pp.959-974
    • /
    • 2013
  • 빅데이터 시대를 맞이하여 통계학과 통계학자의 역할에 대하여 살펴본다. 빅데이터에 대한 정의 및 응용분야를 살펴보고, 빅데이터 자료의 통계학적 특징들 및 이와 관련한 통계학적 의의에 대해서 설명한다. 빅데이터 자료 분석에 유용하게 사용되는 통계적 방법론들에 대해서 살펴보고, 국외와 국내의 빅데이터 관련 프로젝트를 소개한다.

행정통계의 체계적 관리를 위한 대표적 통계항목 선정 사례연구 (A case study on the selection of representative statistics for systematic management of administrative statistics)

  • 이강진;김민경;안정용;최경호
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.63-70
    • /
    • 2012
  • 지역통계는 특성화통계를 중심으로 그 수요가 증가하고 있음에도 불구하고 통계작성비용 증가 등의 이유로 인하여 조사통계로 모든 요구를 충족시키기에는 한계가 있다. 이에 그 대안으로 고려되는 것이 행정통계이다. 본 연구에서는 전라북도 행정통계 자료 가운데 지역정책 수립 및 특성화에 기여하는 대표통계를 선정하고 이를 체계적으로 관리함으로써 질적 향상을 통한 신뢰성 확보를 이룰 수 있는 방안에 대해서 논하였다. 그 결과 45개 항목을 전라북도 대표통계로 최종 선정하였다. 본 연구에서 대표통계의 선정에 대한 필요성을 제기하고 구체적인 선정절차를 밝힌 것은, 본 연구가 지방자치단체에서 생산되는 행정통계의 체계적인 관리와 효율적인 활용에 도움을 줄 수 있는 계기가 되기를 기대 해서이다.

텍스트 마이닝 알고리즘을 이용한 기상청 연구개발분야 과제의 추세 분석 (Analysis of patterns in meteorological research and development using a text-mining algorithm)

  • 박홍주;김하빈;박태영;이영섭
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.935-947
    • /
    • 2016
  • 이 연구에서는 비정형 자료 분석 기법 중 하나인 텍스트 마이닝 기법으로 기상청 연구개발분야 과제의 동향에 대하여 분석하였다. 이를 위하여 용어사전을 구축하고, 전처리를 하여 용어-문서 행렬을 만들었다. 이것을 이용해 연도별 용어 빈도수를 측정하고, 자주 나타나는 단어들에 대해서는 상대도수의 변화에 대해서 관찰하였다. 그리고 회귀 분석을 사용하여 증가추세와 감소추세를 가지는 용어들을 파악하였다. 이러한 분석으로 기상청 최근 연구개발 분야의 트렌드를 파악하였다. 이와 같은 연구는 향후 기상청 연구개발에 관한 기초 자료로 사용될 수 있으며, 연구개발의 방향성과 청사진을 제시하는데 이용될 수 있을 것이다.

불완전 자료에 대한 Metropolis-Hastings Expectation Maximization 알고리즘 연구 (Metropolis-Hastings Expectation Maximization Algorithm for Incomplete Data)

  • 전수영;이희찬
    • 응용통계연구
    • /
    • 제25권1호
    • /
    • pp.183-196
    • /
    • 2012
  • 결측자료(missing data), 절단분포(truncated distribution), 중도절단자료(censored data) 등 불완전한 자료(incomplete data)하의 추론문제(incomplete problems)는 통계학에서 자주 발생되는 현상이다. 이런 문제의 해결방법으로 Expectation Maximization, Monte Carlo Expectation Maximization, Stochastic Expectation Maximization 알고리즘 등을 이용하는 방법이 있지만, 정형화된 분포의 가정이 필요하다는 단점을 가지고 있다. 본 연구에서는 정형화된 분포의 가정이 없는 경우에 사용할 수 있는 Metropolis-Hastings Expectation Maximization(MHEM) 알고리즘을 제안하고자 한다. MHEM 알고리즘의 효율성은 중도절단자료(censored data)를 이용한 모의실험과 KOSPI 200 수익률의 실증자료분석를 통해 알수 있었다.

Bootstrap Confidence Intervals for Regression Coefficients under Censored Data

  • 조길호;정성화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제13권2호
    • /
    • pp.355-363
    • /
    • 2002
  • Using the Buckley-James method, we construct bootstrap confidence intervals for the regression coefficients under the censored data. And we compare these confidence intervals in terms of the coverage probabilities and the expected confidence interval lengths through Monte Carlo simulation.

  • PDF

Testing Whether Failure Rate Changes its Trend Using Censored Data

  • Jeong, Hai-Sung;Na, Myung-Hwan;Kim, Jae-Joo
    • International Journal of Reliability and Applications
    • /
    • 제1권2호
    • /
    • pp.115-121
    • /
    • 2000
  • The trend change in aging properties, such as failure rate and mean residual life, of a life distribution is important to engineers and reliability analysts. In this paper we develop a test statistic for testing whether or not the failure rate changes its trend using censored data. The asymptotic normality of the test statistics is established. We discuss the efficiency values of loss due to censoring.

  • PDF

Nonstationary Time Series and Missing Data

  • Shin, Dong-Wan;Lee, Oe-Sook
    • 응용통계연구
    • /
    • 제23권1호
    • /
    • pp.73-79
    • /
    • 2010
  • Missing values for unit root processes are imputed by the most recent observations. Treating the imputed observations as if they are complete ones, semiparametric unit root tests are extended to missing value situations. Also, an invariance principle for the partial sum process of the imputed observations is established under some mild conditions, which shows that the extended tests have the same limiting null distributions as those based on complete observations. The proposed tests are illustrated by analyzing an unequally spaced real data set.

Logistic Model for Normality by Neural Networks

  • Lee, Jea-Young;Rhee, Seong-Won
    • Journal of the Korean Data and Information Science Society
    • /
    • 제14권1호
    • /
    • pp.119-129
    • /
    • 2003
  • We propose a new logistic regression model of normality curves for normal(diseased) and abnormal(nondiseased) classifications by neural networks in data mining. The fitted logistic regression lines are estimated, interpreted and plotted by the neural network technique. A few goodness-of-fit test statistics for normality are discussed and the performances by the fitted logistic regression lines are conducted.

  • PDF

A Study on Quick Detection of Variance Change Point of Time Series under Harsh Conditions

  • Choi, Hyun-Seok;Choi, Sung-Hwan;Kim, Tae-Yoon
    • Journal of the Korean Data and Information Science Society
    • /
    • 제17권4호
    • /
    • pp.1091-1098
    • /
    • 2006
  • Park et al.(2005) and Choi et al.(2006) studied quick detection of variance change point for time series data in progress. For efficient detection they used moving variance ratio equipped with two tuning parameters; information tuning parameter p and lag tuning parameter q. In this paper, the moving variance ratio is studied under harsh conditions.

  • PDF

Model for the Spatial Time Series Data

  • Lim, Seongsik;Cho, Sinsup;Lee, Changsoo
    • 품질경영학회지
    • /
    • 제24권1호
    • /
    • pp.137-145
    • /
    • 1996
  • We propose a model which is useful for the analysis of the spatial time series data. The proposed model utilized the linear dependences across the spatial units as well as over time. Three stage model fitting procedures are suggested and the real data is analyzed.

  • PDF