• 제목/요약/키워드: statistical computing

검색결과 413건 처리시간 0.026초

EXTENSION OF FACTORING LIKELIHOOD APPROACH TO NON-MONOTONE MISSING DATA

  • Kim, Jae-Kwang
    • Journal of the Korean Statistical Society
    • /
    • 제33권4호
    • /
    • pp.401-410
    • /
    • 2004
  • We address the problem of parameter estimation in multivariate distributions under ignorable non-monotone missing data. The factoring likelihood method for monotone missing data, termed by Rubin (1974), is extended to a more general case of non-monotone missing data. The proposed method is algebraically equivalent to the Newton-Raphson method for the observed likelihood, but avoids the burden of computing the first and the second partial derivatives of the observed likelihood. Instead, the maximum likelihood estimates and their information matrices for each partition of the data set are computed separately and combined naturally using the generalized least squares method.

Evaluation of the Efficiency of an Inverse Exponential Kernel Estimator for Spherical Data

  • Park, Hyun Suk
    • Communications for Statistical Applications and Methods
    • /
    • 제20권1호
    • /
    • pp.77-84
    • /
    • 2013
  • This paper deals with the relative efficiency of two kernel estimators $\hat{f}_n$ and $\hat{g}_n$ by using spherical data, as proposed by Park (2012), and Bai et al. (1988), respectively. For this, we suggest the computing flows for the relative efficiency on the 2-dimensional unit sphere. An evaluation procedure between two estimators (given the same kernels) is also illustrated through the observed data on normals to the orbital planes of long-period comets.

Cutoff Values for Cook's Distance

  • Choongrak Kim
    • Communications for Statistical Applications and Methods
    • /
    • 제3권2호
    • /
    • pp.13-19
    • /
    • 1996
  • Cook's distance(Cook, 1997) is one of the most widely used influence measures to assess the influence of single observations or sets of observations in the linear regression model. After computing Cook(1977) suggested guidelines based on a confidence ellipsoid for the regression parameter ${\beta}$. In this paper, we suggest cutoff values for Cook's distance cia Monte Carlo simulation, and compare them with Cook's guidelines. An example based on a real data set is given.

  • PDF

The Region of Positivity and Unimodality in the Truncated Series of a Nonparametric Kernel Density Estimator

  • Gupta, A.K.;Im, B.K.K.
    • Journal of the Korean Statistical Society
    • /
    • 제10권
    • /
    • pp.140-144
    • /
    • 1981
  • This paper approximates to a kernel density estimate by a truncated series of expansion involving Hermite polynomials, since this could ease the computing burden involved in the kernel-based density estimation. However, this truncated series may give a multimodal estimate when we are estiamting unimodal density. In this paper we will show a way to insure the truncated series to be positive and unimodal so that the approximation to a kernel density estimator would be maeningful.

  • PDF

Genome Scale Protein Secondary Structure Prediction Using a Data Distribution on a Grid Computing

  • Cho, Min-Kyu;Lee, Soojin;Jung, Jin-Won;Kim, Jai-Hoon;Lee, Weontae
    • 한국생물물리학회:학술대회논문집
    • /
    • 한국생물물리학회 2003년도 정기총회 및 학술발표회
    • /
    • pp.65-65
    • /
    • 2003
  • After many genome projects, algorithms and software to process explosively growing biological information have been developed. To process huge amount of biological information, high performance computing equipments are essential. If we use the remote resources such as computing power, storages etc., through a Grid to share the resources in the Internet environment, we will be able to obtain great efficiency to process data at a low cost. Here we present the performance improvement of the protein secondary structure prediction (PSIPred) by using the Grid platform, distributing protein sequence data on the Grid where each computer node analyzes its own part of protein sequence data to speed up the structure prediction. On the Grid, genome scale secondary structure prediction for Mycoplasma genitalium, Escherichia coli, Helicobacter pylori, Saccharomyces cerevisiae and Caenorhabditis slogans were performed and analyzed by a statistical way to show the protein structural deviation and comparison between the genomes. Experimental results show that the Grid is a viable platform to speed up the protein structure prediction and from the predicted structures.

  • PDF

대규모 언어모델 활용을 통한 통계자료 처리 및 온라인 가격지표 개발 방법론 연구 (Utilizing Large Language Models(LLM) for Efficient Online Price Index Development and Statistical Data Processing)

  • 오교중;최호진;안현각;김일구;차원석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.101-104
    • /
    • 2023
  • 본 연구는 현대 사회에서 빅데이터의 중요성이 강조되는 가운데, 온라인 시장의 확장과 소비자들의 다양한 소비 행태 변화를 반영한 가격지표 개발을 목표로 한다. 통계청의 기존 통계조사 방법론에 대한 한계를 극복하고, 온라인 쇼핑몰 데이터에서 필요한 정보를 추출하고 가공하기 위해 대규모 언어 모델(LLM)을 활용한 인공지능 기술을 적용해보고자 한다. 초기 연구 결과로 공개 Polyglot을 활용하여 비정형 자료 처리와 품목분류에 응용해 보았으며, 제한된 학습 데이터를 사용하여도 높은 정확도의 처리 결과를 얻을 수 있었으며, 현재는 적용 품목을 확장하여 더욱 다양한 품목에 방법론을 적용하는 연구를 진행 중이다.

  • PDF

객체지향 및 동적연동 교육용 통계패키지 K-plot 개발 (A Development of Object-Oriented, Dynamically Linked Statistical Package for 5-8 Graders)

  • 이정진;이태림;강근석;김성수;박헌진;이윤동;심송용
    • 응용통계연구
    • /
    • 제26권3호
    • /
    • pp.421-429
    • /
    • 2013
  • 현대통계학은 많은 분야에서 사용되고 있으나 사용자들이 통계학적 개념을 이해하는데 어려움을 겪고 있다. 한편으로는 초등학생 때부터 줄기잎 그림이나, 비율자료의 원그림 등은 물론이고 평균과 같은 기술통계를 배우고 있다. 초등학교 고학년이나 중학교 저학년 학생들을 위한 직관적인 통계 패키지가 있다면 미래의 통계 사용자들인 이들 학생들이 통계적 개념을 이해하는데 많은 도움이 될 것이라고 생각하여 직관에 기초한 통계 패키지를 개발하였다.

일영 통계기계번역에서 의존문법 문장 구조와 품사 정보를 사용한 클러스터링 기법 (A Clustering Method using Dependency Structure and Part-Of-Speech(POS) for Japanese-English Statistical Machine Translation)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.993-997
    • /
    • 2009
  • 클러스터링 기법은 다양한 분야에서 이용되어 왔으며, 통계 기반 기계번역에서도 익히 사용된 기법이다. 그러나 기존의 연구에서는 깊이 있는 문법적인 분석 없이 기계학습 기법을 사용하거나, 문장구조의 정보를 사용하더라도 정규식을 이용하여 판별하는 선에서 그치는 경우가 많았다. 본 논문에서는 각 문장의 의존관계 문법에 따른 구조와 조사 등의 품사 정보를 사용하여 문장구조를 파악하고 유형별로 분류하여 각각에 특화된 언어모델을 획득하는 방법과, 이를 구 기반 통계기계번역에 추가적인 정보로 사용하여 번역성능을 향상하는 데 이용하는 방법을 제안한다.

통계계산을 위한 Fortran과 C라이브러리의 구현 (Implementation of Fortran and C Libraries for Statistical computing)

  • 신봉섭;박춘성
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권2호
    • /
    • pp.113-119
    • /
    • 1999
  • 본 연구에서는 여러 응용분야에서 자주 사용되는 통계적 모의실험이나 통계계산에 유용하게 사용될 루틴들을 Fortran과 C 언어의 Subroutine이나 함수 형태로 작성하여 라이브러리로 구현하였다. 여기에는 일반적으로 자주 사용되는 확률변수들의 난수생성기와 대표적인 확률분포들의 확률 계산이나 상위확률 및 상위백분위수의 계산 등에 유용한 루틴들을 포함하고 있다.

  • PDF

Application of Urban Computing to Explore Living Environment Characteristics in Seoul : Integration of S-Dot Sensor and Urban Data

  • Daehwan Kim;Woomin Nam;Keon Chul Park
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.65-76
    • /
    • 2023
  • This paper identifies the aspects of living environment elements (PM2.5, PM10, Noise) throughout Seoul and the urban characteristics that affect them by utilizing the big data of the S-Dot sensors in Seoul, which has recently become a hot topic. In other words, it proposes a big data based urban computing research methodology and research direction to confirm the relationship between urban characteristics and living environments that directly affect citizens. The temporal range is from 2020 to 2021, which is the available range of time series data for S-Dot sensors, and the spatial range is throughout Seoul by 500mX500m GRID. First of all, as part of analyzing specific living environment patterns, simple trends through EDA are identified, and cluster analysis is conducted based on the trends. After that, in order to derive specific urban planning factors of each cluster, basic statistical analysis such as ANOVA, OLS and MNL analysis were conducted to confirm more specific characteristics. As a result of this study, cluster patterns of environment elements(PM2.5, PM10, Noise) and urban factors that affect them are identified, and there are areas with relatively high or low long-term living environment values compared to other regions. The results of this study are believed to be a reference for urban planning management measures for vulnerable areas of living environment, and it is expected to be an exploratory study that can provide directions to urban computing field, especially related to environmental data in the future.