• 제목/요약/키워드: random data analysis

검색결과 1,741건 처리시간 0.031초

변량계수모형을 이용한 체지방 실험자료에 관한 통계적 분석 (A statistical analysis of the fat mass experimental data using random coefficient model)

  • 조진남
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권2호
    • /
    • pp.287-296
    • /
    • 2011
  • 36명의 여대생을 대상으로 체 지방 감소효과에 대한 실험을 실시하였다. 이 실험에서 처리는 매일 섭취하는 식사종류 및 양에 대한 식사일지 작성과 카메라 폰으로 찍어 실험관리자에게 전송하여 매주상담을 받는 것이다. 실험관리자는 체 지방 및 관련된 자료를 일주일마다 측정하여 8주간의 반복측정자료를 얻었다. 이 실험자료를 이용하여 혼합모형의 일종인 변량계수모형을 이용하여 추정 및 유의성 검정을 실시한 결과, 유의한 고정인자들은 처리 전체지방 값, 비만지수, 확장기 혈압, 총 콜레스테롤 및 시간이다. 처리 후 시간에 따른 체 지방 감소는 2차 함수의 관계가 성립된다. 변량인자인 개체효과와 개체와 시간과의 교호작용에서 1차 함수의 관계가 존재한다. 처리 후 시간이 지남에 따라 체 지방 량은 점점 감소하였으며, 실험실시 8주 후에는 평균 2.1kg 감소한 효과가 있음을 보여주었다.

Is Simple Random Sampling Better than Quota Sampling? An Analysis Based on the Sampling Methods of Three Surveys in South Korea

  • Cho, Sung Kyum;Jang, Deok-Hyun;LoCascio, Sarah Prusoff
    • Asian Journal for Public Opinion Research
    • /
    • 제3권4호
    • /
    • pp.156-175
    • /
    • 2016
  • This paper considers whether random sampling always produces more accurate survey results in the case of South Korea. We compare information from the 2010 census to the demographic variables of three public opinion surveys from South Korea: Gallup Korea's Omnibus Survey (Survey A) is conducted every two months by Gallup Korea; the annual Social Survey (Survey B) is conducted by Statistics Korea (KOSTAT); the Korean General Social Survey (KGSS or Survey C) is conducted annually by the Survey Research Center (SRC) at Sungkyunkwan University (SKKU). Survey A uses quota sampling after randomly selecting the neighborhood and initial addresses; Survey B uses random sampling, but allows replacements in some situations; Survey C uses simple random sampling. Data from more than one year was used for each survey. Our analysis suggests that Survey B is the most representative in most respects, and, in some respects, Survey A may be more representative than Survey C. Data from Survey C was the least stable in terms of representativeness by geographical area and age. Single-person households were underrepresented in both Surveys A and C, but the problem was more severe in Survey A. Four-person households and married persons were both over-represented in Survey A. Less educated people were under-represented in both Survey A and Survey C. There were differences in income level between Survey A and Survey C, but income data was not available for Survey B or the census, so it is difficult to ascertain which survey was more representative in this case.

머신러닝 기반 CFS(Correlation-based Feature Selection)기법과 Random Forest모델을 활용한 BMI(Benthic Macroinvertebrate Index) 예측에 관한 연구 (A Study on the prediction of BMI(Benthic Macroinvertebrate Index) using Machine Learning Based CFS(Correlation-based Feature Selection) and Random Forest Model)

  • 고우석;윤춘경;이한필;황순진;이상우
    • 한국물환경학회지
    • /
    • 제35권5호
    • /
    • pp.425-431
    • /
    • 2019
  • Recently, people have been attracting attention to the good quality of water resources as well as water welfare. to improve the quality of life. This study is a papers on the prediction of benthic macroinvertebrate index (BMI), which is a aquatic ecological health, using the machine learning based CFS (Correlation-based Feature Selection) method and the random forest model to compare the measured and predicted values of the BMI. The data collected from the Han River's branch for 10 years are extracted and utilized in 1312 data. Through the utilized data, Pearson correlation analysis showed a lack of correlation between single factor and BMI. The CFS method for multiple regression analysis was introduced. This study calculated 10 factors(water temperature, DO, electrical conductivity, turbidity, BOD, $NH_3-N$, T-N, $PO_4-P$, T-P, Average flow rate) that are considered to be related to the BMI. The random forest model was used based on the ten factors. In order to prove the validity of the model, $R^2$, %Difference, NSE (Nash-Sutcliffe Efficiency) and RMSE (Root Mean Square Error) were used. Each factor was 0.9438, -0.997, and 0,992, and accuracy rate was 71.6% level. As a result, These results can suggest the future direction of water resource management and Pre-review function for water ecological prediction.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.

동적 소셜네트워크 구조 변수를 적용한 가상 재화 구매 모형 연구 (Study of Virtual Goods Purchase Model Applying Dynamic Social Network Structure Variables)

  • 이희태;배정호
    • 유통과학연구
    • /
    • 제17권3호
    • /
    • pp.85-95
    • /
    • 2019
  • Purpose - The existing marketing studies using Social Network Analysis have assumed that network structure variables are time-invariant. However, a node's network position can fluctuate considerably over time and the node's network structure can be changed dynamically. Hence, if such a dynamic structural network characteristics are not specified for virtual goods purchase model, estimated parameters can be biased. In this paper, by comparing a time-invariant network structure specification model(base model) and time-varying network specification model(proposed model), the authors intend to prove whether the proposed model is superior to the base model. In addition, the authors also intend to investigate whether coefficients of network structure variables are random over time. Research design, data, and methodology - The data of this study are obtained from a Korean social network provider. The authors construct a monthly panel data by calculating the raw data. To fit the panel data, the authors derive random effects panel tobit model and multi-level mixed effects model. Results - First, the proposed model is better than that of the base model in terms of performance. Second, except for constraint, multi-level mixed effects models with random coefficient of every network structure variable(in-degree, out-degree, in-closeness centrality, out-closeness centrality, clustering coefficient) perform better than not random coefficient specification model. Conclusion - The size and importance of virtual goods market has been dramatically increasing. Notwithstanding such a strategic importance of virtual goods, there is little research on social influential factors which impact the intention of virtual good purchase. Even studies which investigated social influence factors have assumed that social network structure variables are time-invariant. However, the authors show that network structure variables are time-variant and coefficients of network structure variables are random over time. Thus, virtual goods purchase model with dynamic network structure variables performs better than that with static network structure model. Hence, if marketing practitioners intend to use social influences to sell virtual goods in social media, they had better consider time-varying social influences of network members. In addition, this study can be also differentiated from other related researches using survey data in that this study deals with actual field data.

영과잉 토빗모형을 이용한 한국 소득분포 자료의 베이지안 분석 (Bayesian analysis of Korean income data using zero-inflated Tobit model)

  • 황지수;김세완;오만숙
    • 응용통계연구
    • /
    • 제30권6호
    • /
    • pp.917-929
    • /
    • 2017
  • 한국노동패널조사에서 제공하는 2015년 한국 생산가능인구의 월평균 소득분포를 보면 0 관측치의 비율이 과도하게 높은 형태를 보여 기존의 소득분포에 주로 사용되는 토빗모형으로는 설명에 한계가 있다. 본 연구에서는 영과잉 특성을 반영하여 영과잉 토빗모형을 사용하여 한국인의 소득 자료를 분석한다. 영과잉 토빗모형은 2단계 모형으로 1단계에서는 소득이 0인 그룹을 두 그룹으로 나누는데, 첫 번째 그룹은 노동시장 참여의지가 없어 시장에 참여하지 않으므로 0이 관측되는 그룹(genuine zero)이고 두 번째 그룹은 노동시장 참여의지는 있으나 낮은 임금으로 인하여 절단되어 0이 관측되는 그룹(random zero)으로 가정하였다. 두 번째 random zero 그룹은 0 이상의 연속 자료와 결합하여 토빗모형을 적용한다. 1단계와 2단계 모형에 관심 있는 설명변수를 가진 회귀모형을 적용하여 노동시장 참여여부와 임금 수준에 영향을 미치는 요인을 알아본다. 마코브 체인 몬테칼로 기법을 사용하여 모수를 추정하고 기존의 토빗모형과 비교한 결과 영과잉 토빗모형이 0의 빈도추정과 모형 적합도 면에서 우수한 결과를 보였다. 분석결과 나이가 많을수록, 남자가 여자보다, 학력이 낮을수록, 노동시장에 참여할 가능성이 매우 유의하게 높으며, 사회경제적 지위가 높을수록 그리고 유보임금이 낮을수록 노동시장에 참여하지 않을 확률이 높은 것으로 나타났다. 임금수준을 보면, 남자가 여자보다, 학력이 높을수록, 기혼이 미혼 보다 매우 유의하게 더 높은 임금을 받는 것으로 나타났다.

응력보정계수 산정 방법 개선 (An Improvement for Determining Response Modification Factor in Bridge Load Rating)

  • 구봉근;신재인;이상순
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제5권1호
    • /
    • pp.169-175
    • /
    • 2001
  • Bridge load rating calculations provide a basis for determining the safe load capacity of bridge. Load rating requires engineering judgement in determining a rating value that is applicable to maintaining the safe use of the bridge and arriving at posting and permit decisions. Load testing is an effective means in calculating the rating value of bridge. In Korea, load carrying capacity of bridge is modified by response modification factor that is determined from comparisons of measured values and analysis results. The response modification factor may be corrupted by vehicle location error that is defined as the gap of test vehicle location between load testing and analysis. In this study, the effects of vehicle location error to structural response and response modification factor are investigated, and a new method for evaluating response modification factor is proposed. The random data analysis shows that the proposed method is less sensitive to vehicle location error than the present method.

  • PDF

Bayesian Pattern Mixture Model for Longitudinal Binary Data with Nonignorable Missingness

  • Kyoung, Yujung;Lee, Keunbaik
    • Communications for Statistical Applications and Methods
    • /
    • 제22권6호
    • /
    • pp.589-598
    • /
    • 2015
  • In longitudinal studies missing data are common and require a complicated analysis. There are two popular modeling frameworks, pattern mixture model (PMM) and selection models (SM) to analyze the missing data. We focus on the PMM and we also propose Bayesian pattern mixture models using generalized linear mixed models (GLMMs) for longitudinal binary data. Sensitivity analysis is used under the missing not at random assumption.

실험적 모우드 계수를 이용한 교량의 주행하중 해석 (Moving Load Analysis of Bridge Structures Using Experimental Modal Data)

  • 이형진
    • 한국전산구조공학회논문집
    • /
    • 제15권3호
    • /
    • pp.409-420
    • /
    • 2002
  • 본 논문에서는 상시진동계측 결과를 활용하여 교랑의 이동하중해석을 수행하기 위한 구조재해석 기법을 제시하였다. 구조재해석을 위해 필요한 실구조물의 고유진동수와 모우드 형상은 직접퓨리에 분석을 통해 구하고, 감쇠비는 Random Decrement기법을 이용하는 방법을 사용하였다. 또한, 계측 모우드 형상을 구조재해석에 필요한 자유도로 보간하기 위한 보간법을 제시하였다. 더불어, 제시된 구조재해석기법을 이동질량 모형에 기초한 주행하중 해석에 적용하여 이를 직접 해석한 결과와 비교하였다 해석결과는 상시진동 계측의 결과만을 이용하여 수행된 구조재해석 결과도 교량의 실제 응답을 잘 표현할 수 있음을 보여주고 있다.

Random Parameters 음이항 모형을 이용한 신호교차로 교통사고 모형개발에 관한 연구 -대전광역시를 대상으로 - (Traffic Accident Models using a Random Parameters Negative Binomial Model at Signalized Intersections: A Case of Daejeon Metropolitan Area)

  • 박민호;홍정열
    • 한국도로학회논문집
    • /
    • 제20권2호
    • /
    • pp.119-126
    • /
    • 2018
  • PURPOSES : The purpose of this study is to develop a crash prediction model at signalized intersections, which can capture the randomness and uncertainty of traffic accident forecasting in order to provide more precise results. METHODS : The authors propose a random parameter (RP) approach to overcome the limitation of the Count model that cannot consider the heterogeneity of the assigned locations or road sections. For the model's development, 55 intersections located in the Daejeon metropolitan area were selected as the scope of the study, and panel data such as the number of crashes, traffic volume, and intersection geometry at each intersection were collected for the analysis. RESULTS : Based on the results of the RP negative binomial crash prediction model developed in this study, it was found that the independent variables such as the log form of average annual traffic volume, presence or absence of left-turn lanes on major roads, presence or absence of right-turn lanes on minor roads, and the number of crosswalks were statistically significant random parameters, and this showed that the variables have a heterogeneous influence on individual intersections. CONCLUSIONS : It was found that the RP model had a better fit to the data than the fixed parameters (FP) model since the RP model reflects the heterogeneity of the individual observations and captures the inconsistent and biased effects.