• 제목/요약/키워드: Log Data

검색결과 2,130건 처리시간 0.027초

두 개의 맥스웰분포의 모수비에 대한 우도함수 추론 (Likelihood based inference for the ratio of parameters in two Maxwell distributions)

  • 강상길;이정희;이우동
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.89-98
    • /
    • 2012
  • 이 논문에서는 두 개의 Maxwell분포의 모수들의 동질성을 모수비에 근거하여 검정하는 근사통계량을 제안한다. Maxwell분포의 모수비에 대한 추정량이 복잡하여 정확한 분포를 유도하기는 매우 어렵다. 이러한 문제를 해결하기 위한 하나의 대안으로 표준정규분포로 근사적으로 수렴하는 통계량을 고려해야 한다. 이 논문에서 제안된 통계량은 표준정규분포로 수렴하며, 표본의 수가 작은 경우에도 사용할 수 있다. 특히, 본 논문에서는 부호화 로그 우도비 통계량과 수정된 부호화 로그 우도비 통계량을 개발한다. 일반적으로, 수정된 부호화 로그 우도비 통계량은 로그 우도비 통계량에 비해 표준정규분포로 수렴하는 속도가 매우 빠르다. 부호화 로그 우도비 통계량은 작은 표본으로도 표준정규분포로 매우 빨리 수렴한다. 제안된 통계량들의 성질들을 모의실험을 통하여 알아보고, 제안된 통계량을 예제를 통하여 연구한다.

Design of a machine learning based mobile application with GPS, mobile sensors, public GIS: real time prediction on personal daily routes

  • Shin, Hyunkyung
    • International journal of advanced smart convergence
    • /
    • 제7권4호
    • /
    • pp.27-39
    • /
    • 2018
  • Since the global positioning system (GPS) has been included in mobile devices (e.g., for car navigation, in smartphones, and in smart watches), the impact of personal GPS log data on daily life has been unprecedented. For example, such log data have been used to solve public problems, such as mass transit traffic patterns, finding optimum travelers' routes, and determining prospective business zones. However, a real-time analysis technique for GPS log data has been unattainable due to theoretical limitations. We introduced a machine learning model in order to resolve the limitation. In this paper presents a new, three-stage real-time prediction model for a person's daily route activity. In the first stage, a machine learning-based clustering algorithm is adopted for place detection. The training data set was a personal GPS tracking history. In the second stage, prediction of a new person's transient mode is studied. In the third stage, to represent the person's activity on those daily routes, inference rules are applied.

On Sample Size Calculation in Bioequivalence Trials

  • Kang, Seung-Ho
    • 대한약학회:학술대회논문집
    • /
    • 대한약학회 2003년도 Proceedings of the Convention of the Pharmaceutical Society of Korea Vol.1
    • /
    • pp.117.2-118
    • /
    • 2003
  • Sample size calculations plays an important role in a bioequivalence trials and is determined by considering power under the alternative hypothesis. The regulatory guideline recommends that $2{\times}2$ crossover design is conducted and raw data is log-transformed for statistical analysis. In this paper, we discuss the sample size calculation in $2{\times}2$ crossover design with the log-transformed data.

  • PDF

웹 사용 데이타와 하이퍼링크 구조를 통합한 웹 네비게이션 마이닝 (Web Navigation Mining by Integrating Web Usage Data and Hyperlink Structures)

  • 구흠모;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.416-427
    • /
    • 2005
  • 웹 네비게이션 마이닝은 웹 접근 로그 데이타를 분석하여 웹을 항해하는 패턴을 발견하는 기법이다. 하지만 사용자들은 웹을 항해할 때 정상적인 계층적 경로를 따르지 않는 경우가 많기 때문에 웹 접근 로그 데이타에는 웹 항해 패턴 발견에 장애가 되는 잡음 정보가 많이 포함된다. 결과적으로 웹 접근 로그 데이타만을 이용한 기존의 웹 네비게이션 마이닝은 이런 잡음을 해결하기 위한 전처리 과정의 복잡성 등으로 인하여 웹 항해 패턴을 효율적으로 발견하는 데 좋은 성능을 보여주지 못했다. 이런 문제를 해결하기 위해 본 논문에서는 웹 접근 로그 데이타 외에 웹의 하이퍼링크 구조 정보를 함께 이용하여 웹 네비게이션 패턴을 효율적으로 발견하는 기법을 제시하였다. 웹 사이트의 계층적인 하이퍼링크 구조로부터 생성된 WebTree라 불리는 구조를 이용하여 웹 접근 로그 데이타에 포함된 비정상적인 경로에 대한 잡음을 효율적으로 제거하였다. 이 기법을 이용해 구현된 SPMiner(Sequence Pattern Miner) 시스템은 로그 데이타와 하이퍼링크 계층구조를 함께 이용함으로써 전처리의 오버헤드를 현저히 감소시켰고 결과적으로 효율적으로 네비게이션 패턴을 찾아주고 이를 추천에 이용할 수 있는 기반을 제시하였다.

무응답이 있는 설문조사연구의 접근법 : 한국노인약물역학코호트 자료의 평가 (An Approach to Survey Data with Nonresponse: Evaluation of KEPEC Data with BMI)

  • 백지은;강위창;이영조;박병주
    • Journal of Preventive Medicine and Public Health
    • /
    • 제35권2호
    • /
    • pp.136-140
    • /
    • 2002
  • Objectives : A common problem with analyzing survey data involves incomplete data with either a nonresponse or missing data. The mail questionnaire survey conducted for collecting lifestyle variables on the members of the Korean Elderly Phamacoepidemiologic Cohort(KEPEC) in 1996 contains some nonresponse or missing data. The proper statistical method was applied to evaluate the missing pattern of a specific KEPEC data, which had no missing data in the independent variable and missing data in the response variable, BMI. Methods : The number of study subjects was 8,689 elderly people. Initially, the BMI and significant variables that influenced the BMI were categorized. After fitting the log-linear model, the probabilities of the people on each category were estimated. The EM algorithm was implemented using a log-linear model to determine the missing mechanism causing the nonresponse. Results : Age, smoking status, and a preference of spicy hot food were chosen as variables that influenced the BMI. As a result of fitting the nonignorable and ignorable nonresponse log-linear model considering these variables, the difference in the deviance in these two models was 0.0034(df=1). Conclusion : There is a lot of risk if an inference regarding the variables and large samples is made without considering the pattern of missing data. On the basis of these results, the missing data occurring in the BMI is the ignorable nonresponse. Therefore, when analyzing the BMI in KEPEC data, the inference can be made about the data without considering the missing data.

Smart-Walk 시스템에서 스트림 빅데이터 분석을 통한 최적화 기법 (An Optimization Technique for Smart-Walk Systems Using Big Stream Log Data)

  • 조완섭;양경은;이중엽
    • 한국산업정보학회논문지
    • /
    • 제17권3호
    • /
    • pp.105-114
    • /
    • 2012
  • 본 논문에서는 장애인의 보행을 지원하는 Smart-Walk 시스템에서 하나의 시스템으로 여러 유형의 장애인을 지원할 수 있도록 하는 유니버설 디자인개념의 데이터베이스 구축방안을 제시한다. 또한, 운행로그를 분석하여 사용자의 사용현황과 이탈비율을 계산함으로써 시스템의 최적운영을 지원하는 방안을 제시한다. 다양한 사용자 유형과 그에 적합한 사용방법들을 데이터베이스에 저장하고 관리함으로써 간단하게 다양한 유형의 사용자들에게 지원할 수 있는 방법은 진정한 유니버설디자인 이념의 실현이라 할 수 있다. 사용자의 운행로그를 데이터웨어하우스 형태로 저장하고 온라인 분석 기법을 적용함으로써 시스템의 최적 운영에 유용한 정보를 실시간으로 추출해 낼 수 있게 된다.

Comparison of Parametric and Bootstrap Method in Bioequivalence Test

  • Ahn, Byung-Jin;Yim, Dong-Seok
    • The Korean Journal of Physiology and Pharmacology
    • /
    • 제13권5호
    • /
    • pp.367-371
    • /
    • 2009
  • The estimation of 90% parametric confidence intervals (CIs) of mean AUC and Cmax ratios in bioequivalence (BE) tests are based upon the assumption that formulation effects in log-transformed data are normally distributed. To compare the parametric CIs with those obtained from nonparametric methods we performed repeated estimation of bootstrap-resampled datasets. The AUC and Cmax values from 3 archived datasets were used. BE tests on 1,000 resampled data sets from each archived dataset were performed using SAS (Enterprise Guide Ver.3). Bootstrap nonparametric 90% CIs of formulation effects were then compared with the parametric 90% CIs of the original datasets. The 90% CIs of formulation effects estimated from the 3 archived datasets were slightly different from nonparametric 90% CIs obtained from BE tests on resampled datasets. Histograms and density curves of formulation effects obtained from resampled datasets were similar to those of normal distribution. However, in 2 of 3 resampled log (AUC) datasets, the estimates of formulation effects did not follow the Gaussian distribution. Bias-corrected and accelerated (BCa) CIs, one of the nonparametric CIs of formulation effects, shifted outside the parametric 90% CIs of the archived datasets in these 2 non-normally distributed resampled log (AUC) datasets. Currently, the 80~125% rule based upon the parametric 90% CIs is widely accepted under the assumption of normally distributed formulation effects in log-transformed data. However, nonparametric CIs may be a better choice when data do not follow this assumption.

빅데이터기반의 로그분석을 통한 통합 관리 솔루션 개발 (Development of integrated management solution through log analysis based on Big Data)

  • 강선경;이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.541-542
    • /
    • 2017
  • 본 논문에서는 복잡하고 다양한 클라우드 환경을 통합하여 간편하게 운영할 수 있는 통합관리 솔류션을 개발하고자 한다. 이는 빅데이터 기반의 정형로그데이터와 비정형로그데이터를 수집하고 분석하여 실시간으로 통합 모니터링이 가능하여 사용자와 관리자가 편리하게 문제를 해결할 수 있다는 장점을 가지고 있다. Hypervisor 로그패턴 분석 기술을 통해 기존의 복잡하고 다양한 클라우드 환경을 좀 더 효율적으로 운용 관리할 수 있는 솔루션이라 하겠다.

  • PDF

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

웹 사용 마이닝에서의 데이터 수집 전략과 그 응용에 관한 연구 (Research on Data Acquisition Strategy and Its Application in Web Usage Mining)

  • 염종림;정석태
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권3호
    • /
    • pp.231-241
    • /
    • 2019
  • 웹 사용 마이닝 (WUM)은 웹 마이닝과 데이터 마이닝 기술의 응용 중의 하나다. 웹 마이닝 기술은 사용자가 웹 사이트에 액세스 할 때 웹 사용자가 생성 한 웹 서버 로그 데이터를 사용하여 사용자의 액세스 패턴을 식별하고 분석하는데 사용된다. 따라서 우선 데이터 마이닝 기술을 적용하여 웹 로그에서 사용자 액세스 패턴을 발견하기 전에 합리적인 방법으로 데이터를 수집해야 한다. 데이터 수집의 중요한 일은 사용자의 웹 사이트 방문 과정에서 사용자의 자세한 클릭 동작을 효율적으로 얻는 것이다. 이 논문은 주로 데이터 수집 전략 및 필드 추출 알고리즘과 같은 웹 사용 마이닝 데이터 프로세스의 첫 단계 이전의 데이터 수집 단계에 중점을 둔다. 필드 추출 알고리즘은 로그 파일에서 필드를 분리하는 프로세스를 수행하며 대용량의 사용자 데이터에 대한 실제 응용에도 사용된다.