• 제목/요약/키워드: Data Set Records

검색결과 197건 처리시간 0.029초

모델트리의 결측치 처리 방법에 따른 콜레스테롤수치 예측의 성능 변화 (Using Missing Values in the Model Tree to Change Performance for Predict Cholesterol Levels)

  • 정용규;원재강;신성철
    • 서비스연구
    • /
    • 제2권2호
    • /
    • pp.35-43
    • /
    • 2012
  • 데이터 마이닝은 특정분야에서만 관심을 갖는 분야가 아니라 현재 우리주변 여러 분야에서 많이 사용되고 응용되고 있다. 즉, 수많은 데이터 가운데 숨겨져 있는 유용한 상관관계를 발견하여, 미래에 실행 가능한 정보를 예측하여 추출해 내고 추후에 의사 결정에 이용하는 과정을 말한다. 하지만, 일부 데이터 집합에서는 매우 많은 결측치를 포함하는 변수들이 존재한다. 다시 말해서 다수의 레코드에서 측정치가 존재하지 않는 데이터 집합이 존재한다. 그래서 본 논문에서는 Cholesterol 값을 예측하기 위한 결측치 처리에 따른 모델트리 알고리즘을 적용하고, 실험을 통해서 각 처리방식에 대한 성능을 분석한다. 또는 이 결과를 통하여 결측치 대체방법에 대한 효율적인 적용사례를 제시한다.

  • PDF

층화추출법에 의한 해양기상환경의 표본추출 타당성 연구 (Feasibility Study on Sampling Ocean Meteorological Data using Stratified Method)

  • 한송이;조용진
    • 한국해양공학회지
    • /
    • 제28권3호
    • /
    • pp.254-259
    • /
    • 2014
  • The infrared signature of a ship is largely influenced by the ocean environment of the operating area, which has been known to cause large changes in the signature. As a result, the weather condition has to be clearly set for an analysis of the infrared signatures. It is necessary to analyze meteorological data for all the oceans where the ship is supposed to be operated. This is impossibly costly and time consuming because of the huge size of the data. Therefore, the creation of a standard environmental variable for an infrared signature research is necessary. In this study, we compared and analyzed sampling methods to represent ocean data close to the Korean peninsula. In order to perform this research, we collected ocean meteorological records from KMA (Korea Meteorological Administration), and sampled these in numerous ways considering five variables that are known to affect the infrared signature. Specifically, a simple random sampling method for all the data and 1-D, 2-D, and 3-D stratified sampling methods were compared and analyzed by considering the mean square errors for each method.

국내 기록보존 연구동향 분석: 2000~2021년 학술논문을 중심으로 (A Study on the Research Trends of Archival Preservation Papers in Korea from 2000 to 2021)

  • 나연휘;박희진
    • 한국기록관리학회지
    • /
    • 제22권4호
    • /
    • pp.175-196
    • /
    • 2022
  • 본 연구는 연구자가 부여한 논문의 키워드 분석을 통해 기록보존 분야의 연구동향을 밝히고 시간의 경과에 따른 기록보존 분야 연구 주제의 변천과정을 파악하고자 하였다. 2000년부터 2021년까지 국내 학술지에 게재된 기록보존 연구 463편을 중심으로 NetMiner V.4를 통해 연결 중심성 분석과 매개 중심성 분석을 수행하였다. 수집한 연구논문을 학술지 게재 시기에 따라 제1구간(2000년~2007년), 제2구간(2008년~2014년), 제3구간(2015년~2021년)으로 나누어 분석하였다. 분석결과 전 구간에서는 '전자기록'과 '장기보존', 제1구간에서는 'OAIS참조모형', 제2구간에서는 '전자기록', 제3구간에서는 '기록관리기준표'과 '장기보존'이 핵심 주제 키워드로 영향력과 확장성이 높은 것으로 나타났다. 제1구간에서 '디지털 보존', '디지털화', 'OAIS참조모형' 등 기록보존을 위한 개념적 틀과 이론 중심 연구, 제2구간에서 '전자기록', '평가', 'DRAMBORA' 등 보존 활동과 관련된 절차와 실제 적용 중심 연구, 제3구간에서 '데이터세트', '행정정보시스템', '소셜미디어' 등 기록관리 환경 변화에 따른 기술적 구현 연구 주제로 진행되는 과정을 확인하였다.

협업필터링의 신규고객추천 및 희박성 문제 해결을 위한 중심성분석의 활용 (Applying Centrality Analysis to Solve the Cold-Start and Sparsity Problems in Collaborative Filtering)

  • 조윤호;방정혜
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.99-114
    • /
    • 2011
  • 본 연구에서는 협업필터링의 두 가지 근본적인 문제인 신규고객 추천(cold-start recommendation)과 희박성(sparsity) 문제를 해결하고자 한다. 먼저, 사회 네트워크 분석에서 가장 많이 활용 되고 있는 세 가지 중심성 지표인 연결중심성(degree centrality), 근접중심성(closeness centrality), 매개중심성(betweenness centrality)을 결합한 다양한 중심성 지표들을 만든 후 이를 기반으로 신규고객의 잠재 이웃고객을 찾고 그 이웃고객들의 구매정보를 이용하여 신규고객에게 상품을 추천하는 새로운 방법을 제시한다. 다음으로 희박성 문제를 해결하기 위하여, 구매정보가 충분한 고객에게는 협업필터링을, 그렇지 않은 고객에게는 협업필터링 대신 제시한 신규고객 추천방법을 적용하는 하이브리드 추천 방법을 제안한다. 제시한 추천 방법의 효과성을 평가하기 위하여 국내 유명 백화점 중의 하나인 H백화점의 구매 트랜잭션 데이터를 사용하여 실험하였다. 실험결과로부터 근접중심성과 매개중심성을 결합한 지표를 신규고객 추천 시에 사용할 경우 추천 성능이 가장 우수한 것으로 판명되었으며, 제안한 하이브리드 추천 방법이 기존의 협업필터링의 성능을 상당히 개선함으로써 희박성 문제를 해결할 수 있는 새로운 대안임이 입증되었다.

대규모 범죄 수사기록을 활용한 온톨로지 기반 서비스 구현 - 침입 절도 범죄 분야를 중심으로 - (Implementation of Ontology-based Service by Exploiting Massive Crime Investigation Records: Focusing on Intrusion Theft)

  • 고건우;김선우;박성진;노윤주;최성필
    • 한국문헌정보학회지
    • /
    • 제53권1호
    • /
    • pp.57-81
    • /
    • 2019
  • 온톨로지는 특정 분야의 특정 지식과 관련된 용어 및 용어 사이의 관계를 정의하는 복합 구조 사전이다. 국내외로 다양한 온톨로지 구축의 시도가 있었으나 대규모의 범죄 수사기록을 온톨로지로 구축하고 이를 통한 서비스를 구현한 사례는 존재하지 않았다. 따라서 본 논문은 비정형 데이터인 범죄 수사기록 문서 중 침입 절도 분야로부터 추출한 정보를 통해 온톨로지를 구축하고, 온톨로지 기반의 검색 서비스와 범행 장소 추천 서비스를 구현하는 과정을 설명한다. 검색 서비스의 성능을 파악하기 위하여 사건 검색에 대한 정확도 측정 방법 중 하나인 Top-K 방식의 정확도 측정을 실험하였고, 실험 집합에 대하여 최대 93.52%의 정확도를 얻었다. 또한, 범행 장소 추천 서비스의 성능을 파악하기 위한 실험 결과, 실험 데이터셋의 전체에 대해 적합한 단서 필드 조합을 얻어냈으며, F1-measure 76.19%의 성능으로 데이터베이스 내의 범행 장소 필드 정보를 교정할 수 있음을 확인하였다.

Data-Driven Kinematic Control for Robotic Spatial Augmented Reality System with Loose Kinematic Specifications

  • Lee, Ahyun;Lee, Joo-Haeng;Kim, Jaehong
    • ETRI Journal
    • /
    • 제38권2호
    • /
    • pp.337-346
    • /
    • 2016
  • We propose a data-driven kinematic control method for a robotic spatial augmented reality (RSAR) system. We assume a scenario where a robotic device and a projector-camera unit (PCU) are assembled in an ad hoc manner with loose kinematic specifications, which hinders the application of a conventional kinematic control method based on the exact link and joint specifications. In the proposed method, the kinematic relation between a PCU and joints is represented as a set of B-spline surfaces based on sample data rather than analytic or differential equations. The sampling process, which automatically records the values of joint angles and the corresponding external parameters of a PCU, is performed as an off-line process when an RSAR system is installed. In an on-line process, an external parameter of a PCU at a certain joint configuration, which is directly readable from motors, can be computed by evaluating the pre-built B-spline surfaces. We provide details of the proposed method and validate the model through a comparison with an analytic RSAR model with synthetic noises to simulate assembly errors.

비만 폐쇄수면무호흡 환자에서 기계학습을 통한 적정양압 예측모형 (Predictive Model of Optimal Continuous Positive Airway Pressure for Obstructive Sleep Apnea Patients with Obesity by Using Machine Learning)

  • 김승수;양광익
    • Journal of Sleep Medicine
    • /
    • 제15권2호
    • /
    • pp.48-54
    • /
    • 2018
  • Objectives: The aim of this study was to develop a predicting model for the optimal continuous positive airway pressure (CPAP) for obstructive sleep apnea (OSA) patient with obesity by using a machine learning. Methods: We retrospectively investigated the medical records of 162 OSA patients who had obesity [body mass index (BMI) ≥ 25] and undertaken successful CPAP titration study. We divided the data to a training set (90%) and a test set (10%), randomly. We made a random forest model and a least absolute shrinkage and selection operator (lasso) regression model to predict the optimal pressure by using the training set, and then applied our models and previous reported equations to the test set. To compare the fitness of each models, we used a correlation coefficient (CC) and a mean absolute error (MAE). Results: The random forest model showed the best performance {CC 0.78 [95% confidence interval (CI) 0.43-0.93], MAE 1.20}. The lasso regression model also showed the improved result [CC 0.78 (95% CI 0.42-0.93), MAE 1.26] compared to the Hoffstein equation [CC 0.68 (95% CI 0.23-0.89), MAE 1.34] and the Choi's equation [CC 0.72 (95% CI 0.30-0.90), MAE 1.40]. Conclusions: Our random forest model and lasso model ($26.213+0.084{\times}BMI+0.004{\times}$apnea-hypopnea index+$0.004{\times}oxygen$ desaturation index-$0.215{\times}mean$ oxygen saturation) showed the improved performance compared to the previous reported equations. The further study for other subgroup or phenotype of OSA is required.

2016 서울 국제 휠체어 마라톤 경기대회에 참가한 국내 선수의 구간 및 기록변화 분석 (Analysis of race time between Korean athletes participating in 2016 Seoul International Wheelchair Marathon)

  • 김성호;김상훈
    • 산업융합연구
    • /
    • 제18권3호
    • /
    • pp.91-98
    • /
    • 2020
  • 이 연구의 목적은 휠체어 마라톤의 구간별 기록의 차이를 규명하고 훈련에 필요한 정보와 훈련법 개발을 위한 기초자료를 제공하고자 하는데 있다. 이 연구의 대상은 2016년 서울 국제 휠체어 마라톤대회에 참가자 중 42.195km의 풀코스를 완주하여 우승한 외국 남자선수 1명과 국내 상위선수 4명, 총 5명의 기록을 대상으로 분석하였다. 매 5km에 해당하는 구간기록과 완주기록을 사용하였으며 제1구간부터 제9구간으로 설정하였다. 자료처리방법은 통계프로그램인 SPSS 25.0을 이용하여 기술통계(평균, 표준편차)를 사용하였다. 위와 같은 연구방법과 절차에 따라 다음과 같은 결론을 도출하였다. 우승한 W1 선수의 경우 30km에서 35km지점에서 기록은 전체 구간에서 가장 빠른 8분 43초의 기록을 나타냈으며, 국내 1위 선수의 K1 선수보다 1분 4초의 기록 차이를 보였다. 국제 대회에서 상위 입상하기 위해서는 후반 이후 지점에서 빠른 페이스에 적응하는 훈련이 필요하다. 즉, 하프 거리를 기준으로 후반 페이스가 빨라야한다는 것을 알 수 있었다. 또한 전반 하프의 각각의 구간에서 개인 구간별 평균 속도의 수준에 맞는 레이스 페이스를 전개해야 할 것이다. 따라서 초반 레이스를 유지 할 수 있는 체력 훈련 프로그램과 후반 이후의 페이스 변화에 대응할 수 있는 훈련 프로그램을 적용하여야 할 것으로 사료된다.

빅데이터 분석을 통해 본 한국 위키피디아의 지식형성 과정에 관한 연구 (A Study on the Knowledge Formation Process of Wikipedia in Korea through Big Data Analysis)

  • 이정연;전수현
    • 정보관리학회지
    • /
    • 제37권2호
    • /
    • pp.171-195
    • /
    • 2020
  • 본 연구는 대표적인 온라인 협업커뮤니티인 한국 위키피디아의 초기 2002년부터 2019년까지의 편집로그 빅데이터를 해체하여 공동협업과정을 시계열적으로 분석하였다. 공개된 오픈데이터의 표준화된 XML 문서편집 기록을 활용해 Phython과 R을 이용하여 분석 요소를 추출하여 이를 활용하였다. 연구 분석 결과 한국 위키피디아 편집자의 참여 방법, 데이터 내용의 특징, 문서 생성의 추이 등을 설명할 수 있었다. 소수 편집자들의 적극적 활동과 대다수 편집자들의 느슨한 참여도 밝혀졌으며, 온라인에서도 나타나는 사회 문화적 특징이 한국 위키피디아에서도 나타났다. 집단지성을 지속화시키기 위해서는 새롭고 다양한 외부자원이 필수인데 신규 진입자들이 공동편집 커뮤니티에 안착하기 위한 다각적인 고려가 필요하며, 관리자 그룹의 고착화를 탈피하여 순환구조를 통한 개방성이 필요함을 제언하였다.

Prediction of Retail Beef Yield Using Parameters Based on Korean Beef Carcass Grading Standards

  • Choy, Yun-Ho;Choi, Seong-Bok;Jeon, Gi-Jun;Kim, Hyeong-Cheol;Chung, Hak-Jae;Lee, Jong-Moon;Park, Beom-Young;Lee, Sun-Ho
    • 한국축산식품학회지
    • /
    • 제30권6호
    • /
    • pp.905-909
    • /
    • 2010
  • Two sets of data on carcass traits and beef cut parameters were used to investigate the relationships between carcass and beef cut measurements, which can be used to make predictions of retail cut percentages. One set had a total of 1,141 measurements of Hanwoo cattle of three different sex origins, which were slaughtered in an abattoir located at the National Institute of Animal Science, RDA, Korea from 1996 to 2008. To develop prediction models for retail cut percentage with higher accuracies than the current model, another set consisting of a total of 13,389 records of carcass and beef cut traits were collected from 30 abattoirs and butcheries in Korea from 2008 to 2009. Bulls yielded heavier and leaner carcasses than steers. High correlation coefficients were estimated between amount of body fat and percent retail cut (-0.82) as well as between back fat thickness (BF) and percent retail cut (-0.62). The amount of retail cut, however, was highly correlated with body weight before slaughter (BW, 0.95) or with cold carcass weight (CWT, 0.94). Relationships between percent retail cut and measurable beef yield traits, BF, loin eye area (LEA) or CWT varied by sex class, which must be considered for development of a prediction model with high accuracy. Models of data for all breeds and sexes fit the effects of breed, sex, and interaction of abattoir by butchers, whereas models of data for each breed and sex fit the effect of interaction of abattoir by butcher only. Due to possible future changes in back fat control, we performed a log transformation of BF. Our new models fit better than the currently used model.