• 제목/요약/키워드: synthetic data

검색결과 1,427건 처리시간 0.03초

다중대체와 재현자료 작성 (Multiple imputation and synthetic data)

  • 김정연;박민정
    • 응용통계연구
    • /
    • 제32권1호
    • /
    • pp.83-97
    • /
    • 2019
  • 사회가 발전함에 따라 이용자의 다양한 분석 요구에 대응하기 위해 개인 단위로 구성된 마이크로데이터 제공이 증가했다. 나아가 센서스, 행정자료와 같은 전수자료를 마이크로데이터 형태로 제공받아 연구하고자 하는 요구 역시 커지고 있다. 정책결정, 학술목적 등을 위한 마이크로데이터 분석은 가치 창출 측면에서 대단히 바람직하다. 하지만 자료 유용성이 확보된 마이크로데이터 제공은 개인정보가 노출될 가능성이라는 위험을 가질 수 밖에 없다. 이에, 자료의 유용성을 확보하면서 개인정보보호를 보장할 수 있는 여러 방법들이 고려되어 왔다. 이러한 방법 중 하나로 재현자료(synthetic data)를 생성해서 활용하는 방법이 연구되어 왔다. 본 논문은 재현자료 생성과 관련된 방법론 및 주의사항을 소개하여, 재현자료의 이해를 도모하고자 한다. 이를 위해 재현자료 작성에 필수적인 다중대체, 베이지안 예측 모형 및 베이지안 붓스트랩 등의 개념들을 먼저 설명하고, 완전 재현자료 및 부분 재현자료에 대해 살펴본다. 특히, 재현자료 작성을 심도 깊이 이해하기 위해 순차회귀 다중대체(sequential regression multivariate imputation)를 이용해 경시적(longitudinal) 자료를 재현자료로 작성하는 구체적 사례를 살펴본다.

주성분 분석을 활용한 재현자료 생성 (Synthetic data generation by probabilistic PCA)

  • 박민정
    • 응용통계연구
    • /
    • 제36권4호
    • /
    • pp.279-294
    • /
    • 2023
  • 재현자료를 생성할 때 순차회귀 다중대체(SRMI)를 이용하는 방식이 가장 널리 알려져 있으며, 이를 구현한 소프트웨어로 R-패키지 synthpop이 활용되고 있다. 본 논문에서는 확률적 주성분 분석(PPCA)을 이용하여 재현자료를 생성하는 방안을 제안하고 2개의 데이터 세트를 이용한 모의실험으로 SRMI 방식과 PPCA 방식을 비교하였다. 모의실험에서 PPCA 방식으로 생성한 재현자료는 쌍별 상관계수를 기준으로 원자료와의 유사성이 가장 우수함을 확인하였다. 향후 PPCA 방식을 이용하여 시계열 자료에 대한 재현자료 생성을 연구하고자 한다.

Assessment of Drought on the Goseong-Sokcho Forest Fire in 2019 using Multi-year High-Resolution Synthetic Precipitation Data

  • Sim, Jihan;Oh, Jaiho
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.379-379
    • /
    • 2020
  • The influence of drought has increased due to global warming. In addition, forest fires have occurred more frequently due to droughts and resulted in property losses and casualty. In this study, the effects of drought on Goseong-Sokcho Forest Fire in 2019 were analyzed using high-resolution synthetic precipitation data. In order to determine the severity of drought, the average, 20%tile and 80%ile values were calculated using the synthetic precipitation data of the past 30 years and compared with the current climatology. We have investigated the multi-year accumulated precipitation data to determine the persistence of drought. In Goseong-Sokcho forest fire case, the two-year cumulative synthetic precipitation data shows a similar value to the climate, but the three-year cumulative synthetic precipitation data was close to the 20%ile lines of the climate value. It may expose that the shortage of precipitation in 2017 had persisted until 2019, despite abundant precipitation during the summer in 2018. Therefore, Goseong-Sokcho forest fire might be spread more rapidly by drought which has been persisted since 2017.

  • PDF

군용물체탐지 연구를 위한 가상 이미지 데이터 생성 (Synthetic Image Generation for Military Vehicle Detection)

  • 오세윤;양훈민
    • 한국군사과학기술학회지
    • /
    • 제26권5호
    • /
    • pp.392-399
    • /
    • 2023
  • This research paper investigates the effectiveness of using computer graphics(CG) based synthetic data for deep learning in military vehicle detection. In particular, we explore the use of synthetic image generation techniques to train deep neural networks for object detection tasks. Our approach involves the generation of a large dataset of synthetic images of military vehicles, which is then used to train a deep learning model. The resulting model is then evaluated on real-world images to measure its effectiveness. Our experimental results show that synthetic training data alone can achieve effective results in object detection. Our findings demonstrate the potential of CG-based synthetic data for deep learning and suggest its value as a tool for training models in a variety of applications, including military vehicle detection.

Human Detection using Real-virtual Augmented Dataset

  • Jongmin, Lee;Yongwan, Kim;Jinsung, Choi;Ki-Hong, Kim;Daehwan, Kim
    • Journal of information and communication convergence engineering
    • /
    • 제21권1호
    • /
    • pp.98-102
    • /
    • 2023
  • This paper presents a study on how augmenting semi-synthetic image data improves the performance of human detection algorithms. In the field of object detection, securing a high-quality data set plays the most important role in training deep learning algorithms. Recently, the acquisition of real image data has become time consuming and expensive; therefore, research using synthesized data has been conducted. Synthetic data haves the advantage of being able to generate a vast amount of data and accurately label it. However, the utility of synthetic data in human detection has not yet been demonstrated. Therefore, we use You Only Look Once (YOLO), the object detection algorithm most commonly used, to experimentally analyze the effect of synthetic data augmentation on human detection performance. As a result of training YOLO using the Penn-Fudan dataset, it was shown that the YOLO network model trained on a dataset augmented with synthetic data provided high-performance results in terms of the Precision-Recall Curve and F1-Confidence Curve.

이상 탐지를 위한 합성 데이터 생성 및 성능 분석 (Synthetic Data Generation and Performance Analysis for Anomaly Detection)

  • 황주효;진교홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.19-21
    • /
    • 2022
  • 자기 지도 학습을 이용한 이상 탐지는 일반적으로 합성 데이터를 생성해 정상과 이상을 학습하고, 실제 이상 데이터를 테스트 데이터로 사용하여 이상 탐지 성능을 측정한다. 정상 데이터와 유사한 합성 데이터를 생성하기 위해 기존 연구에서는 원본 이미지에서 특정 패치를 자르고 붙이는 식으로 합성 데이터를 생성한다. 이런 방식에서 정상 데이터와 유사한 정도는 패치 개수와 크기에 따라 달라지므로 이상 탐지 성능에 영향을 미칠 수 있다. 본 연구에서는 패치 크기 및 개수를 다르게 하여 합성 데이터를 생성한 뒤 사전 학습된 모델을 사용하여 정상 데이터와의 유사성 측정 및 분석을 진행하였고 모델을 학습시켜 이상 탐지 성능을 측정하여 보았다.

  • PDF

SEDRIS 합성 환경 데이터 가시화를 위한 변환기 개발 (Development of a Converter for Visualizing SEDRIS)

  • 강윤아;김형기;한순흥;김만규
    • 한국CDE학회논문집
    • /
    • 제18권3호
    • /
    • pp.189-199
    • /
    • 2013
  • The need for reusing synthetic environment data that are employed in the field of modeling and simulation has recently been rising. SEDRIS (Synthetic Environment Data Representation & Interchange Specification) is a standard to exchange synthetic environment data, and is the specification utilized in various military simulations of the Pentagon for representing and exchanging 3D data. SEDRIS represents environmental areas based on a data model; it can represent wind speed, wind directions, weather changes, the information of buildings, as well as terrain data. In some situations, however, the synthetic environment data stored in SEDRIS format should be converted to various visualization formats. First, because SEDRIS is a form of a super-set, it is necessary to verify whether large scale SEDRIS files are stored successfully through visualization. Second, the synthetic environment data should be visualized in some visualization programs for the simulation results to provide an immersive and realistic sense. In this study, we have developed converters for converting SEDRIS data to various visualization formats and visualized the converted results.

Game Engine Driven Synthetic Data Generation for Computer Vision-Based Construction Safety Monitoring

  • Lee, Heejae;Jeon, Jongmoo;Yang, Jaehun;Park, Chansik;Lee, Dongmin
    • 국제학술발표논문집
    • /
    • The 9th International Conference on Construction Engineering and Project Management
    • /
    • pp.893-903
    • /
    • 2022
  • Recently, computer vision (CV)-based safety monitoring (i.e., object detection) system has been widely researched in the construction industry. Sufficient and high-quality data collection is required to detect objects accurately. Such data collection is significant for detecting small objects or images from different camera angles. Although several previous studies proposed novel data augmentation and synthetic data generation approaches, it is still not thoroughly addressed (i.e., limited accuracy) in the dynamic construction work environment. In this study, we proposed a game engine-driven synthetic data generation model to enhance the accuracy of the CV-based object detection model, mainly targeting small objects. In the virtual 3D environment, we generated synthetic data to complement training images by altering the virtual camera angles. The main contribution of this paper is to confirm whether synthetic data generated in the game engine can improve the accuracy of the CV-based object detection model.

  • PDF

딥러닝 기반 탄성파 단층 해석을 위한 합성 학습 자료 생성 (Synthetic Training Data Generation for Fault Detection Based on Deep Learning)

  • 최우창;편석준
    • 지구물리와물리탐사
    • /
    • 제24권3호
    • /
    • pp.89-97
    • /
    • 2021
  • 탄성파 자료에서의 단층 해석은 기계학습을 적용하기 매우 적합한 분야라고 할 수 있다. 결과적으로 다양한 형태의 기계학습 기반 단층 해석 기술들이 개발되고 있으며, 특히 합성 자료를 사용해 기계학습 모델을 훈련시키는 연구들이 중점적으로 수행되고 있다. 합성 자료를 사용할 경우 기계학습 모델을 훈련시키기 위한 대량의 자료를 확보하기가 용이하고, 정확한 단층 구조 라벨을 함께 제작할 수 있다는 장점이 있다. 합성 자료로 훈련시킨 모델을 사용해 현장 자료를 해석하기 위해서는 모델 훈련에 사용한 합성 자료가 지질학적으로 현실적이어야 한다. 이 연구에서는 실제 현장 자료와 유사한 합성 자료 제작을 위한 기술을 소개한다. 먼저 현실적인 단층 구조가 포함된 반사계수 모델을 제작한 후 일방향 파동 방정식 모델링을 적용해 효율적으로 겹쌓기 단면을 생성한다. 생성된 겹쌓기 단면에 참반사보정을 적용해 회절파의 영향을 제거하고, 무작위 잡음을 추가함으로써 현장 자료와 비슷한 형태의 합성 자료를 생성할 수 있다. 생성한 합성 자료를 U-Net 구조의 합성곱 신경망 모델에 적용하여 검증한 결과, 현실적으로 만들어진 합성 자료는 현장 자료에 적용이 가능한 딥러닝 모델을 효과적으로 훈련시킬 수 있다는 것을 확인하였다.

시계열 생성적 적대 신경망을 이용한 비행체 궤적 합성 데이터 생성 및 비행체 궤적 예측에서의 활용에 관한 연구 (A Study on Synthetic Flight Vehicle Trajectory Data Generation Using Time-series Generative Adversarial Network and Its Application to Trajectory Prediction of Flight Vehicles)

  • 박인희;이창진;정찬호
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.766-769
    • /
    • 2021
  • 딥러닝을 포함한 머신러닝 기법을 기반으로 비행체의 궤적 설계, 제어, 최적화, 예측 등의 작업을 수행하기 위해서는 일정한 양 이상의 비행체 궤적 데이터를 필요로 한다. 그러나 다양한 이유(예를 들어 비행체 궤적 데이터셋 구축에 필요한 비용, 시간, 인력 등)로 일정한 양 이상의 비행체 궤적 데이터를 확보하기 어려운 경우가 존재한다. 이러한 경우 합성 데이터 생성이 머신러닝을 가능하게 하는 방법 중 하나가 될 수 있다. 본 논문에서는 이와 같은 가능성을 탐구하기 위하여 시계열 생성적 적대 신경망을 이용하여 비행체 궤적 합성 데이터를 생성하고 평가하였다. 또한 비행체의 상태를 인식하기 위한 비행체 궤적 예측 작업에서 합성 데이터의 활용 가능성을 탐구하기 위하여 다양한 ablation study(비교 실험)를 수행하였다. 본 논문에서 제시된 생성 평가 및 비교 실험 결과는 비행체 궤적 합성 데이터 생성 및 비행체 궤적 관련 작업에서 합성 데이터의 활용 가능성에 대한 연구를 수행하고자 하는 연구자들에게 실질적인 도움이 될 것으로 예상한다.