• Title/Summary/Keyword: 데이터생성

Search Result 7,167, Processing Time 0.034 seconds

The way to combine heterogeneous time series data (서로 다른 특성의 파편화된 데이터 결합 방법)

  • Moon, Jaewon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2021.07a
    • /
    • pp.689-690
    • /
    • 2021
  • 본 논문에서는 다양한 환경에서 수집된 서로 다른 시계열 데이터를 통합하여 분석 활용하기 위해 추가로 생성해야 할 시계열 데이터의 메타 정보를 정의하고 이를 기반하여 새로운 통합 데이터를 생성하는 방법을 소개한다. 시계열 데이터는 표준화된 기술 방법이 없고 다양한 소스에서 생성되기 때문에 이를 통합하고 활용할 경우 그 기준이 없기 때문에 전문적 지식이 없다면 처리에 어려움을 겪는다. 그러므로 서로 다른 특성의 데이터를 새로운 기준에 의거하여 통합하는 것을 목적으로 필요한 메타 정보를 정의하고 이를 기준으로 데이터를 재가공할 수 있도록 하였다.

  • PDF

Generating Adaptive Fuzzy Classification Rules using An Efficient Evolutionary Algorithm (효율적인 진화알고리즘을 이용한 적응형 퍼지 분류 규칙 생성)

  • Ryu, Joung-Woo;Kim, Sung-Eun;Kim, Myung-Won
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.769-771
    • /
    • 2005
  • 데이터 특성이 연속적이고 애매할 때 퍼지규칙으로 분류 규칙을 표현하는 것은 매우 유용하고 효과적이다. 그러나 일반적으로 정확하지 않은 데이터 특성에 대해서 소속함수를 결정한다는 것은 어려운 일이다. 본 논문에서는 진화알고리즘을 이용하여 효과적인 퍼지 분류 규칙을 자동으로 생성하는 방법을 제안한다. 제안한 방법에서 규칙의 정확성과 이해성을 고려하여 최적화된 소속함수를 생성하기 위해 진화알고리즘을 사용한다. 먼저 지도 군집화로 진화를 위한 초기 소속함수를 생성한다. 진화알고리즘은 전역적 최적 해를 찾는데 효과적이다. 그러나 시간에 대한 효율성이 낮다. 특히 모델 최적화 문제에서는 개체 평가 단계에서 많은 시간이 소요된다. 따라서 본 논문에서는 전체 데이터를 여러 개의 부분 데이터들로 나누고 개체들은 전체 데이터 대신 매번 부분 데이터를 임의적으로 선택하여 개체를 평가함으로써 수행 시간을 단축시킬 수 있는 진화 방법을 제안한다. 제안한 퍼지 분류 규칙 생성 방법의 타당성을 검증하기 위한 실험 데이터로 UCI에서 제공하는 데이터들을 사용하였으며, 실험 결과는 기존 방법에 비해 평균적으로 더 효과적임을 확인하였다.

  • PDF

An Enhanced DBSCAN Algorithm to Consider Various Density Distributions for Educational Data (교육데이터 정제를 위한 다양한 밀도분포를 고려한 개선된 DBSCAN 알고리즘)

  • Kim, Jeong-Hun;Nasridinov, Aziz
    • Proceedings of The KACE
    • /
    • 2018.01a
    • /
    • pp.41-44
    • /
    • 2018
  • 교육데이터마이닝은 다양한 교육 환경에서 생성되는 막대한 양의 데이터를 활용하여 학습자들의 학습 유형, 학습 진도를 분석, 예측하고 교육 성취를 효과적으로 향상시키는 것을 목적으로 한다. 효과적인 교육데이터마이닝 결과를 얻기 위해서는 교육데이터에 대한 정제 과정이 필요하며 DBSCAN 클러스터링을 통해 교육데이터에 포함된 노이즈 데이터를 제거하고 생성된 각 클러스터에서 동일한 비율로 데이터를 추출함으로써 편향되지 않은 표본 데이터를 생성할 수 있다. 하지만 DBSCAN은 두 개의 전역 매개변수에 의해 다양한 밀도분포를 가지는 클러스터를 생성할 수 없다는 문제점이 있으며 이는 교육 데이터를 정제함에 있어 치명적인 문제점이 될 수 있다. 본 논문에서는 DBSCAN의 문제점을 개선하고 클러스터링 정확도를 향상시키기 위해 고정된 매개변수를 사용하지 않고 각 밀도분포에 대해 최적의 입력 매개변수를 결정함으로써 다양한 밀도분포를 가지는 클러스터들을 효과적으로 생성하는 C-DBSCAN을 제안한다.

  • PDF

DSM Generation using LIDAR and Image Data (라이다 데이터와 항공영상을 이용한 DSM 생성)

  • Hong, Ju-Seok;Choi, Kyoung-Ah;Lee, Im-Pyeong;Min, Seung-Hong
    • Proceedings of the KSRS Conference
    • /
    • 2009.03a
    • /
    • pp.66-71
    • /
    • 2009
  • 최근 가상도시, 위치기반시스템 등 여러 분야에서 도심지역의 고해상도 DSM의 수요가 증가하고 있다. 고해상도 DSM을 획득하는데 항공 라이다 측량은 가장 효율적이고 경제적인 방법으로 인정받고 있다. 그러나 레이저 펄스는 도시건물의 모서리와 코너보다는 주로 표면에서 반사되기 때문에 일반적으로 라이다 DSM은 명확한 수직 breakline을 포함하기 힘들다. 이에 본 연구에서는 라이다 데이터와 항공영상의 결합을 통해서 고품질의 도시지역 DSM을 생성하는 새로운 방법을 제안하고자 한다. 제안된 방법은 (1) 서로 다른 두 센서에서 획득된 라이다 데이터와 영상의 기하 정합, (2) 라이다 데이터를 이용한 영상정합, (3) 영상정합을 통해 획득된 지상점과 라이다 데이터를 이용한 DSM 생성순으로 이루어진다. 영상 정합을 위한 지상점의 초기값으로 대상지의 평균고도를 높이로 사용하는 것이 아니라 라이다 데이터로부터 얻어진 높이를 사용한다면 영상 정합이 아주 정밀하게 이루어 질 수 있다. 이와 함께 정합된 영상으로부터 얻어진 지상점은 라이다 데이터 보다 더 높은 밀도를 갖게 된다. 따라서 DSM 생성을 위한 격자에 라이다 데이터와 영상정합의 결과로 얻어진 지상점 모두를 내삽에 이용하여 DSM을 생성하고자 한다.

  • PDF

Digital Twin Data Generation and Authoring Platform for Ultra-precision Visualization (초정밀 가시화를 위한 디지털 트윈 데이터 생성 및 저작 플랫폼)

  • Jeon, Ji-Hye;Gil, Young-ik;Baek, Hee-won
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • fall
    • /
    • pp.18-20
    • /
    • 2021
  • 디지털 트윈 기술은 산업 분야와 관련된 방대한 데이터를 다루기 때문에 데이터에서 유의미한 인사이트를 도출하는 것은 매우 중요한 이슈이다. 그러기 위해서는 관리자가 데이터를 직관적이고 빠르게 해석하고 이해할 수 있어야 하며 그와 관련된 표출 기술에 관한 연구가 필요하다. 이에 본 논문은 현장에 대한 정확한 이해를 위해 전 산업 현장에서 공통으로 활용할 수 있도록 데이터를 초정밀로 표출하고 자동으로 디지털 트윈 가상 공간의 데이터 생성 및 저작이 가능한 서비스 플랫폼에 대해 논한다. 첫 번째, 데이터 초정밀 가시화를 위해 실사 영상 기반의 3D 가상 공간 및 현장 오브젝트를 자동으로 생성하여 표출하고, 저작 가능한 기술에 대해 논한다. 두 번째, 생성한 데이터를 서비스 하기 위한 경량화 표출 기술에 대해 논한다. 두 가지 기술 요소의 융합으로 디지털 트윈 가상 공간을 빠르게 생성하여 시간과 비용을 절감할 수 있고, 서비스 가능한 형태로 변환하여 광역 표출 확장성에 대한 효과를 검증하였다.

  • PDF

Design of a Waste Generation Model based on the Chat-GPT and Diffusion Model for data balance (데이터 균형을 위한 Chat-GPT와 Diffusion Model 기반 폐기물 생성모델 설계)

  • Siung Kim;Junhyeok Go;Jeonghyeon Park;Nammee Moon
    • Annual Conference of KIPS
    • /
    • 2023.05a
    • /
    • pp.667-669
    • /
    • 2023
  • 데이터의 균형은 객체 인식 분야에서 영향을 미치는 요인 중 하나이다. 본 논문에서는 폐기물 데이터 균형을 위해 Chat-GPT와 Diffusion model 기반 데이터 생성 모델을 제안한다. Chat-GPT를 사용하여 폐기물의 속성에 해당하는 단어를 생성하도록 질문하고, 생성된 단어는 인코더를 통해 벡터화시킨다. 이 중 폐기물과 관련 없는 단어를 삭제 후, 남은 단어들을 결합하는 전처리 과정을 거친다. 결합한 벡터는 디코더를 통해 텍스트 데이터로 변환 후, Stable Diffusion model에 입력되어 텍스트와 상응하는 폐기물 데이터를 생성한다. 이 데이터는 AI Hub의 공공 데이터를 활용하며, 객체 인식 모델인 YOLOv5로 학습해 F1-score와 mAP로 평가한다.

An Improved Technique of Fitness Evaluation for Automated Test Data Generation (테스트 데이터 자동 생성을 위한 적합도 평가 방법의 효율성 향상 기법)

  • Lee, Sun-Yul;Choi, Hyun-Jae;Jeong, Yeon-Ji;Bae, Jung-Ho;Kim, Tae-Ho;Chae, Heung-Suk
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.12
    • /
    • pp.882-891
    • /
    • 2010
  • Many automated dynamic test data generation technique have been proposed. The techniques evaluate fitness of test data through executing instrumented Software Under Test (SUT) and then generate new test data based on evaluated fitness values and optimization algorithms. Previous researches and experiments have been showed that these techniques generate effective test data. However, optimization algorithms in these techniques incur much time to generate test data, which results in huge test case generation cost. In this paper, we propose a technique for reducing the time of evaluating a fitness of test data among steps of dynamic test data generation methods. We introduce the concept of Fitness Evaluation Program (FEP), derived from a path constraint of SUT. We suggest a test data generation method based on FEP and implement a test generation tool, named ConGA. We also apply ConGA to generate test cases for C programs, and evaluate efficiency of the FEP-based test case generation technique. The experiments show that the proposed technique reduces 20% of test data generation time on average.

Mitigating Data Imbalance in Credit Prediction using the Diffusion Model (Diffusion Model을 활용한 신용 예측 데이터 불균형 해결 기법)

  • Sangmin Oh;Juhong Lee
    • Smart Media Journal
    • /
    • v.13 no.2
    • /
    • pp.9-15
    • /
    • 2024
  • In this paper, a Diffusion Multi-step Classifier (DMC) is proposed to address the imbalance issue in credit prediction. DMC utilizes a Diffusion Model to generate continuous numerical data from credit prediction data and creates categorical data through a Multi-step Classifier. Compared to other algorithms generating synthetic data, DMC produces data with a distribution more similar to real data. Using DMC, data that closely resemble actual data can be generated, outperforming other algorithms for data generation. When experiments were conducted using the generated data, the probability of predicting delinquencies increased by over 20%, and overall predictive accuracy improved by approximately 4%. These research findings are anticipated to significantly contribute to reducing delinquency rates and increasing profits when applied in actual financial institutions.

A Character Animation Tool Based on Motion Mapping (모션 매핑 기반의 캐릭터 애니메이션 개발 도구)

  • Lee, Minguen;Lee, Myeong Won
    • Journal of the Korea Computer Graphics Society
    • /
    • v.5 no.2
    • /
    • pp.43-52
    • /
    • 1999
  • In this paper, we present an animation toolkit based on motion mapping technique in a graphics user interface that can represent data structures necessary for generating character motions. The motion mapping means that an animation sequence generated once can be mapped to another object directly according a data structure in the graphics user interface. Users can generate animation sequences interactively using a mouse. These are obtained automatically by modifying motion data structures interactively. Compared with other conventional tools, the toolkit has different features that two hierarchical structures necessary for representing modeling and animation data are managed independently each other, and that animations generated can be applied to any other characters by connecting the two hierarchical structures in the user interface.

  • PDF

Automatic question generation based on image captioning data & visual QA data (Image captioning 데이터와 Visual QA 데이터를 활용한 질문 자동 생성)

  • Lee, Gyoung Ho;Choi, Yong Seok;Lee, Kong Joo
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.176-180
    • /
    • 2016
  • 대화형 시스템이 사람의 경청 기술을 모방할 수 있다면 대화 상대방과 더 효과적으로 상호작용 할 수 있을 것이다. 본 논문에서는 시스템이 경청 기술을 모방할 수 있도록 사용자의 발화를 기반으로 질문을 생성하는 것에 대해 연구하였다. 그리고 이러한 연구를 위해 필요한 데이터를 Image captioning과 Visual QA 데이터를 기반으로 생성하고 활용하는 방안에 대해 제안한다. 또한 이러한 데이터를 Attention 메커니즘을 적용한 Sequence to sequence 모델에 적용하여 질문을 생성하고, 생성된 질문의 질문 유형을 분석하였다. 마지막으로 사람이 작성한 질문과 모델의 질문 생성 결과 비교를 BLEU 점수를 이용하여 수행하였다.

  • PDF