• Title/Summary/Keyword: 학습 데이터

Search Result 6,359, Processing Time 0.035 seconds

Data Set Design Method for developing Automatic Video Quality Measurement Technology (비디오 화질 자동 측정 기술 개발을 위한 데이터 셋 구축 방법)

  • Jeong, Se Yoon;Lee, Dae Yeol;Jeong, Yeonsoo;Kim, Tae Hwa;Cho, Seunghyun;Kim, Hui Yong
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2018.06a
    • /
    • pp.223-224
    • /
    • 2018
  • 기계학습 기반 비디오 화질 자동 측정 기술은 주관적 화질 평가를 대체하기 위한 기술로, 비디오를 입력 신호로 화질 평가 결과를 출력 신호로 하는 기계학습 모델을 통해서 개발하는 기술이다. 학습에 필요한 비디오 데이터 셋은 입력 신호인 비디오 시퀀스와 입력의 출력신호로 학습할 주관적 화질 평가 결과로 구성된다. 이때 데이터 셋의 일부는 기계학습 기반 비디오 화질 자동 측정 기술 개발 과정에서 학습에 사용하고, 남은 일부는 개발 기술의 성능 평가에 사용한다. 일반적으로 기계학습 기반 기술의 성능은 학습 데이터의 양과 질에 비례한다. 그러나, 기계학습 기반 비디오 화질 자동 측정 기술 개발에 필요한 데이터 셋은 주관적 화질 평가 결과를 포함해야 하므로, 데이터 양을 늘리는 것은 쉬운 문제가 아니다. 이에 본 논문에서는 압축 비디오에 대한 화질 자동 측정 기술 개발을 위해 필요한 데이터 셋을 양과 질적 측면에서 효율적으로 구축하는 방법을 제안한다. 양적 측면에서 효율성을 높이기 위해 부호화 복잡도와 평가 난이도 기반으로 시퀀스를 선정 방법을, 질적 측면에서 효율성을 높이기 위해 쌍 비교(Pairwise Comparison)기반의 주관적 화질 평가 방법을 제안한다.

  • PDF

Outlier Data Clustering using Factor Score (인자 점수를 이용한 이상치 데이터의 군집화)

  • 전성해;임민택;오경환
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2002.05a
    • /
    • pp.77-80
    • /
    • 2002
  • 이상치를 포함한 학습 데이터의 군집화 전략은 일반적으로 이상치를 포함하여 학습하거나, 이상치를 제거하는 두 가지 선택이 가능하다. 이상치를 제거하지 않고 학습에 반영시켜야 할 경우 한 개 또는 소수의 이상치가 독자적인 군집을 형성하거나 객관적인 군집화를 방해하는 문제가 발생할 수 있다. 이 때 주어진 학습 데이터의 군집 결과가 이상치의 영향으로부터 벗어나기 위해 원래의 학습 데이터에 대한 변환 작업을 거친 후 군집화를 수행할 수 있다. 이러한 변환 방법으로서 본 논문에서는 차원 축소의 기법으로 알려진 인자 분석의 점수를 사용하였다. 인자 점수로 변환된 학습 데이터에 대해 계층적 군집화, K-means 그리고 자기조직화 지도 등과 같은 군집화 알고리즘을 적용하면 이상치가 자신만의 군집을 별도로 형성하지 않고 다른 학습 데이터의 군집에 소속되면서 이상회의 영향으로부터 벗어남을 실험을 통하여 확인하였다.

  • PDF

A Design of Metadata Management System for Multimedia Learning Objects (멀티미디어 학습객체를 위한 메타데이터 관리 시스템의 설계)

  • Park, Moon-Hwa;Kim, Bong-Hwa
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.11b
    • /
    • pp.826-828
    • /
    • 2005
  • E-learning의 학습 컨텐츠는 점차 멀티미디어화 되고, 시스템 환경은 유비쿼터스 네트워크를 기반으로 고도화될(T-learning 및 U-learning) 것으로 예측된다. 학습자가 요구하는 멀티미디어 학습객체를 유비쿼터스 네트워크 환경에서 쉽게 찾아 학습자에게 효율적으로 전달하기 위해서는 메타데이터 관리 시스템의 도움이 필요하다. 이를 위해서는 멀티미디어 학습객체의 특성을 정확하게 기술하는 메타데이터 모델이 필요하고 효율적인 메타데이터 관리 시스템의 개발이 필요하다. 본 논문에서는 멀티미디어 학습객체를 위한 새로운 메타데이터 모델을 제안하고, 효율적인 메타데이터 관리를 위한 새로운 시스템을 설계하였다.

  • PDF

CNN Architecture for Accurately and Efficiently Learning a 3D Triangular Mesh (3차원 삼각형 메쉬를 정확하고 효율적으로 학습하기 위한 CNN 아키텍처)

  • Hong Eun Na;Jong-Hyun Kim
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2023.01a
    • /
    • pp.369-372
    • /
    • 2023
  • 본 논문에서는 삼각형 구조로 구성된 3차원 메쉬(Mesh)에서 합성곱 신경망(Convolution Neural Network, CNN)을 응용하여 정확도가 높은 새로운 학습 표현 기법을 제시한다. 우리는 메쉬를 구성하고 있는 폴리곤의 edge와 face의 로컬 특징을 기반으로 학습을 진행한다. 일반적으로 딥러닝은 인공신경망을 수많은 계층 형태로 연결한 기법을 말하며, 주요 처리 대상은 1, 2차원 데이터 형태인 오디오 파일과 이미지였다. 인공지능에 대한 연구가 지속되면서 3차원 딥러닝이 도입되었지만, 기존의 학습과는 달리 3차원 딥러닝은 데이터의 확보가 쉽지 않다. 혼합현실과 메타버스 시장의 확대로 인해 3차원 모델링 시장이 증가하고, 기술의 발전으로 데이터를 획득할 수 있는 방법이 생겼지만, 3차원 데이터를 직접적으로 학습에 이용하는 방식으로 적용하는 것은 쉽지 않다. 그렇게 때문에 본 논문에서는 산업 현장에서 이용되는 데이터인 메쉬 구조를 폴리곤의 최소 단위인 삼각형 형태로 구성하여 학습 데이터를 구성해 기존의 방법보다 정확도가 높은 학습 기법을 제안한다.

  • PDF

Korean Instruction Tuning Dataset (언어 번역 모델을 통한 한국어 지시 학습 데이터 세트 구축)

  • Yeongseo Lim;HyeonChang Chu;San Kim;Jin Yea Jang;Minyoung Jung;Saim Shin
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.591-595
    • /
    • 2023
  • 최근 지시 학습을 통해 미세 조정한 자연어 처리 모델들이 큰 성능 향상을 보이고 있다. 하지만 한국어로 학습된 자연어 처리 모델에 대해 지시 학습을 진행할 수 있는 데이터 세트는 공개되어 있지 않아 관련 연구에 큰 어려움을 겪고 있다. 본 논문에서는 T5 기반 한국어 자연어 처리 모델인 Long KE-T5로 영어 데이터 세트를 번역하여 한국어 지시 학습 데이터 세트를 구축한다. 또한 구축한 데이터 세트로 한국어로 사전 학습된 Long KE-T5 모델을 미세 조정한 후 성능을 확인한다.

  • PDF

A Study on the Complementary Method of Aerial Image Learning Dataset Using Cycle Generative Adversarial Network (CycleGAN을 활용한 항공영상 학습 데이터 셋 보완 기법에 관한 연구)

  • Choi, Hyeoung Wook;Lee, Seung Hyeon;Kim, Hyeong Hun;Suh, Yong Cheol
    • Journal of the Korean Society of Surveying, Geodesy, Photogrammetry and Cartography
    • /
    • v.38 no.6
    • /
    • pp.499-509
    • /
    • 2020
  • This study explores how to build object classification learning data based on artificial intelligence. The data has been investigated recently in image classification fields and, in turn, has a great potential to use. In order to recognize and extract relatively accurate objects using artificial intelligence, a large amount of learning data is required to be used in artificial intelligence algorithms. However, currently, there are not enough datasets for object recognition learning to share and utilize. In addition, generating data requires long hours of work, high expenses and labor. Therefore, in the present study, a small amount of initial aerial image learning data was used in the GAN (Generative Adversarial Network)-based generator network in order to establish image learning data. Moreover, the experiment also evaluated its quality in order to utilize additional learning datasets. The method of oversampling learning data using GAN can complement the amount of learning data, which have a crucial influence on deep learning data. As a result, this method is expected to be effective particularly with insufficient initial datasets.

연합학습 환경에서 클라이언트 선택의 최적화 기법

  • 박민정;손영진;채상미
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.722-723
    • /
    • 2023
  • 연합학습은 중앙 서버에서 데이터를 수집하는 방식이 아닌 로컬 디바이스 또는 클라이언트에서 학습을 진행하고 중앙 서버로 모델 업데이트만 전송하는 분산 학습 기법으로 데이터 보안 및 개인정보보호를 강화하는 동시에 효율적인 분산 학습을 수행할 수 있다. 그러나, 연합학습 대부분의 시나리오는 클라이언트의 서로 다른 분포 형태인 non-IID 데이터를 대상으로 학습함에 따라 중앙집중식 모델에 비하여 낮은 성능을 보이게 된다. 이에 본 연구에서는 연합학습 모델의 성능을 개선하기 위하여 non-IID 의 환경에서 참여 후보자 중에서 적합한 클라이언트 선택의 최적화 기법을 분석한다.

Performance analysis of deep learning based hologram watermarking according to hologram data (홀로그램 데이터에 따른 딥 러닝 기반 홀로그램 워터마킹의 성능 분석)

  • Lee, Ju-Won;Lee, Jae-Eun;Seo, Young-Ho;Kim, Dong-Wook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.07a
    • /
    • pp.647-649
    • /
    • 2020
  • 본 논문에서는 홀로그램 영상 콘텐츠의 지적재산권 보호를 위하여 워터마킹을 딥 러닝을 기반으로 하는 네트워크로 수행한다고 가정하고, 이 네트워크를 학습시킬 때 학습 데이터 세트를 어떻게 구성하는 것이 워터마킹 네트워크에 가장 효율적인지에 대해, JPEG Pleno에서 표준 데이터 세트로 제공하고 있는 홀로그램들을 사용하여 분석한다. 이 홀로그램들의 표준편차에 따라 학습 데이터세트의 구성을 달리하여 동일한 워터마킹 네트워크에 학습시킨 후 학습에 사용되지 않은 시험 데이터세트를 시험하여 나온 결과의 비가시성과 워터마크, 데이터의 추출률을 비교함으로써 학습 데이터세트 구축 방식에 대해 분석한다.

  • PDF

Machine Learning Data Extension Way for Confirming Genuine of Trademark Image which is Rotated (회전한 상표 이미지의 진위 결정을 위한 기계 학습 데이터 확장 방법)

  • Gu, Bongen
    • Journal of Platform Technology
    • /
    • v.8 no.1
    • /
    • pp.16-23
    • /
    • 2020
  • For protecting copyright for trademark, convolutional neural network can be used to confirm genuine of trademark image. For this, repeated training one trademark image degrades the performance of machine learning because of overfitting problem. Therefore, this type of machine learning application generates training data in various way. But if genuine trademark image is rotated, this image is classified as not genuine trademark. In this paper, we propose the way for extending training data to confirm genuine of trademark image which is rotated. Our proposed way generates rotated image from genuine trademark image as training data. To show effectiveness of our proposed way, we use CNN machine learning model, and evaluate the accuracy with test image. From evaluation result, our way can be used to generate training data for machine learning application which confirms genuine of rotated trademark image.

  • PDF

SimKoR: A Sentence Similarity Dataset based on Korean Review Data and Its Application to Contrastive Learning for NLP (SimKoR: 한국어 리뷰 데이터를 활용한 문장 유사도 데이터셋 제안 및 대조학습에서의 활용 방안 )

  • Jaemin Kim;Yohan Na;Kangmin Kim;Sang Rak Lee;Dong-Kyu Chae
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.245-248
    • /
    • 2022
  • 최근 자연어 처리 분야에서 문맥적 의미를 반영하기 위한 대조학습 (contrastive learning) 에 대한 연구가 활발히 이뤄지고 있다. 이 때 대조학습을 위한 양질의 학습 (training) 데이터와 검증 (validation) 데이터를 이용하는 것이 중요하다. 그러나 한국어의 경우 대다수의 데이터셋이 영어로 된 데이터를 한국어로 기계 번역하여 검토 후 제공되는 데이터셋 밖에 존재하지 않는다. 이는 기계번역의 성능에 의존하는 단점을 갖고 있다. 본 논문에서는 한국어 리뷰 데이터로 임베딩의 의미 반영 정도를 측정할 수 있는 간단한 검증 데이터셋 구축 방법을 제안하고, 이를 활용한 데이터셋인 SimKoR (Similarity Korean Review dataset) 을 제안한다. 제안하는 검증 데이터셋을 이용해서 대조학습을 수행하고 효과성을 보인다.

  • PDF