• Title/Summary/Keyword: 인공지능 학습데이터

Search Result 909, Processing Time 0.032 seconds

AI Performance Based On Learning-Data Labeling Accuracy (인공지능 학습데이터 라벨링 정확도에 따른 인공지능 성능)

  • Ji-Hoon Lee;Jieun Shin
    • Journal of Industrial Convergence
    • /
    • v.22 no.1
    • /
    • pp.177-183
    • /
    • 2024
  • The study investigates the impact of data quality on the performance of artificial intelligence (AI). To this end, the impact of labeling error levels on the performance of artificial intelligence was compared and analyzed through simulation, taking into account the similarity of data features and the imbalance of class composition. As a result, data with high similarity between characteristic variables were found to be more sensitive to labeling accuracy than data with low similarity between characteristic variables. It was observed that artificial intelligence accuracy tended to decrease rapidly as class imbalance increased. This will serve as the fundamental data for evaluating the quality criteria and conducting related research on artificial intelligence learning data.

Molecular Property Prediction with Deep-learning and Pretraining Strategy (사전학습 전략과 딥러닝을 활용한 분자의 특성 예측)

  • Lee, Seungbeom;Kim, Jiye;Kim, Dongwoo;Park, Jaesik;Ahn, Sungsoo
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2022.07a
    • /
    • pp.63-66
    • /
    • 2022
  • 본 논문에서는 분자의 특성을 정확하게 예측하기 위해 효과적인 사전학습(pretraining) 전략과 트랜스포머(Transformer) 모델을 활용한 방법을 제시한다. 딥러닝을 활용한 분자의 성능을 예측하는 연구는 그동안 레이블이 부족한 분자데이터의 특성에 의해 학습 때 사용된 데이터이외의 분자데이터에 대해 일반화 능력이 떨어지는 어려움을 겪었다. 이 논문에서 제시한 모델은 사전학습(pretraining)을 수행할 때 자기지도학습(self-supervised training)을 사용하여 부족한 레이블에 의한 문제점을 피할 수 있다. 대규모 분자 데이터셋으로부터 학습된 이 모델은 4가지 다운스트림 데이터셋에 대해 모두 우수한 성능을 보여주어 일반화 성능이 뛰어나며 효과적인 분자표현을 얻을 수 있음을 보인다.

  • PDF

Method for improving video/image data quality for AI learning of unstructured data (비정형데이터의 AI학습을 위한 영상/이미지 데이터 품질 향상 방법)

  • Kim Seung Hee;Dongju Ryu
    • Convergence Security Journal
    • /
    • v.23 no.2
    • /
    • pp.55-66
    • /
    • 2023
  • Recently, there is an increasing movement to increase the value of AI learning data and to secure high-quality data based on previous research on AI learning data in all areas of society. Therefore, quality management is very important in construction projects to secure high-quality data. In this paper, quality management to secure high-quality data when building AI learning data and improvement plans for each construction process are presented. In particular, more than 80% of the data quality of unstructured data built for AI learning is determined during the construction process. In this paper, we performed quality inspection of image/video data. In addition, we identified inspection procedures and problem elements that occurred in the construction phases of acquisition, data cleaning, labeling, and models, and suggested ways to secure high-quality data by solving them. Through this, it is expected that it will be an alternative to overcome the quality deviation of data for research groups and operators participating in the construction of AI learning data.

인공지능 보안 이슈

  • Park, Sohee;Choi, Daeseon
    • Review of KIISC
    • /
    • v.27 no.3
    • /
    • pp.27-32
    • /
    • 2017
  • 머신러닝을 위주로 하는 인공지능 기술이 여러 분야에서 다양하게 적용되고 있다. 머신러닝 기술은 시험 데이터에 대해 높은 성능을 보였지만, 악의적으로 만들어진 데이터에 대해서는 오동작을 하는 경우가 보고되고 있다. 그 외에도 학습데이터 오염시키기, 학습된 모델 탈취 등 새로운 공격 유형이 보고되고 있다. 기계학습에 사용된 훈련데이터에 대한 보안과 프라이버시 또한 중요한 이슈이다. 인공지능 기술의 개발 및 적용에 있어 이러한 위험성에 대한 고려와 대비가 반드시 필요하다.

A Method of Supervised Learning for Optimized Household Waste Detection based on Vision AI (비전 인공지능 기반 생활폐기물 선별에서 성능최적화를 위한 감독학습 기법)

  • Park, Sang-Hee;Lee, Bbun-Byul;Jung, Joong-Eun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.637-639
    • /
    • 2021
  • 인공지능 기반의 생활폐기물의 인식 및 선별에서, 선별 정확도의 저하는 인식 대상의 형태적 다양성과 학습데이터 부족 및 불균등성에 기인한다. 본 연구에서는 비전 인공지능 기반의 효과적인 폐기물 선별을 위한 인식 시스템 및 감독학습 기반의 인공지능 학습 기법을 제안한다. 생활폐기물 중 순환자원적 가치가 높은 CAN, PET, 그리고 이와 형상적으로 유사한 폐기물에 대해 본 연구에서 제안된 시스템에서 물체원형 및 훼손된 형태의 총 18 종 이미지 데이터를 대상으로, 감독학습기반의 인공지능 모델 제작에서 최적의 데이터 레이블링을 위한 분류체계를 제시한다.

Construction of Artificial Intelligence Training Platform for Machine Learning Based on Web Radiology_CDM (Web Radiology_CDM기반 기계학습을 위한 인공지능 학습 플랫폼 구축)

  • Noh, Si-Hyeong;Kim, SeungJin;Kim, Ji-Eon;Lee, Chungsub;Kim, Tae-Hoon;Kim, KyungWon;Kim, Tae-Gyu;Yoon, Kwon-Ha;Jeong, Chang-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2020.05a
    • /
    • pp.487-489
    • /
    • 2020
  • 인공지능 기술을 도입한 의료분야에서 진단 및 예측과 연계한 임상의사결정지원 시스템(CDSS)에 관련된 연구가 활발하게 진행되고 있다. 특히, 인공지능 기술 적용에 가장 많은 이슈를 일으키고 있는 의료영상기반의 질환진단연구가 다양한 제품으로 출시되고 있는 실정이다. 그러나 의료영상 데이터는 일관되지 않은 데이터들로 이루어져 있으며, 그것을 정제하여 연구에 사용하기 위해서는 상당한 시간이 필요한 것이 현실이다. 본 논문에서는 익명화된 데이터를 정제하여 인공지능 연구에 사용할 수 있는 표준화된 데이터 셋을 만들고, 그 데이터를 기반으로 인공지능 알고리즘 개발 연구를 지원하기 위한 원스톱 인공지능학습 플랫폼에 대하여 기술한다. 이를 위해 전체 인공지능 연구프로세스를 보이고 이에 따라 학습을 위한 데이터셋 생성과 인공지능 학습학습용 플랫폼에서 수행되는 수행 과정을 결과로 보인다 제안한 플랫폼을 통해 다양한 영상기반 인공지능 연구에 활용될 것으로 기대하고 있다.

Learning Method of Data Bias employing MachineLearningforKids: Case of AI Baseball Umpire (머신러닝포키즈를 활용한 데이터 편향 인식 학습: AI야구심판 사례)

  • Kim, Hyo-eun
    • Journal of The Korean Association of Information Education
    • /
    • v.26 no.4
    • /
    • pp.273-284
    • /
    • 2022
  • The goal of this paper is to propose the use of machine learning platforms in education to train learners to recognize data biases. Learners can cultivate the ability to recognize when learners deal with AI data and systems when they want to prevent damage caused by data bias. Specifically, this paper presents a method of data bias education using MachineLearningforKids, focusing on the case of AI baseball referee. Learners take the steps of selecting a specific topic, reviewing prior research, inputting biased/unbiased data on a machine learning platform, composing test data, comparing the results of machine learning, and present implications. Learners can learn that AI data bias should be minimized and the impact of data collection and selection on society. This learning method has the significance of promoting the ease of problem-based self-directed learning, the possibility of combining with coding education, and the combination of humanities and social topics with artificial intelligence literacy.

Machine Learning Technology Trends for Big Data Processing (빅데이터 활용을 위한 기계학습 기술동향)

  • Lim, S.J.;Min, O.K.
    • Electronics and Telecommunications Trends
    • /
    • v.27 no.5
    • /
    • pp.55-63
    • /
    • 2012
  • 빅데이터 시대를 맞이하여 이를 분석하여 지능형 서비스로 활용할 수 있는 기술로 인공지능 기술이 다시 관심을 받고 있다. 본고에서는 인공지능의 여러 요소 기술 중 기계학습(machine learning) 분야의 빅데이터 처리를 위한 동향을 소개한다. 현재 사용 가능한 병렬처리 기반의 기계학습, 빅데이터를 이용한 기계학습 기반으로 진행되고 있는 프로젝트, 다양한 분야에 쉽게 기계학습을 적용할 수 있는 domain adaptation 기술에 대해서 정리한다.

  • PDF

A Pilot Study on the Generation of Legal Document Sentence based on Generative Pre-trained Transformer (생성적 사전학습 언어모델 기반의 판결문 문장 생성에 관한 파일럿 연구)

  • So, Kwangsub;Kim, Ho-Jung;Park, Ro-Seop;Won, Dong-Ok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.11a
    • /
    • pp.443-445
    • /
    • 2022
  • 인공지능 기술이 발전함에 따라 경찰의 범죄수사 분야에서도 인공지능 기술을 적용하고자 하는 연구가 활발하다. 범죄수사의 결과물인 수사결과 보고서 작성에 있어 판결문은 중요한 데이터가 될 수 있다. 그러나 판결문은 공개된 데이터의 이미지화로 인해 정형화된 데이터의 확보가 까다롭고, 소수의 법조계 전문가가 아닌 일반인이 생성해내기 어려워 데이터 확보가 쉽지 않은 현실이다. 이에 본 연구에서는 생성적 사전학습 언어모델을 이용한 판결문 문장 데이터 생성을 제안하였다. 카카오의 KoGPT를 활용하여 실제 판결문장 일부를 제시한 결과 판결문과 유사한 형태의 문장을 생성한 것을 확인하였다. 향후 판결문 데이터를 활용하기 위한 인공지능 기술 기반 범죄수사 연구에 있어, 생성된 판결문 데이터를 활용할 수 있을 것으로 기대된다.

Implementation of a data collection system for big data analysis and learning based on infant body temperature data (영유아 체온 데이터 기반 빅데이터 분석 및 학습을 위한 데이터 수집 시스템 구현)

  • Lee, Hyoun-Sup;Heo, Gyeongyong
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2021.05a
    • /
    • pp.577-578
    • /
    • 2021
  • Recently, artificial intelligence systems are being used in various fields. The accuracy of the decision algorithm of artificial intelligence is greatly affected by the amount of learning and the accuracy of the learning data. In the case of the amount of learning, a large amount of data is required because it has a decisive effect on the performance of AI. In this paper, we propose a data collection system for constructing a system that analyzes future conditions and changes in infants' conditions based on the body temperature data of infants and toddlers. The proposed system is a system that collects and transmits data, and it is believed that it can minimize the resource consumption of the server system in existing big data analysis and training data construction.

  • PDF