• 제목/요약/키워드: 선별적 데이터 학습

검색결과 79건 처리시간 0.025초

TV 제어 메뉴의 다국적 언어 인식을 위한 특징 선정 기법 (A Feature Selection Technique for Multi-lingual Character Recognition)

  • 강근석;박현정;김호준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2005년도 학술대회
    • /
    • pp.199-202
    • /
    • 2005
  • TV OSD(On Screen Display) 메뉴 자동검증 시스템에서 다국적 언어의 문자 인식은 표준패턴의 구조적 분석이 쉽지 않을 뿐만 아니라 학습패턴 집합의 규모와 특징의 수가 증가함으로 인하여 특징추출 및 인식 과정에서 방대한 계산량이 요구된다. 이에 본 연구에서는 학습 데이터에 포함되는 다량의 특징 집합으로부터 인식에 필요한 효과적인 특징을 선별함으로써 패턴 분류기의 효율성을 개선하기 위한 방법론을 고찰한다. 이를 위하여 수정된 형태의 Adaboost 기법을 제안하고 이를 적용한 실험 결과로부터 그 유용성을 고찰한다. 제안된 알고리즘은 초기의 특징 집합을 취약한 성능을 갖는 다수의 분류기(classifier)로서 고려하며, 이로부터 반복학습을 통하여 개선된 분류기를 점진적으로 선별해 나가게 된다. 학습의 원리는 주어진 학습패턴 집합에 기초하여 일종의 교사학습(supervised learning) 방식으로 이루어진다. 각 패턴에 할당된 가중치 값은 각 단계에서 산출되는 분류결과에 따라 적응적으로 수정되어 반복학습이 진행됨에 따라 점차 보완적 성능을 갖는 분류기를 선택할 수 있게 한다. 즉, 주어진 각 학습패턴에 대하여 초기에 균등한 가중치가 부여되며, 반복학습의 각 단계에서 적용되는 분류기의 출력을 분석하여 오분류된 패턴의 가중치 분포를 증가시켜 나간다. 본 연구에서는 실제 응용으로서 OSD 메뉴검증 시스템을 대상으로 제안된 이론을 적용하고 그 타당성을 평가한다.

  • PDF

대규모 언어 모델 기반 한국어 휴지 예측 연구 (A Study on Korean Pause Prediction based Large Language Model)

  • 나정호;이정;나승훈;정정범;최맹식;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.14-18
    • /
    • 2023
  • 본 연구는 한국어 음성-텍스트 데이터에서 보편적으로 나타난 휴지의 실현 양상을 분석하고, 이를 토대로 데이터셋을 선별해 보편적이고 규격화된 한국어 휴지 예측을 위한 모델을 제안하였다. 이를 위해 전문적인 발성 훈련을 받은 성우 등의 발화가 녹음된 음성-텍스트 데이터셋을 수집하고 MFA와 같은 음소 정렬기를 사용해 휴지를 라벨링하는 등의 전처리를 하고, 다양한 화자의 발화에서 공통적으로 나타난 휴지를 선별해 학습데이터셋을 구축하였다. 구축된 데이터셋을 바탕으로 LLM 중 하나인 KULLM 모델을 미세 조정하고 제안한 모델의 휴지 예측 성능을 평가하였다.

  • PDF

Unsupervised feature selection using orthogonal decomposition and low-rank approximation

  • Lim, Hyunki
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.77-84
    • /
    • 2022
  • 본 논문에서는 새로운 비지도 특징 선별 기법을 제안한다. 기존 비지도 방식의 특징 선별 기법들은 특징을 선별하기 위해 가상의 레이블 데이터를 정하고 주어진 데이터를 이 레이블 데이터에 사영하는 회귀 분석 방식으로 특징을 선별하였다. 하지만 가상의 레이블은 데이터로부터 생성되기 때문에 사영된 공간이 비슷하게 형성될 수 있다. 따라서 기존의 방법들에서는 제한된 공간에서만 특징이 선택될 수 있었다. 이를 해소하기 위해 본 논문에서는 직교 사영과 저랭크 근사를 이용하여 특징을 선별한다. 이 문제를 해소하기 위해 가상의 레이블을 직교 사영하고 이 공간에 데이터를 사영할 수 있도록 한다. 이를 통해 더 주요한 특징 선별을 기대할 수 있다. 그리고 사영을 위한 변환 행렬에 저랭크 제한을 두어 더 효과적으로 저차원 공간의 특징을 선별할 수 있도록 한다. 이 목표를 달성하기 위해 본 논문에서는 비용 함수를 설계하고 효율적인 최적화 방법을 제안한다. 여섯 개의 데이터에 대한 실험 결과는 제안된 방법이 대부분의 경우 기존의 비지도 특징 선별 기법보다 좋은 성능을 보여주었다.

히스토그램 분석 기반 파손 영상 선별 알고리즘 (Broken Image Selection Algorithm based on Histogram Analysis)

  • 조진환;장시웅
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.72-74
    • /
    • 2021
  • 최근 딥러닝 환경의 확산으로 인하여 데이터셋 생성의 중요성이 높아지고 있어, 효율적인 데이터 셋 생성을 위하여 GAN을 활용하여 데이터를 증강시키고 있다. 그러나 GAN을 활용하여 생성되는 데이터에는 학습 초기 발생하는 문제점 및 생성되는 영상 내에 픽셀 깨짐 현상이 발생하는 등 여러 문제점이 발견되고 있다. 본 논문에서는 기존 GAN에서 발생하는 여러 문제점을 해결하기 위하여 파손 영상 데이터 선별 알고리즘을 구현하고자 한다. 파손 영상 선별 알고리즘은 영상 내의 히스토그램 분포를 분석하고 해당 결과값이 지정한 임곗값에 만족하는지에 따라 생성된 영상의 저장 여부를 결정하도록 구현하였다.

  • PDF

특징 최소화와 데이터 선별을 활용한 영화 관객수 예측 (Prediction of Number of Movie Audience Using Feature Minimization and Data Selection)

  • 양영보;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.443-446
    • /
    • 2019
  • 빅데이터 분석을 위해 많이 사용하고 있는 기계학습 알고리즘들 중 딥러닝 알고리즘이 많이 활용되고 있으며 분류와 예측에 높은 정확도를 나타내고 있다. 딥러닝 알고리즘의 적용에 따른 많은 장단점들이 있지만, 단점은 분석에 사용되는 특징들이 너무 많다는 것과 분석 모델을 만드는데 사용되는 알고리즘도 여러 가지를 적용하다 보니 분석 시간이 오래 걸린다는 것이다. 이런 단점들은 업무를 파악하면 특징을 최소화할 수 있고 필요로 하는 정보만 선별해서 대표적인 딥러닝 알고리즘 하나에 분석을 하게 되면 분석 시간을 단축시킬 수 있다. 이 실험은 [1], [2]에서 연구한 영화 관객수 예측 모델을 4개의 특징으로 최소화하고 선별된 데이터를 인공신경망 알고리즘 하나로 예측 모델을 생성하였을 때 유의미한 정보를 도출해 낼 수 있는지를 알아보기 위한 것이다. 실험결과는 최종 관객수를 1명 단위까지 정확하게 예측하지는 못했지만 비슷한 수준의 관객수 정보를 예측하였다. 학문적인 접근으로 보았을 때 예측 정확도가 높지 않으면 사용이 불가능한 모델이라고 판단할 수 있지만, 기업 입장으로 접근해 보았을 때 예측 정보가 [1]. [2] 연구 결과에 비해 부족한 수준은 아니다. 총 소요된 시간은 기획 3일, 데이터 수집 및 모델 개발 5일, 분석 시간 10분으로 개발 시간 단축, 업무 효율성 향상, 비용 절감을 기대할 수 있다.

학습성취도 예측을 통한 단계별 완전학습 시스템 연구 (A study of gradual mastery learning with prediction of learning achievement)

  • 정영희;최진식
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.665-666
    • /
    • 2008
  • 본 연구는 학습 성취도 예측을 통한 완전학습 시스템을 연구하는데 그 목적이 있다. 학급 내의 95%의 학생들이 학습 과제의 90% 이상을 완전히 학습해 내는 것이 완전학습이다. 그러나 개인의 수준차로 인한 완전학습 도달 시간이 상이하고, 그 도달 시간을 파악하기가 어려우므로 현실적으로 완전학습에 도달하기란 쉬운 일이 아니다. 본 연구에서는 이러한 현실적인 어려움을 극복하고자 학생들의 과거 현재 학습 성취 데이터를 분석하여, 미래 학습 성취도를 예측함으로써 보충학습이 필요한 학생을 미리 선별하고, 학생별 특성과 수준에 맞는 보충학습 자료 제공을 통한 재학습 유도로 정해진 기간 내에 단계별(단원별, 학기별)로 완전학습에 도달할 수 있도록 하였다.

  • PDF

묵시적인 연관성 피드백을 통한 개인화된 영상 검색 시스템 (Personalized Image Retrieval System Using Implicit Relevance Feedback)

  • 정대진;이정훈;이필규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.119-121
    • /
    • 2000
  • 최근 급속히 발전하고 있는 컴퓨터 하드웨어 기술로 이미지, 오디오, 비디오 등의 방대한 멀티미디어 데이터가 비 선별적으로 일반 사용자에게 제공되어지고 있다. 하지만 상이한 해석이 가능한 멀티미디어 데이터의 특성상 정확한 데이터의 전달을 위해 각각의 사용자의 취향을 고려할 수 있는 지능 컴퓨팅 기술 즉, 개인화 모델의 이용이 필수적이다. 개인화 모델의 구축을 위해서는 사용자의 피드백 정보를 필요로 하게 되는데, 현재까지의 연구는 결과에 대한 만족정도를 사용자가 일일이 조사해야 하는 부담 때문에 사용자에게는 일반적인 환경에서 사용자의 묵시적인 피드백 정보를 이용하는 기술 개발의 필요성이 강조되고 있다. 본 논문에서는 묵시적으로 사용자의 시각 정보 및 행위 정보를 이용하여 사용자의 부담을 줄이는 동시에 적응 및 학습 능력을 갖는 지능 사용자 인터페이스를 적용한 내용기반 이미지 검색 시스템을 구현하였다.

  • PDF

프로토타입 선택을 이용한 최근접 분류 학습의 성능 개선 (Performance Improvement of Nearest-neighbor Classification Learning through Prototype Selections)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제49권2호
    • /
    • pp.53-60
    • /
    • 2012
  • 최근접 이웃 분류에서 입력 데이터의 클래스는 선택된 근접 학습 데이터들 중에서 가장 빈번한 클래스로 예측된다. 최근접분류 학습은 학습 단계가 없으나, 준비된 데이터가 모두 예측 분류에 참여하여 일반화 성능이 학습 데이터의 질에 의존된다. 그러므로 학습 데이터가 많아지면 높은 기억 장치 용량과 예측 분류 시 높은 계산 시간이 요구된다. 본 논문에서는 분리 경계면에 위치한 학습 데이터들로 구성된 새로운 학습 데이터를 생성시켜 분류 예측을 수행하는 프로토타입 선택 알고리즘을 제안한다. 제안하는 알고리즘에서는 분리 경계 영역에 위치한 데이터를 Tomek links와 거리를 이용하여 선별하며, 이미 선택된 데이터와 클래스와 거리 관계 분석을 이용하여 프로토타입 집합에 추가 여부를 결정한다. 실험에서 선택된 프로토타입의 수는 원래 학습 데이터에 비해 적은 수의 데이터 집합이 되어 최근접 분류의 적용 시 기억장소의 축소와 빠른 예측 시간을 제공할수 있다.

데이터 선별 및 클래스 세분화를 적용한 실시간 해양 침적 쓰레기 감지 AI 시스템 구현과 성능 개선 방법 연구 (A Study on the Implementation of Real-Time Marine Deposited Waste Detection AI System and Performance Improvement Method by Data Screening and Class Segmentation)

  • 왕태수;오세영;이현서;최동규;장종욱;김민영
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.571-580
    • /
    • 2022
  • 해양침적쓰레기는 유령어업으로 인한 폐어구들로 인해 많은 피해와 쓰레기 추정량 편차 증가 등의 문제를 일으키는 주요 원인이 된다. 본 논문에서는 폐어구 사용량, 유통량, 유실량, 회수량에 대한 실태 파악을 위해 실시간 해양침적쓰레기 감지 인공지능 시스템을 구현하고, 성능 개선을 위한 방법에 대해 연구한다. 실시간 객체인식에 우수한 성능모델인 yolov5모델을 활용하여 시스템을 구현하였고, 성능개선 방법으로는 학습데이터의 '데이터 선별 과정'과 '클래스 세분화' 방법을 적용하였다. 결론적으로 비선별된 데이터셋과 클래스가 세분화된 데이터셋의 객체인식 결과보다 불필요한 데이터를 선별하거나 특징 및 용도에 따라 유사 항목을 세분화 하지 않은 데이터셋의 객체인식 결과는 해양침적쓰레기 인식에 개선된 결과를 보인다.

수정된 퍼지 최대-최소 신경망 모델을 이용한 수화 인식 기법 (Sign Language Recognition using a Modified Fuzzy Min-Max Neural Network Model)

  • 박소정;김호준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.257-260
    • /
    • 2011
  • 본 논문에서는 수화인식을 위한 신경망에서 특징추출과 분류단계의 방법론과, 특징 선별 기법을 통하여 분류기의 규모를 최적화 하는 방법을 고찰한다. 색상 및 움직임정보로부터 특징영역의 시간에 따른 변화를 3 차원 볼륨형태의 데이터로 표현하며, 이로부터 특징지도를 생성하는 과정에서 특징영역의 위치에 대한 변이를 보완하는 방법을 고려한다. 특징추출과정과 패턴 분류과정에서 점진적 학습이 가능한 모델과 특징 수를 효과적으로 줄일 수 있는 방법론을 제시하였으며, 학습된 신경망으로부터 특징과 패턴 클래스간의 상대적 연관성 척도를 정의하여 특징을 선별하도록 하였다. 제안된 내용에 대하여 여섯 가지 수화패턴에 대상으로 한 실험을 통하여 그 유용성을 평가하였다.