• 제목/요약/키워드: 데이터 선별

검색결과 570건 처리시간 0.027초

A Major DNA Marker Mining of microsatellite loci in Hanwoo Chromosome 17

  • 이용원;이제영
    • 한국데이터정보과학회:학술대회논문집
    • /
    • 한국데이터정보과학회 2005년도 춘계학술대회
    • /
    • pp.54-58
    • /
    • 2005
  • 한우 17번 염색체 유전자 지도에서 QTL (quantitative trait loci) 분석을 실시하여 선별된 Loci 값들을 순열검정(Permutation Test)을 이용하여 유의성 검정을 실시하였다. 한편, 우수 경제형질 DNA marker들을 K-평균 군집법을 실시 파악하였다. 또한, 부스트랩 방법을 이용하여 선별된 Locus의 DNA Marker들의 신뢰구간을 구하였다. 이들 QTL과 K-평균법, 부스트랩 방법에 의해 한우의 염색체 17번 BMS941의 우수 DNA Marker 85, 105번을 선별하였다.

  • PDF

Gait-Based Gender Classification Using a Correlation-Based Feature Selection Technique

  • Beom Kwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.55-66
    • /
    • 2024
  • 성별 분류 기술은 법의학, 감시 시스템, 인구 통계 연구 등 다양한 분야에서 활용될 수 있기 때문에, 연구자들로부터 많은 관심을 받고 있다. 남성과 여성의 보행 사이에는 서로 구별되는 특징이 있다는 것이 기존 연구들에서 밝혀지면서, 3차원 보행 데이터에서 성별을 분류하는 다양한 기술들이 제안됐다. 하지만, 기존 기술들을 사용해 3차원 보행 데이터로부터 추출한 보행 특징 중에는 서로 유사 또는 중복되거나 성별 분류에 도움이 되지 않는 특징들도 있다. 이에 본 연구에서는 상관관계 기반 특징 선별 기술을 활용해, 성별 분류에 도움이 되는 특징들을 선별하는 방법을 제안한다. 그리고 제안하는 특징 선별 기술의 효용성을 입증하기 위해서, 인터넷상에 공개된 3차원 보행 데이터 세트(Dataset)를 활용하여 제안하는 특징 선별 기술을 적용하기 전과 후에 대해 성별 분류 모델들의 성능을 비교 분석하였다. 실험에는 이진 분류 문제에 적용할 수 있는 여덟 가지의 머신러닝 알고리즘(Machine Learning Algorithms)을 활용하였다. 실험 결과, 제안하는 특징 선별 기술을 사용하면 성별 분류 성능은 유지하면서, 특징의 개수를 82개에서 60개까지, 22개를 줄일 수 있다는 것을 입증하였다.

인터넷 내용 선별을 위한 플랫폼

  • 이재진
    • 디지털콘텐츠
    • /
    • 2호통권69호
    • /
    • pp.92-95
    • /
    • 1999
  • 인터넷이 새로운 매체로 등장하면서 유통되는 정보의 질적 평가가 중요한 이슈가 되고 있다. 특히 폭력, 음란, 선정성을 다룬 내용물이 인터넷을 통해 여과없이 유통되면서 어린이, 청소년들에게 악영향을 끼치고 있다. 따라서 적합하지 못한 정보를 차단하고 선별할 수 있는 체계와 기술 개발은 이러한 인터넷의 부작용을 해소할 수 있는 방안이 될 수 있다. 본 호에서는 인터넷 내용 선별을 위한 체계로서 관련 소프트웨어의 사실상 표준으로 자리잡고 있는 PICS를 소개하고 새로운 메타데이터 시스템으로서의 발전 방향을 살펴본다.

  • PDF

데이터 선별 및 클래스 세분화를 적용한 실시간 해양 침적 쓰레기 감지 AI 시스템 구현과 성능 개선 방법 연구 (A Study on the Implementation of Real-Time Marine Deposited Waste Detection AI System and Performance Improvement Method by Data Screening and Class Segmentation)

  • 왕태수;오세영;이현서;최동규;장종욱;김민영
    • 문화기술의 융합
    • /
    • 제8권3호
    • /
    • pp.571-580
    • /
    • 2022
  • 해양침적쓰레기는 유령어업으로 인한 폐어구들로 인해 많은 피해와 쓰레기 추정량 편차 증가 등의 문제를 일으키는 주요 원인이 된다. 본 논문에서는 폐어구 사용량, 유통량, 유실량, 회수량에 대한 실태 파악을 위해 실시간 해양침적쓰레기 감지 인공지능 시스템을 구현하고, 성능 개선을 위한 방법에 대해 연구한다. 실시간 객체인식에 우수한 성능모델인 yolov5모델을 활용하여 시스템을 구현하였고, 성능개선 방법으로는 학습데이터의 '데이터 선별 과정'과 '클래스 세분화' 방법을 적용하였다. 결론적으로 비선별된 데이터셋과 클래스가 세분화된 데이터셋의 객체인식 결과보다 불필요한 데이터를 선별하거나 특징 및 용도에 따라 유사 항목을 세분화 하지 않은 데이터셋의 객체인식 결과는 해양침적쓰레기 인식에 개선된 결과를 보인다.

기계학습에 유효한 데이터 요건 및 선별: 공공데이터포털 제공 데이터 사례를 통해 (Valid Data Conditions and Discrimination for Machine Learning: Case study on Dataset in the Public Data Portal)

  • 오효정;윤보현
    • 사물인터넷융복합논문지
    • /
    • 제8권1호
    • /
    • pp.37-43
    • /
    • 2022
  • 인공지능 기술의 가장 큰 근간은 학습 가능한 데이터이다. 최근 정부나 사기업에서 수집·생산하는 데이터의 종류와 양이 기하급수적으로 증가하고 있지만, 실제 기계학습에 활용 가능한 데이터의 확보로는 아직까지 이어지지 않고 있다. 이에 본 연구에서는 기계학습에 실제 활용 가능한 데이터가 갖추어야 할 조건에 대해 논의하고, 실제 사례연구를 통해 데이터 품질을 저하시키는 요인을 파악한다. 이를 위해 공공빅데이터를 활용해 예측 모델을 개발한 대표사례를 선정, 공공데이터포털로부터 실제 문제 해결을 위한 데이터를 수집 후 데이터 품질을 확인하였다. 이를 통해 유효한 데이터 선별 기준을 적용하고 후처리한 결과와의 차이를 보인다. 본 연구의 궁극적인 목적은 인공지능의 핵심인 기계학습 기술 개발에 앞서 가장 근본적으로 선결되어야 할 데이터 품질을 관리하고 유효한 데이터를 축적하기 위한 기반 마련에 있다.

표 기계독해 언어 모형의 의미 검증을 위한 테스트 데이터셋 (Test Dataset for validating the meaning of Table Machine Reading Language Model)

  • 유재민;조상현;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.164-167
    • /
    • 2022
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어 모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 F1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 F1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

튜플 데이터 스트림에서 과부하 처리 기법 (A Load Shedding Technique over a Data Stream of Tuples)

  • 장중혁;박남훈;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.109-112
    • /
    • 2005
  • 수행 과정에서의 성능 측면에서 기존의 데이터 스트림 처리 방법들은 주로 수행 과정에서의 저장 공간 사용량 및 데이터 객체당 수행 시간을 줄이는데 초점을 맞추고 있다. 이들 방법들에서 일정 시간 내에 처리될 수 있는 데이터 객체의 수보다 많은 데이터 객체가 발생된다면, 그들 중 일부는 실시간으로 처리되지 못한다. 본 논문에서는 튜플 데이터 스트림에서 발생빈도 기반의 중요 튜플 선별 방법을 제안한다. 이는 해당 데이터 스트림 처리 과정에서 전처리 과정으로 간주할 수 있다. 제안된 방법에서는 데이터 스트림의 변화를 고려하여 중요 튜플 선별을 위한 임계값을 적응적으로 조절한다. 이를 지원하기 위해서 튜플의 발생빈도 예측 방법을 제시한다.

  • PDF

자질 중요도 계산 기법에 의한 자동문서 범주화 (Automatic Document Categorization by the Importance of Features)

  • 이경찬;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.537-539
    • /
    • 2003
  • 문서 범주화를 위해 자질을 선별하는 기법으로는 자질의 출현 빈도에 따라 범주를 대표하는 자질들을 선별하는 것이 일반적이다. 출현 빈도에 의한 자질을 선별하는 통계적인 기법은 문서의 내용을 대표하는 용어들의 중요도를 간과하는 문제가 발생한다. 본 논문에서는 학습 문서 및 실험 문서에서 자질의 중요도에 의해 범주 대표어를 선별하는 문서 범주화 기법을 제안하였으며, 역범주 빈도 및 카이제곱 통계량에 의해 자질을 선별하는 방법과 비교-실험을 하였다. 문서 범주화 모델로는 나이브 베이지언 확률 모델을 이용하였으며, 성능 평가를 위해서 웹 디렉토리에서 수집된 데이터를 이용하여 실험하였다. 본 논문에서 제안한 자질 중요도에 의한 자질 선별 기법은 용어의 출현 빈도 및 카이제곱 통계량에 의해 자질을 선별한 방법보다 더 나은 성능을 보였다.

  • PDF

음원 위치 추정 시스템의 정확도 향상 방법 (The Method of Elevation Accuracy In Sound Source Localization System)

  • 김용은;정진균
    • 대한전자공학회논문지SP
    • /
    • 제46권2호
    • /
    • pp.24-29
    • /
    • 2009
  • 음원 추정 시스템은 로봇, 화상회의, CCTV(Closed-circuit television) 시스템에 쓰인다. 이러한 음원 추정 시스템은 사람을 대상으로 하며 사람이 말하는 동안 여러 개의 음성 데이터 프레임을 입력받을 수 있다. 본 논문에서는 입력된 음성 데이터 프레임으로부터 정확한 각도를 계산 할 수 있는 음성 데이터 프레임을 선별하여 각도 추정 오차를 줄이는 방법에 대해서 제안한다. 또한 선별된 데이터를 각도로 변환한 후 메디언 필터를 적용하여 음원 추정 시스템의 오차를 줄일 수 있다. 제안된 시스템을 이용하여 실험한 후 각도 추정 오차 평균이 31%감소함을 보인다.

k-NN 기법을 이용한 학습자의 학습 행위 데이터의 이상치 분석 (Outlier Analysis of Learner's Learning Behaviors Data using k-NN Method)

  • 윤태복;정영모;이지형;차현진;박선희;김용세
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.524-529
    • /
    • 2007
  • 지능형 학습 시스템은 학습자의 학습 과정에서 수집된 데이터를 분석하여 학습자에게 맞는 전략을 세우고 적합한 서비스를 제공하는 시스템이다. 학습자에게 적합한 서비스를 위해서는 학습자 모델링 작업이 우선시 되며, 이 모델 생성을 위해서 학습자의 학습 과정에서 발생한 데이터를 수집하고 분석하게 된다. 하지만, 수집된 데이터가 학습자의 일관되지 못한 행위나 비예측 학습 성향을 포함하고 있다면, 생성된 모델을 신뢰하기 어렵다. 본 논문에서는 학습자에게서 수집된 데이터를 거리기반 이상치 선별 방법인 k-NN을 이용하여 이상치를 선별한다. 실험에서는 홈 인테리어 컨텐츠 기반에 학습자의 학습 행위에 대한 학습 성향을 진단하기 위한 DOLLS-HI를 이용하여, 수집된 학습자의 데이터에서 이상치를 분류하고 학습 성향 진단을 위한 모델을 생성하였다. 생성된 모델은 이상치 분류전과 비교하여 신뢰가 향상된 것을 확인하였다.

  • PDF