• 제목/요약/키워드: 학습 데이터

검색결과 6,405건 처리시간 0.035초

베이지안 신경망을 이용한 유전자 발현 데이터에서의 피처 추출 기법 (Feature Extraction Method for Gene Expression Data using Bayesian Neural Network)

  • 이상근;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.235-237
    • /
    • 2004
  • Microarray 로 표현되는 유전자 발현 데이터는 일반적으로 샘플(sample) 수에 비해 많은 수의 유전자를 포함한다. 피처 추출은 이러한 데이터에 기계학습 방법론을 효과적으로 적용하기 위한 방법 중 하나로, 학습성능을 향상시키고 계산 시간을 줄일 수 있을 뿐만 아니라 중요한 피처들을 발견할 수 있다는 점에서 큰 의미를 갖는다. 본 연구에서는 베이지안 신경망(Bayesian Neural Network)에 기반 한 자동유효성탐지(Automatic Relevance Detection, ARD) 기법을 사용하여 유전자 발현 데이터에서 학습 오류를 줄이는 동시에 학습에 필요한 최소한의 유전자 집합을 추출할 수 있는 방법을 제시했다. CAMDA 2003에서 제시된 폐종양 환자의 유전자 발현 데이터에 대해 실험한 결과, 12600 개의 유전자 중에서 가장 중요하다고 여겨지는 187 개의 유전자를 발견했으며, 높은 학습성능을 달성했다.

  • PDF

픽셀값 변환 기법을 더한 데이터 복원공격에의한 연합학습의 프라이버시 침해 (Invasion of Pivacy of Federated Learning by Data Reconstruction Attack with Technique for Converting Pixel Value)

  • 오윤주;최대선
    • 정보보호학회논문지
    • /
    • 제33권1호
    • /
    • pp.63-74
    • /
    • 2023
  • 프라이버시 침해에 대한 안전성을 보장하기 위해 매개변수를 주고받아 학습하는 연합학습이 대두되고 있다. 하지만 최근 그래디언트를 이용하여 학습 데이터를 유출하는 논문이 발표되었다. 본 논문은 연합학습 환경에서 그래디언트를 이용하여 학습 데이터를 유출하는 실험을 구현하였으며, 학습 데이터를 유출하는 기존 공격을 개선하여 복원성능을 높이는 방법을 제안한다. 제안 방법에 대해 Yale face database B, MNIST dataset를 이용하여 실험한 결과, 연합학습 성능이 accuracy=99~100%로 높을 때 100개의 학습 데이터 중 최대 100개의 데이터를 식별 가능한 수준으로 복원하여, 연합학습이 프라이버시 침해로부터 안전하지 않다는 것을 보인다. 또한, 픽셀단위의 성능(MSE, PSNR, SSIM)과 Human Test에 의한 식별적인 성능을 비교함으로써 픽셀에 기반한 성능보다 식별적인 성능의 중요성을 강조하고자 한다.

준지도 지지 벡터 회귀 모델을 이용한 반응 모델링 (Response Modeling with Semi-Supervised Support Vector Regression)

  • 김동일
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권9호
    • /
    • pp.125-139
    • /
    • 2014
  • 본 논문에서는 준지도 지지 벡터 회귀 모델(semi-supervised support vector regression)을 이용한 반응 모델링(response modeling)을 제안한다. 반응 모델링의 성능 및 수익성을 높이기 위해, 고객 데이터 셋의 대부분을 차지하는 레이블이 존재하지 않는 데이터를 기존 레이블이 존재하는 데이터와 함께 학습에 이용한다. 제안하는 알고리즘은 학습 복잡도를 낮은 수준으로 유지하기 위해 일괄 학습(batch learning) 방식을 사용한다. 레이블 없는 데이터의 레이블 추정에서 불확실성(uncertainty)을 고려하기 위해, 분포추정(distribution estimation)을 하여 레이블이 존재할 수 있는 영역을 정의한다. 그리고 추정된 레이블 영역으로부터 오버샘플링(oversampling)을 통해 각 레이블이 없는 데이터에 대한 레이블을 복수 개 추출하여 학습 데이터 셋을 구성한다. 이 때, 불확실성의 정도에 따라 샘플링 비율을 다르게 함으로써, 불확실한 영역에 대해 더 많은 정보를 발생시킨다. 마지막으로 지능적 학습 데이터 선택 기법을 적용하여 학습 복잡도를 최종적으로 감소시킨다. 제안된 반응 모델링의 성능 평가를 위해, 실제 마케팅 데이터 셋에 대해 다양한 레이블 데이터 비율로 실험을 진행하였다. 실험 결과 제안된 준지도 지지 벡터 회귀 모델을 이용한 반응 모델이 기존 모델에 비해 더 높은 정확도 및 수익을 가질 수 있다는 점을 확인하였다.

생존분석에서의 기계학습 (Machine learning in survival analysis)

  • 백재욱
    • 산업진흥연구
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2022
  • 본 논문은 중도중단 데이터가 포함된 생존데이터의 경우 적용할 수 있는 기계학습 방법에 대해 살펴보았다. 우선 탐색적인 자료분석으로 각 특성에 대한 분포, 여러 특성들 간의 관계 및 중요도 순위를 파악할 수 있었다. 다음으로 독립변수에 해당하는 여러 특성들과 종속변수에 해당하는 특성(사망여부) 간의 관계를 분류문제로 보고 logistic regression, K nearest neighbor 등의 기계학습 방법들을 적용해본 결과 적은 수의 데이터이지만 통상적인 기계학습 결과에서와 같이 logistic regression보다는 random forest가 성능이 더 좋게 나왔다. 하지만 근래에 성능이 좋다고 하는 artificial neural network나 gradient boost와 같은 기계학습 방법은 성능이 월등히 좋게 나오지 않았는데, 그 이유는 주어진 데이터가 빅데이터가 아니기 때문인 것으로 판명된다. 마지막으로 Kaplan-Meier나 Cox의 비례위험모델과 같은 통상적인 생존분석 방법을 적용하여 어떤 독립변수가 종속변수 (ti, δi)에 결정적인 영향을 미치는지 살펴볼 수 있었으며, 기계학습 방법에 속하는 random forest를 중도중단 데이터가 포함된 생존데이터에도 적용하여 성능을 평가할 수 있었다.

통계 및 이미지 데이터를 활용한 가짜 SNS 계정 식별 기술 (Fake SNS Account Identification Technique Using Statistical and Image Data)

  • 유승연;신영서;방채운;전찬준
    • 스마트미디어저널
    • /
    • 제11권1호
    • /
    • pp.58-66
    • /
    • 2022
  • 인터넷 기술이 발전함에 따라 SNS 사용자가 늘어나고 있다. SNS의 대중화가 진행되면서 소셜 네트워크의 영향력과 익명성을 활용한 SNS형 범죄가 나날이 증가하고 있는 추세이다. 본 논문에서는 인스타그램에서 SNS형 범죄에 주로 이용되는 가짜 계정 분류를 위해 통계 데이터와 이미지 데이터를 이용하여 각각 기계학습 및 딥러닝(deep learning) 기법을 활용한 가짜 계정 분류 방법을 제안한다. 모델 학습에 사용된 SNS 계정 데이터는 자체적으로 수집하였으며, 수집된 데이터는 통계 데이터 및 이미지 데이터에 기반한다. 통계 데이터의 경우에는 기계학습 및 다층 퍼셉트론 기반으로 학습을 진행하였고, 이미지 데이터의 경우에는 합성곱 신경망(Convolutional Neural Network, CNN) 기반으로 학습을 진행하였다. 학습을 진행한 결과 계정 분류에 대하여 정확도가 전반적으로 높게 나온 것을 확인하였다.

인조 데이터셋 구축 시스템과 오브젝트 배치 구조에 따른 검출률 분석 (Analysis of detection rate according to the artificial dataset construction system and object arrangement structure)

  • 김상준;이유진;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.74-77
    • /
    • 2021
  • 최근 딥러닝을 이용하여 객체 인식 학습을 위한 데이터셋을 구축하는데 있어 시간과 인력을 단축하기 위해 인조 데이터를 생성하는 연구가 진행되고 있다. 하지만 실제 환경과 관계없이 임의의 배경에 배치되어 구축된 데이터셋으로 학습된 네트워크를 실제 환경으로 구성된 데이터셋으로 테스트할 경우 인식률이 저조하다. 이에 본 논문에서는 실제 배경 이미지에 객체 이미지를 합성하고, 다양성을 위해 3차원으로 회전하여 증강하는 인조 데이터셋 생성 시스템을 제안한다. 제안된 방법으로 구축된 인조 데이터셋으로 학습한 네트워크와 실제 데이터셋으로 학습된 네트워크의 인식률을 비교한 결과, 인조 데이터셋의 성능이 실제 데이터셋의 성능보다 2% 낮았지만, 인조 데이터셋을 구축하는 시간이 실제 데이터셋을 구축하는 시간보다 약 11배 빨라 시간적으로 효율적인 데이터셋 구축 시스템임을 증명하였다.

  • PDF

심층 신경망을 통한 자연 소리 분류를 위한 최적의 데이터 증대 방법 탐색 (Search of an Optimal Sound Augmentation Policy for Environmental Sound Classification with Deep Neural Networks)

  • 박진배;;배성호
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.18-21
    • /
    • 2020
  • 심층 신경망은 영상 분류, 음성 인식, 그리고 문자 번역 등 다양한 분야에서 효과적인 성능을 보여주고 있다. 신경망의 구조 변화, 신경망 간의 정보 전달, 그리고 학습에 사용되는 데이터 증대 등의 확장된 연구를 통해 성능은 더욱 발전하고 있다. 그 중에서도 데이터 증대는 기존에 수집한 데이터의 변형을 통해 심층 신경망에 더 다양한 데이터를 제공함으로써 더욱 일반화된 신경망을 학습시기키는 것을 목표로 한다. 하지만 기존의 음향 관련 신경망 연구에서는 모델의 학습에 사용되는 데이터 증대 방법의 연구가 영상 처리 분야만큼 다양하게 이루어지지 않았다. 최근 영상 처리 분야의 데이터 증대 연구는 학습에 사용되는 데이터와 모델에 따라 최적의 데이터 증대 방법이 다르다는 것을 실험적으로 보여주었다. 이에 영감을 받아 본 논문은 자연에서 발생하는 음향을 분류하는데 있어서 최적의 데이터 증대 방법을 실험적으로 찾으며, 그 과정을 소개한다. 음향에 잡음 추가, 피치 변경 혹은 스펙트로그램의 일부 제한 등의 데이터 증대 방법을 다양하게 조합하는 실험을 통해 경험적으로 어떤 증대 방법이 효과적인지 탐색했다. 결과적으로 ESC-50 자연 음향 데이터 셋에 최적화된 데이터 증대 방법을 적용함으로써 분류 정확도를 89%로 향상시킬 수 있었다.

  • PDF

핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성 (RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence)

  • 권성구;노윤석;최수정;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

신경망을 이용한 HMM의 오인식 보상에 관한 연구 (A study on compensation of incorrect recognition on HMM using multilayer perceptrons)

  • 표창수;김창근;허강인
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2000년도 하계학술발표대회 논문집 제19권 1호
    • /
    • pp.27-30
    • /
    • 2000
  • 본 논문은 HMM(Hidden Markov Model)을 이용하여 인식을 수행할 경우의 오류를 최소화 할 수 있는 후 처리 과정으로 신경망을 결합시켜 HMM 단독으로 사용하였을 때 보다 높은 인식률을 얻을 수 있는 HMM과 신경망의 하이브리드시스템을 제안한다. HMM을 이용하여 학습한 후 학습에 참여하지 않은 데이터를 인식하였을 때 오인식 데이터를 정인식으로 인식하도록 HMM의 출력으로 얻은 각 출력확률을 후 처리에 사용될 MLP(Multilayer Perceptrons)의 학습용으로 사용하여 MLP를 학습하여 HMM과 MLP을 결합한 하이브리드 모델을 만든다. 이와 같은 HMM과 신경망을 결합한 하이브리드 모델을 사용하여 단독 숫자음과 4연 숫자음 데이터에서 실험한 결과 HMM 단독으로 사용하였을 때 보다 각각 약 $4.5\%$, $1.3\%$의 인식률 향상이 있었다. 기존의 하이브리드 시스템이 갖는 많은 학습시간이 소요되는 문제점과 실시간 음성인식시스템을 구현할 때의 학습데이터의 부족으로 인한 인식률 저하를 해결할 수 있는 방법임을 확인할 수 있었다.

  • PDF

MetaGene : SCORM 기반 학습 객체의 메타데이터 생성 및 컨텐츠 패키징 (MetaGene: Metadata Generation and Contents Packaging for Learning Objects based on SCORM)

  • 정영식
    • 컴퓨터교육학회논문지
    • /
    • 제6권3호
    • /
    • pp.75-85
    • /
    • 2003
  • 본 연구는 SCORM 기반 학습 객체의 메타데이타 생성 즉 Asset, SCO, Contents Aggregation과 Contents Package에 대한 메타데이터를 생성하는 시스템(MetaGene)을 개발한다. SCORM 을 지원하는 LMS내 API 어댑터와 인터페이스를 위한 학습 객체 내에 API 활성화 함수를 내장시키고, 데이터 모델을 기반으로 학습 과정을 트래킹 하는 코드도 포함 시킨다. 또한 학습 객체들이 LMS에 전송되게 PIF(Package Interchange File)로 패키징 시킨다. MetaGene에 생성된 학습객체의 메타데이터와 컨텐츠 패키지의 manifest file을 $SCORM^{(TM)}$ Conformance Testsuite을 이용하여 유효성을 검증한다.

  • PDF