• 제목/요약/키워드: 편향된 데이터

검색결과 160건 처리시간 0.027초

특수한 환경의 무선 데이터 방송에서 효율적인 트랜잭션 처리를 위한 우선순위 보장 기법 (The Priority Assurance Method for Efficient Transaction Processing in Wireless Data Broadcast of Special Environments)

  • 김진태;이상훈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.83-86
    • /
    • 2005
  • 지금까지 무선 데이터 방송에서 트랜잭션을 효율적으로 처리하는 방법에 대한 연구들이 꾸준히 진행되어왔다. 이 논문에서는 기존의 트랜잭션 처리방법과 달리 특수한 환경인 군 작전환경의 무선 데이터 방송에서 요구되는 트랜잭션 처리 방법에 대하여 연구하였다. 군 작전환경에서는 일정 시간동안 일부 데이터에 편향되어 접근하는 무수히 많은 클라이언트들이 존재한다. 이러한 트랜잭션들을 처리하기 위하여, 클라이언트 특성에 맞는 우선순위를 부여하고 검증절차 이전에 우선순위 비교를 수행한다. 그리고 우선순위가 높은 클라이언트를 먼저 검증함으로써, 군 작전에서 중요한 클라이언트의 트랜잭션 abort율을 감소시키고자 한다.

  • PDF

해양모니터링 자료의 장기결측 보충 기법 (Long-gap Filling Method for the Coastal Monitoring Data)

  • 조홍연;이기섭;이욱재
    • 한국해안·해양공학회논문집
    • /
    • 제33권6호
    • /
    • pp.333-344
    • /
    • 2021
  • 해양모니터링 자료에서 빈번하게 발생하는 장기결측구간의 자료 보충기법을 제안한다. 제안하는 방법은 결측구간의 장기변동 추세 성분과 단기변동 잔차성분을 추정하여 조합하는 방식으로 결측구간의 미지 정보를 추정한다. 이 방법을 이용하여 울릉도 해상부이 자료의 수온 항목, 약 1개월 정도의 장기결측 구간의 자료를 보충하였으며, 부이에서 관측하는 자료 항목에 대해서도 결측 보충을 수행하였다. 보충된 자료는 항목에 따라 차이를 보이지만 변동양상이 적절하게 재현되는 것으로 파악되었다. 이 방법은 추세추정과 잔차 반영에 따른 편향오차와 분산오차가 발생하지만, 장기결측으로 인한 통계적인 측도 추정의 편향오차는 크게 절감하는 것으로 파악되었다. 결측보충 모형의 추정 RMS 오차의 평균과 90% 신뢰구간은 각각 0.93, 0.35~1.95 범위이다.

결측값 대체를 위한 데이터 재현 기법 비교 (Comparison of Data Reconstruction Methods for Missing Value Imputation)

  • 김청호;강기훈
    • 문화기술의 융합
    • /
    • 제10권1호
    • /
    • pp.603-608
    • /
    • 2024
  • 무응답 및 결측값은 표본 탈락, 설문조사에 대한 답변 회피 등으로 발생하며 정보의 손실 및 편향된 추론의 가능성이 있는 문제가 발생하게 되며, 이 경우 결측값을 적절한 값으로 바꾸는 대체가 필요하게 된다. 본 논문에서는 결측값에 대한 대체 방법으로 제안되었던 평균 대체, 다중회귀 대체, 랜덤 포레스트 대체, K-최근접 이웃 대체, 그리고 딥러닝을 기본으로 한 오토인코더 대체와 잡음제거 오토인코더 대체 방법을 비교한다. 결측값을 대체하는 이러한 방법들에 대해 설명하고, 연속형의 모의실험 데이터와 실제 데이터에 접목시켜 각 방법들을 비교하였다. 비교 결과 대부분의 경우에서 다중 대체 방법인 랜덤 포레스트 대체 방법과 잡음제거 오토인코더 대체 방법의 성능이 좋았음을 확인하였다.

오토인코더 기반의 외부망 적대적 사이버 활동 징후 감지 (Detection of Signs of Hostile Cyber Activity against External Networks based on Autoencoder)

  • 박한솔;김국진;정재영;장지수;윤재필;신동규
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.39-48
    • /
    • 2022
  • 전 세계적으로 사이버 공격은 계속 증가해 왔으며 그 피해는 정부 시설을 넘어 민간인들에게 영향을 미치고 있다. 이러한 문제로 사이버 이상징후를 조기에 식별하여 탐지할 수 있는 시스템 개발의 중요성이 강조되었다. 위와 같이, 사이버 이상징후를 효과적으로 식별하기 위해 BGP(Border Gateway Protocol) 데이터를 머신러닝 모델을 통해 학습하고, 이를 이상징후로 식별하는 여러 연구가 진행되었다. 그러나 BGP 데이터는 이상 데이터가 정상 데이터보다 적은 불균형 데이터(Imbalanced data)이다. 이는, 모델에 학습이 편향된 결과를 가지게 되어 결과에 대한 신뢰성을 감소시킨다. 또한, 실제 사이버 상황에서 보안 담당자들이 머신러닝의 정형적인 결과로 사이버 상황을 인식시킬 수 없는 한계도 존재한다. 따라서 본 논문에서는 전 세계 네트워크 기록을 보관하는 BGP(Border Gateway Protocol)를 조사하고, SMOTE(Synthetic Minority Over-sampling Technique) 활용해 불균형 데이터 문제를 해결한다. 그 후, 사이버 공방(Cyber Range) 상황을 가정하여, 오토인코더를 통해 사이버 이상징후 분류하고 분류된 데이터를 가시화한다. 머신러닝 모델인 오토인코더는 정상 데이터의 패턴을 학습시켜 이상 데이터를 분류하는 성능을 92.4%의 정확도를 도출했고 보조 지표도 90%의 성능을 보여 결과에 대한 신뢰성을 확보한다. 또한, 혼잡한 사이버 공간을 가시화하여 효율적으로 상황을 인식할 수 있기에 사이버 공격에 효과적으로 방어할 수 있다고 전망된다.

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

앙상블 학습의 부스팅 방법을 이용한 악의적인 내부자 탐지 기법 (Malicious Insider Detection Using Boosting Ensemble Methods)

  • 박수연
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.267-277
    • /
    • 2022
  • 최근 클라우드 및 원격 근무 환경의 비중이 증가함에 따라 다양한 정보보안 사고들이 발생하고 있다. 조직의 내부자가 원격 접속으로 기밀 자료에 접근하여 유출을 시도하는 사례가 발생하는 등 내부자 위협이 주요 이슈로 떠오르게 되었다. 이에 따라 내부자 위협을 탐지하기 위해 기계학습 기반의 방법들이 제안되고 있다. 하지만, 기존의 내부자 위협을 탐지하는 기계학습 기반의 방법들은 편향 및 분산 문제와 같이 예측 정확도와 관련된 중요한 요소를 고려하지 않았으며 이에 따라 제한된 성능을 보인다는 한계가 있다. 본 논문에서는 편향 및 분산을 고려하는 부스팅 유형의 앙상블 학습 알고리즘들을 사용하여 악의적인 내부자 탐지 성능을 확인하고 이에 대한 면밀한 분석을 수행하며, 데이터셋의 불균형까지도 고려하여 최종 결과를 판단한다. 앙상블 학습을 이용한 실험을 통해 기존의 단일 학습 모델에 기반한 방법에서 나아가, 편향-분산 트레이드오프를 함께 고려하며 유사하거나 보다 높은 정확도를 달성함을 보인다. 실험 결과에 따르면 배깅과 부스팅 방법을 사용한 앙상블 학습은 98% 이상의 정확도를 보였고, 이는 사용된 단일 학습 모델의 평균 정확도와 비교하면 악의적인 내부자 탐지 성능을 5.62% 향상시킨다.

시각-언어 이동 에이전트를 위한 모방 학습과 강화 학습의 결합 (Combining Imitation Learning and Reinforcement Learning for Visual-Language Navigation Agents)

  • 오선택;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.559-562
    • /
    • 2020
  • 시각-언어 이동 문제는 시각 이해와 언어 이해 능력을 함께 요구하는 복합 지능 문제이다. 본 논문에서는 시각-언어 이동 에이전트를 위한 새로운 학습 모델을 제안한다. 이 모델은 데모 데이터에 기초한 모방 학습과 행동 보상에 기초한 강화 학습을 함께 결합한 복합 학습을 채택하고 있다. 따라서 이 모델은 데모 데이타에 편향될 수 있는 모방 학습의 문제와 상대적으로 낮은 데이터 효율성을 갖는 강화 학습의 문제를 상호 보완적으로 해소할 수 있다. 또한, 제안 모델은 서로 다른 두 학습 간에 발생 가능한 학습 불균형도 고려하여 손실 정규화를 포함하고 있다. 또, 제안 모델에서는 기존 연구들에서 사용되어온 목적지 기반 보상 함수의 문제점을 발견하고, 이를 해결하기 위해 설계된 새로은 최적 경로 기반 보상 함수를 이용한다. 본 논문에서는 Matterport3D 시뮬레이션 환경과 R2R 벤치마크 데이터 집합을 이용한 다양한 실들을 통해, 제안 모델의 높은 성능을 입증하였다.

하이브리드 다중 모델 학습 기법을 이용한 자동 문서 분류 (Automatic Text Classification Using Hybrid Multiple Model Schemes)

  • 명순희;조형근;김인철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.253-255
    • /
    • 2002
  • 본 논문에서는 다중 모델 기계학습 기법을 이용하여 문서 자동 분류의 성능과 신뢰도를 향상시킬 수 있는 연구와 실험 결과를 기술하였다. 기존의 다중 모텔 기계 학습법들이 훈련 데이터 또는 학습 알고리즘의 편향에 의한 오류를 극복하고 한 것들인데 비해 본 논문에서 제안한 메타 학습을 이용한 하이브리드 다중 모델 방식은 이 두 가지의 오류 원인을 동시에 해소하고자 하였다. 다양한 문서 집합에 대한 실험 결과, 본 연구에서 제안한 하이브리드 다중 모델 학습법이 전반적으로 기존의 일반 다중모델 학습법들에 비해 높은 성능을 보였으며, 다중 모델의 결합 방식으로서 메타 학습이 투표 방식에 비해 효율적인 것으로 나타났다.

  • PDF

Conditional Generative Adversarial Network(CGAN) 기반 협업 필터링 추천 시스템 (Conditional Generative Adversarial Network based Collaborative Filtering Recommendation System)

  • 강소이;신경식
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.157-173
    • /
    • 2021
  • 소비자의 욕구와 관심에 맞추어 개인화된 제품을 추천하는 추천 시스템은 비즈니스에 필수적인 기술로서의 그 중요성이 증가하고 있다. 추천 시스템의 대표적인 모형 중 협업 필터링은 우수한 성능으로 다양한 분야에서 활용되고 있다. 그러나 협업필터링은 사용자-아이템의 선호도 정보가 충분하지 않을 경우 성능이 저하되는 희소성의 문제가 있다. 또한 실제 평점 데이터의 경우 대부분 높은 점수에 데이터가 편향되어 있어 심한 불균형을 갖는다. 불균형 데이터에 협업 필터링을 적용할 경우 편향된 클래스에 과도하게 학습되어 추천 성능이 저하된다. 이러한 문제를 해결하기 위해 많은 선행연구들이 진행되어 왔지만 추가적인 외부 데이터 또는 기존의 전통적인 오버샘플링 기법에 의존한 추천을 시도하였기에 유용성이 떨어지고 추천 성능 측면에서 한계점이 있었다. 본 연구에서는 CGAN을 기반으로 협업 필터링 구현 시 발생하는 희소성 문제를 해결함과 동시에 실제 데이터에서 발생하는 데이터 불균형을 완화하여 추천의 성능을 높이는 것을 목표로 한다. CGAN을 이용하여 비어있는 사용자-아이템 매트릭스에 실제와 흡사한 가상의 데이터를 생성하여, 희소성을 가지고 있는 기존의 매트릭스로만 학습한 것과 비교했을 때 높은 정확도가 예상된다. 이 과정에서 Condition vector y를 이용하여 소수 클래스에 대한 분포를 파악하고 그 특징을 반영하여 데이터를 생성하였다. 이후 협업 필터링을 적용하고, 하이퍼파라미터 튜닝을 통해 추천 시스템의 성능을 최대화하는데 기여하였다. 비교 대상으로는 전통적인 오버샘플링 기법인 SMOTE, BorderlineSMOTE, SVM-SMOTE, ADASYN와 GAN을 사용하였다. 결과적으로 데이터 희소성을 가지고 있는 기존의 실제 데이터뿐만 아니라 기존 오버샘플링 기법들보다 제안 모형의 추천 성능이 우수함을 확인하였으며, RMSE, MAE 평가 척도에서 가장 높은 예측 정확도를 나타낸다는 사실을 증명하였다.

아파트 가격조사를 위한 측정방법 (Measuring Purchase Price of Apt. Complex Household)

  • 박진우;이기재;김재광;김진억
    • 한국조사연구학회지:조사연구
    • /
    • 제5권1호
    • /
    • pp.79-91
    • /
    • 2004
  • 아파트 가격을 측정하기 위해 일반적으로 사용되는 방법은 특정 단지 특정 평형아파트 세대의 상한가와 하한가를 조사하는 방법이다. 그런데 이러한 조사방법에 의해 얻어진 데이터를 이용하여 아파트 세대 당 평균 매매가를 추정하면 편향된 추정값을 얻게 된다는 문제가 생긴다. 본 연구에서는 이러한 문제를 해결하기 위해 보다 합리적인 대안으로서 새로운 측정방법을 제안한다. 새로운 측정방법은 특정 단지 특정 평형 아파트 세대의 상한가와 하한가 외에 추가적으로 일반거래가도 함께 조사하는 방법이다. 마지막으로 부동산 중개업자들을 대상으로 한 설문조사 분석을 통해 새로 제안하는 측정방법이 현실적으로 적용 가능하고 타당성 있는 방법임을 보였다.

  • PDF