• 제목/요약/키워드: 희소데이터

검색결과 85건 처리시간 0.023초

대용량 공간 데이터로 부터 빈발 패턴 마이닝 (Mining Frequent Pattern from Large Spatial Data)

  • 이동규;이경민;정석호;이성호;류근호
    • 한국공간정보시스템학회 논문지
    • /
    • 제12권1호
    • /
    • pp.49-56
    • /
    • 2010
  • 공간 및 비 공간 데이터에서 알지 못했던 패턴을 탐사하는 빈발 패턴 탐사 기법은 마이닝 분야에서 가장 핵심적인 부분으로 많은 연구가 활발히 진행되고 있다. 기존의 자료구조들은 트리 구조 및 배열 구조로써 밀집 또는 희소 빈발 패턴에서 성능 저하를 보인다. 대용량의 공간 데이터는 밀집 및 희소 빈발 패턴을 둘 다 가지므로 단일 알고리즘으로 빠르게 탐사 하는 것은 중요하다. 본 논문에서는 단일 알고리즘을 사용하면서도 밀집 및 희소 빈발 패턴 모두에 대해 빠르게 빈발 패턴을 마이닝할 수 있는 압축된 패트리샤 빈발 패턴 트리라는 새로운 자료구조와 이를 사용한 빈발 패턴 마이닝 알고리즘을 제안한다. 실험 평가는 제안한 알고리즘이 대용량 희소 및 밀집 빈발 데이터에서 기존의 FP-Growth 알고리즘 보다 약 10배 정도 빠르게 빈발 패턴을 탐사하는 것을 보인다.

ROMP를 이용한 희소 표현 방식 얼굴 인식 방법론 (Face Recognition via Sparse Representation using the ROMP Method)

  • 안정호;최권택
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.347-356
    • /
    • 2017
  • 희소 표현을 이용한 얼굴 인식 방법론은 강인성이 입증된 우수한 얼굴 인식 방법으로 알려져 있다. 이 방법론의 단점은 $L_1$-노름 최적화 문제를 통해 희소해를 구하는 과정에서 많은 시간이 소요되어 실시간 응용 분야에 적합하지 않다는 것이다. 통상적인 $L_2$-노름 최적화 문제를 통해 얻어진 희소해는 희소성이 결여되고 정확도가 떨어져서 희소 표현을 이용한 인식 방법론에는 사용되고 있지 않다. 우리는 본 논문에서는 탐욕적인 방식으로 $L_2$-노름 최적화 문제를 푸는 ROMP 방식을 도입해 희소해를 구하는 방법을 제안하고, 실험을 통해 제안한 방식이 정확도에서 기존 방식과 유사하며 속도는 60배 이상 빠름을 보였다. 또한, 희소 표현기반인식 방법론으로 희소해의 분포만을 고려하여 분류하는 단순한 방식인 C-SCI 방법론을 제안하였다. 이 방법론은 테스트 데이터를 복원하는 기존 방식과 성능 면에서는 유사하나 속도 면에서는 약 5배 빠름을 실험적으로 입증하였고, 이론적인 복잡도 분석 결과도 제시하였다.

희소 클래스 분류 문제 해결을 위한 전처리 연구 (A Study on Pre-processing for the Classification of Rare Classes)

  • 류경준;신동규;신동일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.472-475
    • /
    • 2020
  • 실생활의 사례를 바탕으로 생성된 여러 분야의 데이터셋을 기계학습 (Machine Learning) 문제에 적용하고 있다. 정보보안 분야에서도 사이버 공간에서의 공격 트래픽 데이터를 기계학습으로 분석하는 많은 연구들이 진행 되어 왔다. 본 논문에서는 공격 데이터를 유형별로 정확히 분류할 때, 실생활 데이터에서 흔하게 발생하는 데이터 불균형 문제로 인한 분류 성능 저하에 대한 해결방안을 연구했다. 희소 클래스 관점에서 데이터를 재구성하고 기계학습에 악영향을 끼치는 특징들을 제거하고 DNN(Deep Neural Network) 모델을 사용해 분류 성능을 평가했다.

L1 목적 함수와 채널 프루닝을 이용한 얼굴 검출기 경량화 (Compression and Acceleration of Face Detector using L1 Loss and Channel Pruning)

  • 이석희;장영균;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.40-42
    • /
    • 2020
  • 본 논문에서는 합성곱 기반의 얼굴 검출기 Dual Shot Face Detector (DSFD)에 대하여, 특징점 맵의 희소화와 채널 프루닝 목적 함수를 사용하여 네트웍 경량화를 수행하였다. 특징점 맵을 희소화하기 위해 L1 목적 함수를 사용했고, 특징점 맵의 채널 프루닝을 하기 위해 채널 최대값이 가장 낮은 채널들의 합을 최소화 시키는 목적함수를 적용했다. 기존의 신경망은 특징점 맵 희소화 비율이 45%였고 두 목적 함수를 적용했을 때 69.67% 로 희소화 비율이 높아진 것을 확인했다. 얼굴 검출 성능을 다양한 조명, 크기, 환경, 각도, 표정의 얼굴들을 포함하는 영상들로 이뤄진 Wider Face 데이터 셋으로 실험한 결과, average precision은 하락 했고 easy validation set에서 0.9257, hard validation set에서 0.8363 였다.

  • PDF

다중 희소 행렬-행렬 곱셈 하드웨어 가속기 연구 (Study on Multiple sparse matrix-matrix multiplication hardware accelerator)

  • 김태형;조영필
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.47-50
    • /
    • 2024
  • 희소 행렬은 대부분의 요소가 0 인 행렬이다. 이러한 희소 행렬-행렬 곱셈을 수행할 경우 0 인 데이터 또한 곱셈을 수행하니 불필요한 연산이 발생한다. 이러한 문제를 해결하고자 행렬 압축 알고리즘 또는 곱셈의 부분합의 수를 줄이는 연구들이 활발히 진행 중이다. 하지만 현재의 연구들은 주로 단일 행렬 연산에 집중되어 있어 FPGA(Field Programmable Gate Array)와 특정 용도로 사용하는 가속기에서는 리소스를 충분히 활용하지 못해 비효율적이다. 본 연구는 FPGA 의 모든 리소스를 사용하여 다중 희소 행렬 곱셈을 수행하는 아키텍처를 제안한다.

의료 인공지능 성능 향상을 위한 GAN 기반 희소 질병 데이터 합성 (GAN-Based Synthesis of Sparse Disease Data for Improving Medical AI Performance)

  • 정예림;김소연;이일구
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.707-708
    • /
    • 2024
  • 최근 디지털 헬스케어 기술과 서비스가 널리 활용되면서 의료 인공지능 성능 향상에 대한 관심이 높아지고 있다. 그러나 양성 데이터 대비 질병 데이터가 희소하여 학습 과정에서 과적합이 발생하거나 질병 예측 모델의 성능이 떨어진다는 한계가 있다. 본 논문에서는 데이터가 균질하지 않은 상황에서 생성형 인공지능 모델을 사용하여 합성 데이터를 생성하는 방안을 제안한다. 실험 결과에 따르면, 종래 방법 대비 제안한 방법의 정확도가 약 5.8% 향상되었고, 재현율이 약 21% 개선되었다.

Support Vector Regression을 이용한 희소 데이터의 전처리 (A Sparse Data Preprocessing Using Support Vector Regression)

  • 전성해;박정은;오경환
    • 한국지능시스템학회논문지
    • /
    • 제14권6호
    • /
    • pp.789-792
    • /
    • 2004
  • 웹 마이닝, 바이오정보학, 통계적 자료 분석 등 여러 분야에서 매우 다양한 형태의 결측치가 발생하여 학습 데이터를 희소하게 만든다. 결측치는 주로 전처리 과정에서 가장 기본적인 평균과 최빈수뿐만 아니라 조건부 평균, 나무 모형, 그리고 마코프체인 몬테칼로 기법과 같은 결측치 대체 기법들을 적용하여 추정된 값에 의해 대체된다. 그런데 주어진 데이터의 결측치 비율이 크게 되면 기존의 결측치 대체 방법들의 예측의 정확도는 낮아지는 특성을 보인다. 또한 데이터의 결측치 비율이 증가할수록 사용 가능한 결측치 대체 방법들의 수는 제한된다. 이러한 문제점을 해결하기 위하여 본 논문에서는 통계적 학습 이론 중에서 Vapnik의 Support Vector Regression을 데이터 전처리 과정에 알맞게 변형하여 적용하였다. 제안 방법을 이용하여 결측치 비율이 큰 희소 데이터의 전처리도 가능할 수 있도록 하였다 UCI machine learning repository로부터 얻어진 데이터를 이용하여 제안 방법의 성능을 확인하였다.

GEase-K: 부가 정보를 활용한 선형 및 비선형 오토인코더 기반의 추천시스템 (GEase-K: Linear and Nonlinear Autoencoder-based Recommender System with Side Information)

  • 이태범;이승학;마민정;조윤호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.167-183
    • /
    • 2023
  • 최근 추천시스템 분야에서는 희소한 데이터를 효과적으로 모델링하기 위한 다양한 연구가 진행되고 있다. GLocal-K(Global and Local Kernels for Recommender Systems)는 그중 하나의 연구로 전역 커널과 지역 커널을 결합하여 데이터의 전역적인 패턴과 개별 사용자의 특성을 모두 고려해 사용자 맞춤형 추천을 제공하는 모델이다. 하지만 GLocal-K는 커널 트릭을 사용하기 때문에 매우 희소한 데이터에서 성능이 떨어지고 부가 정보를 사용하지 않아 새로운 사용자나 아이템에 대한 추천을 제공하는 데 어려움이 있다. 본 논문에서는 이러한 GLocal-K의 단점을 극복하기 위해 EASE(Embarrassingly Shallow Autoencoders for Sparse Data) 모델과 부가 정보를 활용한 GEase-K(Global and EASE kernels for Recommender Systems) 모델을 제안한다. 우선 GLocal-K의 지역 커널 대신 EASE를 활용하여 매우 희소한 데이터에서 추천 성능을 높이고자 하였다. EASE는 단순한 선형 연산 구조로 이루어져 있지만, 규제화와 아이템 간 유사도 학습을 통해 매우 희소한 데이터에서 높은 성능을 내는 오토인코더이다. 다음으로 Cold Start 완화를 위해 부가 정보를 활용하였다. 학습 과정에서 부가 정보를 추가하기 위해 조건부 오토인코더 구조를 적용하였으며 이를 통해 사용자-아이템 간의 유사성을 더 잘 파악할 수 있도록 하였다. 결론적으로 GEase-K는 선형 구조와 비선형 구조의 결합, 부가 정보의 활용을 통해 매우 희소한 데이터와 Cold Start 상황에서 강건한 모습을 보인다. 실험 결과, GEase-K는 매우 희소한 GoodReads, ModCloth 데이터 세트에서 RMSE, MAE 평가 지표 기준 GLocal-K 보다 높은 성능을 보였다. 또한 GoodReads, ModCloth 데이터 세트를 4개의 집단으로 나누어 실험한 Cold Start 실험에서도 GLocal-K 대비 Cold Start 상황에서 좋은 성능을 보였다.

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

3차원 복원을 위한 대용량 희소 볼륨 데이터의 효율적인 저장을 위한 공간자료구조 (Spatial Data Structure for Efficient Representation of Very Large Sparse Volume Data for 3D Reconstruction)

  • 안재풍;신승미;서웅;임인성
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권3호
    • /
    • pp.19-29
    • /
    • 2017
  • 일반적으로 희소 볼륨 데이터에 대하여 고정적인 메모리 할당 방식을 사용할 경우 상당한 메모리 공간 낭비가 발생하며, 이는 대용량의 고해상도 볼륨 데이터의 경우 더 심각한 문제가 발생한다. 본 논문에서는 이러한 불필요한 메모리 낭비를 개선하기 위하여 고정적인 메모리 공간이 아닌, 유효한 정보가 저장된 복셀 만을 효과적으로 저장하는 볼륨 데이터 표현 방법을 제안하고, 이를 기존의 정적인 메모리 할당 방법, 팔진 트리 그리고 복셀 해싱 방법과 메모리 사용량 및 연산 속도 측면에서 비교 분석한다. 특히 GPU 기반의 마칭 큐브 방법의 구현에 있어 본 논문에서 제안하는 방법과 복셀 해싱 방법을 비교 분석 한다.