• Title/Summary/Keyword: knowledge distillation

Search Result 53, Processing Time 0.04 seconds

Bit-width Aware Generator and Intermediate Layer Knowledge Distillation using Channel-wise Attention for Generative Data-Free Quantization

  • Jae-Yong Baek;Du-Hwan Hur;Deok-Woong Kim;Yong-Sang Yoo;Hyuk-Jin Shin;Dae-Hyeon Park;Seung-Hwan Bae
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.11-20
    • /
    • 2024
  • 본 논문에서는 생성 모델을 이용한 데이터 프리 양자화에서 발생할 수 있는 지식 격차를 줄이기 위하여 BAG (Bit-width Aware Generator)와 채널 어텐션 기반 중간 레이어 지식 증류를 제안한다. 생성 모델을 이용한 데이터 프리 양자화의 생성자는 오직 원본 네트워크의 피드백에만 의존하여 학습하기 때문에, 양자화된 네트워크의 낮은 bit-width로 인한 감소된 수용 능력 차이를 학습에 반영하지 못한다. 제안한 BAG는 양자화된 네트워크와 동일한 bit-width로 양자화하여, 양자화된 네트워크에 맞는 합성 이미지를 생성하여 이러한 문제를 완화한다. 또한, 양자화된 네트워크와 원본 모델 간의 지식 격차를 줄이는 것 역시 양자화에서 매우 중요한 문제이다. 이를 완화하기 위해 제안한 채널 어텐션 기반 중간 레이어 지식 증류는 학생 모델이 교사 모델로부터 어떤 채널에 더 집중해서 학습해야 하는지를 가르친다. 제안한 기법의 효율성을 보이기 위해, CIFAR-100에서 학습한 원본 네트워크를 가중치와 활성값을 각각 3-bit로 양자화하여 학습을 수행하였다. 그 결과 56.14%의 Top-1 Accuracy를 달성하였으며, 베이스라인 모델인 AdaDFQ 대비 3.4% 정확도를 향상했다.

신경망 근사에 의한 다중 레이어의 클래스 활성화 맵을 이용한 블랙박스 모델의 시각적 설명 기법 (Visual Explanation of Black-box Models Using Layer-wise Class Activation Maps from Approximating Neural Networks)

  • 강준규;전민경;이현석;김성찬
    • 대한임베디드공학회논문지
    • /
    • 제16권4호
    • /
    • pp.145-151
    • /
    • 2021
  • In this paper, we propose a novel visualization technique to explain the predictions of deep neural networks. We use knowledge distillation (KD) to identify the interior of a black-box model for which we know only inputs and outputs. The information of the black box model will be transferred to a white box model that we aim to create through the KD. The white box model will learn the representation of the black-box model. Second, the white-box model generates attention maps for each of its layers using Grad-CAM. Then we combine the attention maps of different layers using the pixel-wise summation to generate a final saliency map that contains information from all layers of the model. The experiments show that the proposed technique found important layers and explained which part of the input is important. Saliency maps generated by the proposed technique performed better than those of Grad-CAM in deletion game.

딕셔너리 증류 기법을 적용한 얼굴 초해상화 (Dictionary Distillation in Face Super-Resolution)

  • 조병호;박인규;홍성은
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.193-194
    • /
    • 2021
  • 본 논문에서는 지식 증류 (knowledge distillation) 기법을 적용한 얼굴 초해상화 모델을 제안한다. 제안하는 기법은 최근 얼굴 복원 분야에서 좋은 성능을 보여준 얼굴 영역의 딕셔너리 (dictionary) 정보를 사용한 모델을 선생 모델로 선정하여 적대적 (adversarial) 지식 증류 기법을 통해 효율적인 학생 모델을 구축하였다. 본 논문은 테스트시 얼굴의 사전 정보가 초래하는 추가적인 비용이 필요 없는 얼굴 초해상화 방법을 제시하고, 제안하는 기법과 다양한 기존 초해상화 기법과의 정량적, 정성적 비교를 통해 우수성을 보인다.

  • PDF

다중클래스 피드백을 이용한 지식증류기법 기반의 추천시스템 정확도 평가 (On Evaluating Recommender Systems with Knowledge Distillation in Multi-Class Feedback Environment)

  • 김지연;배홍균;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.310-311
    • /
    • 2021
  • 추천시스템은 사용자가 아이템들에 남긴 과거 피드백을 바탕으로 사용자가 선호할 법할 아이템을 추천한다. 추천시스템에서 사용자의 선호도는 단일클래스 세팅과 다중클래스 세팅 두 가지로 표현 할 수 있다. 우리는 추천시스템을 위해 제안된 지식증류기법인 Ranking Distillation 을 다중클래스 세팅에서 실험하여, 증류된 지식을 통한 작은 모델 학습이 효과적인지에 대해 알아보고자 한다.

Deep Learning-Enabled Detection of Pneumoperitoneum in Supine and Erect Abdominal Radiography: Modeling Using Transfer Learning and Semi-Supervised Learning

  • Sangjoon Park;Jong Chul Ye;Eun Sun Lee;Gyeongme Cho;Jin Woo Yoon;Joo Hyeok Choi;Ijin Joo;Yoon Jin Lee
    • Korean Journal of Radiology
    • /
    • 제24권6호
    • /
    • pp.541-552
    • /
    • 2023
  • Objective: Detection of pneumoperitoneum using abdominal radiography, particularly in the supine position, is often challenging. This study aimed to develop and externally validate a deep learning model for the detection of pneumoperitoneum using supine and erect abdominal radiography. Materials and Methods: A model that can utilize "pneumoperitoneum" and "non-pneumoperitoneum" classes was developed through knowledge distillation. To train the proposed model with limited training data and weak labels, it was trained using a recently proposed semi-supervised learning method called distillation for self-supervised and self-train learning (DISTL), which leverages the Vision Transformer. The proposed model was first pre-trained with chest radiographs to utilize common knowledge between modalities, fine-tuned, and self-trained on labeled and unlabeled abdominal radiographs. The proposed model was trained using data from supine and erect abdominal radiographs. In total, 191212 chest radiographs (CheXpert data) were used for pre-training, and 5518 labeled and 16671 unlabeled abdominal radiographs were used for fine-tuning and self-supervised learning, respectively. The proposed model was internally validated on 389 abdominal radiographs and externally validated on 475 and 798 abdominal radiographs from the two institutions. We evaluated the performance in diagnosing pneumoperitoneum using the area under the receiver operating characteristic curve (AUC) and compared it with that of radiologists. Results: In the internal validation, the proposed model had an AUC, sensitivity, and specificity of 0.881, 85.4%, and 73.3% and 0.968, 91.1, and 95.0 for supine and erect positions, respectively. In the external validation at the two institutions, the AUCs were 0.835 and 0.852 for the supine position and 0.909 and 0.944 for the erect position. In the reader study, the readers' performances improved with the assistance of the proposed model. Conclusion: The proposed model trained with the DISTL method can accurately detect pneumoperitoneum on abdominal radiography in both the supine and erect positions.

의미적 정보를 보존하는 지식 증류에 대한 연구 (A study on knowledge distillation to preserve semantic information)

  • 박성현;이상근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.772-773
    • /
    • 2024
  • 의미적 정보까지 학생 모델에게 학습시키기 위한 지식 증류 기법은 많이 논의되어 왔다. 그러나 학생 모델의 용량이 교사 모델의 용량에 비해 부족함에서 발생하는 의미적 정보 손실에 대한 논의는 아직 진행되지 않았다. 본 논문에서는 의미적 정보의 최소 단위를 교사 모델의 레이어로 설정하여 학생 모델이 지식 증류를 시작하기 전 최적의 지식 증류 대상을 설정하는 최적 은닉층 선정 알고리즘을 제시한다.

Layer-wise hint-based training for knowledge transfer in a teacher-student framework

  • Bae, Ji-Hoon;Yim, Junho;Kim, Nae-Soo;Pyo, Cheol-Sig;Kim, Junmo
    • ETRI Journal
    • /
    • 제41권2호
    • /
    • pp.242-253
    • /
    • 2019
  • We devise a layer-wise hint training method to improve the existing hint-based knowledge distillation (KD) training approach, which is employed for knowledge transfer in a teacher-student framework using a residual network (ResNet). To achieve this objective, the proposed method first iteratively trains the student ResNet and incrementally employs hint-based information extracted from the pretrained teacher ResNet containing several hint and guided layers. Next, typical softening factor-based KD training is performed using the previously estimated hint-based information. We compare the recognition accuracy of the proposed approach with that of KD training without hints, hint-based KD training, and ResNet-based layer-wise pretraining using reliable datasets, including CIFAR-10, CIFAR-100, and MNIST. When using the selected multiple hint-based information items and their layer-wise transfer in the proposed method, the trained student ResNet more accurately reflects the pretrained teacher ResNet's rich information than the baseline training methods, for all the benchmark datasets we consider in this study.

실시간 3차원 객체 검출을 위한 포인트 클라우드 기반 딥러닝 모델 경량화 (Lightweight Deep Learning Model for Real-Time 3D Object Detection in Point Clouds)

  • 김규민;백중환;김희영
    • 한국정보통신학회논문지
    • /
    • 제26권9호
    • /
    • pp.1330-1339
    • /
    • 2022
  • 3D 물체검출은 대체로 자동차, 버스, 사람, 가구 등과 같은 비교적 크기가 큰 데이터를 검출하는 것을 목표로 두어 작은 객체 검출에는 취약하다. 또한, 임베디드 기기와 같은 자원이 제한적인 환경에서는 방대한 연산량 때문에 모델의 적용이 어렵다. 본 논문에서는 1개의 레이어만을 사용하여 로컬 특징에 중점을 두어 작은 객체 검출의 정확도를 높였으며, 제안한 사전 학습된 큰 네트워크에서 작은 네트워크로의 지식 증류법과 파라미터 크기에 따른 적응적 양자화를 통해 추론 속도를 향상시켰다. 제안 모델은 SUN RGB-D Val 와 자체 제작한 모형 사과나무 데이터 셋을 이용하여 성능을 평가하였고 최종적으로 mAP@0.25에서 62.04%, mAP@0.5에서 47.1%의 정확도 성능을 보였으며, 추론 속도는 120.5 scenes per sec로 빠른 실시간 처리속도를 보였다.

Utilizing Mean Teacher Semi-Supervised Learning for Robust Pothole Image Classification

  • Inki Kim;Beomjun Kim;Jeonghwan Gwak
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권5호
    • /
    • pp.17-28
    • /
    • 2023
  • 포장도로에서 발생하는 포트홀은 고속 주행 차량에 치명적인 영향을 미치며, 사망사고를 유발할 수 있는 도로상의 장애물이다. 이를 방지하기 위해 일반적으로는 작업자가 직접 포트홀을 탐지하는 방식을 사용해왔으나, 이는 작업자의 안전 문제와 예측하기 어려운 범주에서 발생하는 모든 포트홀을 인력으로 탐지하는 것이 비효율적이기 때문에 한계가 있다. 또한, 도로 환경과 관련된 지반 환경이 포트홀 생성에 영향을 미치기 때문에, 완벽한 포트홀 방지는 어렵다. 데이터셋 구축을 위해서는 전문가의 지도하에 라벨링 작업이 필요하지만, 이는 매우 시간과 비용이 많이 필요하다. 따라서, 본 논문에서는 Mean Teacher 기법을 사용하여 라벨링된 데이터의 샘플 수가 적더라도 지도학습보다 더욱 강인한 포트홀 이미지 분류 성능을 보여준다. 이러한 결과는 성능지표와 GradCAM을 통해 입증되었으며, 준지도학습을 사용할 때 15개의 사전 학습된 CNN 모델이 평균 90.41%의 정확도를 달성하며, 지도학습과 비교하여 2%에서 9%의 차이로 강인한 성능을 나타내는 것을 확인하였다.

지식 증류 기반 연합학습의 강건성 평가 (A Evaluation on Robustness of Knowledge Distillation-based Federated Learning)

  • 조윤기;한우림;유미선;윤수빈;백윤흥
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.666-669
    • /
    • 2024
  • 연합학습은 원본 데이터를 공유하지 않고 모델을 학습할 수 있는 각광받는 프라이버시를 위한 학습방법론이다. 이를 위해 참여자의 데이터를 수집하는 대신, 데이터를 인공지능 모델 학습의 요소들(가중치, 기울기 등)로 변환한 뒤, 이를 공유한다. 이러한 강점에 더해 기존 연합학습을 개선하는 방법론들이 추가적으로 연구되고 있다. 기존 연합학습은 모델 가중치를 평균내는 것으로 참여자 간에 동일한 모델 구조를 강요하기 때문에, 참여자 별로 자신의 환경에 알맞은 모델 구조를 사용하기 어렵다. 이를 해결하기 위해 지식 증류 기반의 연합학습 방법(Knowledge Distillation-based Federated Learning)으로 서로 다른 모델 구조를 가질 수 있도록(Model Heterogenousity) 하는 방법이 제시되고 있다. 연합학습은 여러 참여자가 연합하기 때문에 일부 악의적인 참여자로 인한 모델 포이즈닝 공격에 취약하다. 수많은 연구들이 기존 가중치를 기반으로한 연합학습에서의 위협을 연구하였지만, 지식 증류 기반의 연합학습에서는 이러한 위협에 대한 조사가 부족하다. 본 연구에서는 최초로 지식 증류 기반의 연합학습에서의 모델 성능 하락 공격에 대한 위협을 실체화하고자 한다. 이를 위해 우리는 GMA(Gaussian-based Model Poisoning Attack)과 SMA(Sign-Flip based Model Poisoning Attack)을 제안한다. 결과적으로 우리가 제안한 공격 방법은 실험에서 최신 학습 기법에 대해 평균적으로 모델 정확도를 83.43%에서 무작위 추론에 가깝게 떨어뜨리는 것으로 공격 성능을 입증하였다. 우리는 지식 증류 기반의 연합학습의 강건성을 평가하기 위해, 새로운 공격 방법을 제안하였고, 이를통해 현재 지식 증류 기반의 연합학습이 악의적인 공격자에 의한 모델 성능 하락 공격에 취약한 것을 보였다. 우리는 방대한 실험을 통해 제안하는 방법의 성능을 입증하고, 결과적으로 강건성을 높이기 위한 많은 방어 연구가 필요함을 시사한다.