• 제목/요약/키워드: Light-weight deep learning model

검색결과 8건 처리시간 0.023초

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

임베디드 시스템을 위한 멀티태스킹 딥러닝 학습 기반 경량화 성별/연령별 추정 (A light-weight Gender/Age Estimation model based on Multi-taking Deep Learning for an Embedded System)

  • ;정선태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.483-486
    • /
    • 2020
  • Age estimation and gender classification for human is a classic problem in computer vision. Almost research focus just only one task and the models are too heavy to run on low-cost system. In our research, we aim to apply multitasking learning to perform both task on a lightweight model which can achieve good precision on embedded system in the real time.

심층신경망의 더블 프루닝 기법의 적용 및 성능 분석에 관한 연구 (Application and Performance Analysis of Double Pruning Method for Deep Neural Networks)

  • 이선우;양호준;오승연;이문형;권장우
    • 융합정보논문지
    • /
    • 제10권8호
    • /
    • pp.23-34
    • /
    • 2020
  • 최근 인공지능 딥러닝 분야는 컴퓨팅 자원의 높은 연산량과 가격문제로 인해 상용화에 어려움이 존재했다. 본 논문은 더블 프루닝 기법을 적용하여 심층신경망 모델들과 다수의 데이터셋에서의 성능을 평가하고자 한다. 더블 프루닝은 기본의 네트워크 간소화(Network-Slimming)과 파라미터 프루닝(Parameter-Pruning)을 결합한다. 이는 기존의 학습에 중요하지 않는 매개변수를 절감하여 학습 정확도를 저해하지 않고 속도를 향상시킬 수 있다는 장점이 있다. 다양한 데이터셋 학습 이후에 프루닝 비율을 증가시켜, 모델의 사이즈를 감소시켰다. NetScore 성능 분석 결과 MobileNet-V3가 가장 성능이 높게 나타났다. 프루닝 이후의 성능은 Cifar 10 데이터셋에서 깊이 우선 합성곱 신경망으로 구성된 MobileNet-V3이 가장 성능이 높았고, 전통적인 합성곱 신경망으로 이루어진 VGGNet, ResNet또한 높은 폭으로 성능이 증가함을 확인하였다.

음향 장면 분류를 위한 경량화 모형 연구 (Light weight architecture for acoustic scene classification)

  • 임소영;곽일엽
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.979-993
    • /
    • 2021
  • 음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.

한국인 구음장애 환자의 발화 데이터 기반 질병 예측을 위한 모바일 애플리케이션 개발 (Development of a Mobile Application for Disease Prediction Using Speech Data of Korean Patients with Dysarthria)

  • 하창진;고태식
    • 대한의용생체공학회:의공학회지
    • /
    • 제45권1호
    • /
    • pp.1-9
    • /
    • 2024
  • Communication with others plays an important role in human social interaction and information exchange in modern society. However, some individuals have difficulty in communicating due to dysarthria. Therefore, it is necessary to develop effective diagnostic techniques for early treatment of the dysarthria. In the present study, we propose a mobile device-based methodology that enables to automatically classify dysarthria type. The light-weight CNN model was trained by using the open audio dataset of Korean patients with dysarthria. The trained CNN model can successfully classify dysarthria into related subtype disease with 78.8%~96.6% accuracy. In addition, the user-friendly mobile application was also developed based on the trained CNN model. Users can easily record their voices according to the selected inspection type (e.g. word, sentence, paragraph, and semi-free speech) and evaluate the recorded voice data through their mobile device and the developed mobile application. This proposed technique would be helpful for personal management of dysarthria and decision making in clinic.

멀티 테스크 CNN의 경량화 모델을 이용한 차량 및 차선의 동시 검출 (Concurrent Detection for Vehicles and Lanes Using Light-Weight Model of Multi-Task CNN)

  • 신현식;김형원;홍상욱
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.367-373
    • /
    • 2022
  • 딥러닝 기반 자율 주행 기술이 발전함에 따라 다양한 목적의 인공지능 모델이 연구되었다. 연구된 여러 모델들을 동시에 구동하여 자율주행 시스템을 개발한다. 그러나 동시에 인공지능 모델을 사용하면서 많은 하드웨어 자원 소비가 증가한다. 이를 해결하기 위해 본 논문은 백본 모델을 공유하며 다중 태스크를 고속으로 수행할 수 있는 Multi-Task CNN 모델을 제안한다. 이를 통해 AI모델을 사용하기 위한 백본 수의 증가를 해결할 수 있었습니다. 제안하는 CNN 모델은 기존 모델 대비 50% 이상 웨이트 파라미터 수를 감소시키며, 3배 이상의 FPS 속도를 향상시켰다. 또한, 차선인식은 Instance segmentation 기반으로 차선검출 및 차선별 Labeling을 모두 출력한다. 그러나 기존 모델에 비해 정확도가 감소하는 부분에 대해서는 추가적인 연구가 필요하다.

재고 관리 및 도난 방지를 위한 영상분석 기반 무인 매장 관리 시스템 (Video-based Inventory Management and Theft Prevention for Unmanned Stores)

  • 이수진;문지영;박해인;강지헌
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.77-89
    • /
    • 2024
  • 본 논문에서는 중소형 매장에서 판매 상품 진열대를 모니터링할 수 있는 소형 카메라를 이용해 진열 상품에 대한 재고 관리 및 도난 방지 기능을 제공할 수 있는 무인 매장 관리 시스템을 제시한다. 이 시스템은 객체 인식, 실시간 통신, 보안 관리, 출입 관리, 그리고 모바일 인증을 종합적으로 통합한 서비스 솔루션이다. 제안 시스템은 소형 카메라를 통해 실시간으로 촬영되고 있는 영상을 커스텀 YOLOv5-x 모델을 활용하여 진열대의 물체를 인식하고 수량을 실시간 측정하며, 라즈베리파이를 통해 서버와의 실시간 데이터 통신을 지원한다. 또한, 데이터베이스 내 객체 수량과 객체 인식 결과를 비교하여 도난 의심 상황을 탐지하고 도난 발생 시점의 매장 영상을 제공한다. 제안된 무인 매장 솔루션은 중소형 무인 매장 운영의 효율성을 향상시키고 도난을 대응하는데 기여할 수 있을 것으로 기대된다.

온실의 환경요인을 이용한 인공신경망 기반 수경 재배 파프리카의 증산량 추정 (Transpiration Prediction of Sweet Peppers Hydroponically-grown in Soilless Culture via Artificial Neural Network Using Environmental Factors in Greenhouse)

  • 남두성;이준우;문태원;손정익
    • 생물환경조절학회지
    • /
    • 제26권4호
    • /
    • pp.411-417
    • /
    • 2017
  • 광도, 포차와 같은 환경요인과 엽면적 지수와 같은 생육요인은 증산 속도를 변화시키는 중요한 변수이다. 본 연구에서는 Penman-Monteith의 증산 모델과 인공신경망(ANN)에 학습에 의한 증산속도 추정값을 비교하는 것을 목표로 하였다. 파프리카(Capsicum annuum L. cv. Fiesta)의 증산속도 추정은 로드셀을 이용한 배지의 중량변화를 통해 계산하였다. 온도, 상대습도, 배지 중량 데이터는 1분 단위로 2개월간 수집하였다. 증산량은 일차식으로는 정확한 추정이 어렵기 때문에, 기존의 Penman-Monteith식에 보정 광도를 사용한 수정식 Shin 등(2014)을 사용하였다. 이와는 별개로 ANN을 사용하여 증산량을 추정 비교하였다. 이를 위하여 광도, 온도, 습도, 엽면적지수, 시간을 사용한 입력층과 5개의 은닉층으로 구성된 ANN을 구축하였다. 각 은닉층의 퍼셉트론 개수는 가장 정확성이 높은 512개로 하였다. 검증 결과, 보정된 Penman-Monteith 모델식의 $R^2=0.82$이었고, ANN의 $R^2=0.94$로 나타났다. 따라서 ANN은 일반적인 모델식에 비해 정확한 증산량 추정이 가능한 것으로 나타났고, 추후 수경재배의 효율적인 관수전략 수립에 있어 적용 가능할 것으로 판단되었다.