• 제목/요약/키워드: 채널 어텐션

검색결과 8건 처리시간 0.019초

적응형 채널 어텐션 모듈을 활용한 복합 열화 복원 네트워크 (Image Restoration Network with Adaptive Channel Attention Modules for Combined Distortions)

  • 이해윤;조성현
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제25권3호
    • /
    • pp.1-9
    • /
    • 2019
  • 자율 주행 자동차나 소방 로봇과 같은 시스템에서 영상을 얻을 때 다양한 요인들로 인해 잡음, 블러와 같은 열화가 발생한다. 이런 열화된 영상에 직접 영상 분류와 같은 기술을 적용하기 어려워 열화 제거가 불가피하나 이러한 시스템들은 영상의 열화를 인식할 수 없어서 열화된 영상을 복원하는데 어려움이 있다. 본 논문에서는 영상에 적용된 열화를 인지하지 못하는 상황에서 여러 방법들로 열화된 영상으로부터 자연스럽고 선명한 영상을 복원하는 방법을 제안한다. 우리가 제안한 방법은 딥러닝 모델에 채널 어텐션 모듈과 스킵 커넥션을 사용하여 영상에 적용된 열화에 따라 복원에 필요한 채널에 높은 가중치를 적용해 복합 열화 영상의 복원을 진행한다. 이 방법은 다른 복합 열화 복원 방법에 비해 학습이 간단하고 기존의 다른 방법들에 비해 높은 복합 열화 복원 성능을 낸다.

딥러닝 기술을 활용한 차별 및 혐오 표현 탐지 : 어텐션 기반 다중 채널 CNN 모델링 (Bias & Hate Speech Detection Using Deep Learning: Multi-channel CNN Modeling with Attention)

  • 이원석;이현상
    • 한국정보통신학회논문지
    • /
    • 제24권12호
    • /
    • pp.1595-1603
    • /
    • 2020
  • 포털 사이트의 인터넷 뉴스 댓글, SNS, 커뮤니티 사이트 등의 온라인상에서 명예 훼손 사건이 최근 점점 증가하고 있다. 온라인상의 차별 및 혐오 표현은 명예 훼손 문제뿐만 아니라 사생활 침해, 인신 공격 등 다양한 형태로 온라인 서비스 이용자들을 위협하고 있다. 지난 몇 년간 산업계와 학계는 이러한 문제를 해결하고자 다양한 방법으로 연구해왔다. 하지만 한국어 대상으로 수행된 딥러닝 기반 혐오 표현 탐지 연구는 아직까지 부족한 상황이다. 본 연구의 목적은 혐오 표현뿐만 아니라 다양한 차별적 표현에 대한 탐지를 위해 데이터셋을 구축하고 이를 분류하기 위한 딥러닝 모델링을 실험하는 것이다. 데이터셋 구축은 10명의 인원이 교차적으로 검토를 하면서 7개 항목에 대한 라벨링 기준을 확립했다. 본 연구는 약 137,111개에 해당하는 한국어 인터넷 뉴스 댓글 데이터셋에 대해 7개의 항목을 각각 이진 분류하고, 이를 딥러닝 기법을 통해 분석한다. 본 연구에서 제안하는 기법은 어텐션 기반 다중 채널 CNN 모델링 기법이다. 실험 결과 7개 항목에 대해 가중 평균 f1 점수를 평가했을 때, 70.32%의 성능을 달성했다.

Bit-width Aware Generator and Intermediate Layer Knowledge Distillation using Channel-wise Attention for Generative Data-Free Quantization

  • Jae-Yong Baek;Du-Hwan Hur;Deok-Woong Kim;Yong-Sang Yoo;Hyuk-Jin Shin;Dae-Hyeon Park;Seung-Hwan Bae
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.11-20
    • /
    • 2024
  • 본 논문에서는 생성 모델을 이용한 데이터 프리 양자화에서 발생할 수 있는 지식 격차를 줄이기 위하여 BAG (Bit-width Aware Generator)와 채널 어텐션 기반 중간 레이어 지식 증류를 제안한다. 생성 모델을 이용한 데이터 프리 양자화의 생성자는 오직 원본 네트워크의 피드백에만 의존하여 학습하기 때문에, 양자화된 네트워크의 낮은 bit-width로 인한 감소된 수용 능력 차이를 학습에 반영하지 못한다. 제안한 BAG는 양자화된 네트워크와 동일한 bit-width로 양자화하여, 양자화된 네트워크에 맞는 합성 이미지를 생성하여 이러한 문제를 완화한다. 또한, 양자화된 네트워크와 원본 모델 간의 지식 격차를 줄이는 것 역시 양자화에서 매우 중요한 문제이다. 이를 완화하기 위해 제안한 채널 어텐션 기반 중간 레이어 지식 증류는 학생 모델이 교사 모델로부터 어떤 채널에 더 집중해서 학습해야 하는지를 가르친다. 제안한 기법의 효율성을 보이기 위해, CIFAR-100에서 학습한 원본 네트워크를 가중치와 활성값을 각각 3-bit로 양자화하여 학습을 수행하였다. 그 결과 56.14%의 Top-1 Accuracy를 달성하였으며, 베이스라인 모델인 AdaDFQ 대비 3.4% 정확도를 향상했다.

특징 융합을 이용한 농작물 다중 분광 이미지의 의미론적 분할 (Semantic Segmentation of Agricultural Crop Multispectral Image Using Feature Fusion)

  • 문준렬;박성준;백중환
    • 한국항행학회논문지
    • /
    • 제28권2호
    • /
    • pp.238-245
    • /
    • 2024
  • 본 논문에서는 농작물 다중 분광 이미지에 대해 특징 융합 기법을 이용하여 의미론적 분할 성능을 향상시키기 위한 프레임워크를 제안한다. 스마트팜 분야에서 연구 중인 딥러닝 기술 중 의미론적 분할 모델 대부분은 RGB(red-green-blue)로 학습을 진행하고 있고 성능을 높이기 위해 모델의 깊이와 복잡성을 증가시키는 데에 집중하고 있다. 본 연구는 기존 방식과 달리 다중 분광과 어텐션 메커니즘을 통해 모델을 최적화하여 설계한다. 제안하는 방식은 RGB 단일 이미지와 함께 UAV (unmanned aerial vehicle)에서 수집된 여러 채널의 특징을 융합하여 특징 추출 성능을 높이고 상호보완적인 특징을 인식하여 학습 효과를 증대시킨다. 특징 융합에 집중할 수 있도록 모델 구조를 개선하고, 작물 이미지에 유리한 채널 및 조합을 실험하여 다른 모델과의 성능을 비교한다. 실험 결과 RGB와 NDVI (normalized difference vegetation index)가 융합된 모델이 다른 채널과의 조합보다 성능이 우수함을 보였다.

채널 어텐션을 이용한 AHDR 모델의 성능 평가 (Performance Evaluation of AHDR Model using Channel Attention)

  • 윤석준;이근택;조남익
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.335-338
    • /
    • 2021
  • 본 논문에서는 기존 AHDRNet에 channel attention 기법을 적용했을 때 성능에 어떠한 변화가 있는지를 평가하였다. 기존 모델의 병합 망에 존재하는 DRDB(Dilated Residual Dense Block) 사이, 그리고 DRDB 내의 확장된 합성곱 레이어 (dilated convolutional layer) 뒤에 또다른 합성곱 레이어를 추가하는 방식으로 channel attention 기법을 적용하였다. 데이터셋은 Kalantari의 데이터셋을 사용하였으며, PSNR(Peak Signal-to-Noise Ratio)로 비교해본 결과 기존의 AHDRNet의 PSNR은 42.1656이며, 제안된 모델의 PSNR은 42.8135로 더 높아진 것을 확인하였다.

  • PDF

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

Contactless User Identification System using Multi-channel Palm Images Facilitated by Triple Attention U-Net and CNN Classifier Ensemble Models

  • Kim, Inki;Kim, Beomjun;Woo, Sunghee;Gwak, Jeonghwan
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.33-43
    • /
    • 2022
  • 본 논문에서는 기존의 스마트폰 카메라 센서를 사용하여 비접촉식 손바닥 기반 사용자 식별 시스템을 구축하기 위해 Attention U-Net 모델과 사전 훈련된 컨볼루션 신경망(CNN)이 있는 다채널 손바닥 이미지를 이용한 앙상블 모델을 제안한다. Attention U-Net 모델은 손바닥(손가락 포함), 손바닥(손바닥 미포함) 및 손금을 포함한 관심 영역을 추출하는 데 사용되며, 이는 앙상블 분류기로 입력되는 멀티채널 이미지를 생성하기 위해 결합 된다. 생성된 데이터는 제안된 손바닥 정보 기반 사용자 식별 시스템에 입력되며 사전 훈련된 CNN 모델 3개를 앙상블 한 분류기를 사용하여 클래스를 예측한다. 제안된 모델은 각각 98.60%, 98.61%, 98.61%, 98.61%의 분류 정확도, 정밀도, 재현율, F1-Score를 달성할 수 있음을 입증하며, 이는 저렴한 이미지 센서를 사용하고 있음에도 불구하고 제안된 모델이 효과적이라는 것을 나타낸다. 본 논문에서 제안하는 모델은 COVID-19 펜데믹 상황에서 기존 시스템에 비하여 높은 안전성과 신뢰성으로 대안이 될 수 있다.

X-ray 영상에서 VHS와 콥 각도 자동 추출을 위한 흉추 분할 기법 (A Thoracic Spine Segmentation Technique for Automatic Extraction of VHS and Cobb Angle from X-ray Images)

  • 이예은;한승화;이동규;김호준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권1호
    • /
    • pp.51-58
    • /
    • 2023
  • 본 논문에서는 X-ray 영상에서 의료 진단지표를 자동으로 추출하기 위한 조직분할 기법을 제안한다. 척추질환이나 심장질환에 대한 진단지표로서, 흉추-심장 비율이나 콥 각도 등의 지표를 산출하기 위해서는 흉부 X-ray 영상으로부터 흉추, 용골 및 심장의 영역을 정확하게 분할하는 과정이 필요하다. 본 연구에서는 이를 위하여 계층별로 영상의 고해상도의 표현과 저해상도의 특징지도로 변환되는 구조가 병렬적으로 연결되는 형태의 심층신경망 모델을 채택하였다. 이러한 구조는 영상에서 세부 조직의 상대적인 위치정보가 분할 과정에 효과적으로 반영될 수 있게 한다. 또한 픽셀 정보와 객체 정보가 다단계의 과정으로 상호 작용되는 OCR 모듈과, 네트워크의 각 채널이 서로 다른 가중치 값으로 반영되도록 하는 채널 어텐션 모듈을 결합하여 학습 성능을 개선할 수 있음을 보인다. 부수적으로 X-ray 영상에서 피사체의 위치 변화, 형태의 변형 및 크기 변이 등에도 강인한 성능을 제공하기 위하여 학습데이터를 증강하는 방법을 제시하였다. 총 145개의 인체 흉부 X-ray 영상과, 총 118개의 동물 X-ray 영상을 사용한 실험을 통하여 제안된 이론의 타당성을 평가하였다.