• 제목/요약/키워드: VGG-16

검색결과 123건 처리시간 0.024초

Arabic Words Extraction and Character Recognition from Picturesque Image Macros with Enhanced VGG-16 based Model Functionality Using Neural Networks

  • Ayed Ahmad Hamdan Al-Radaideh;Mohd Shafry bin Mohd Rahim;Wad Ghaban;Majdi Bsoul;Shahid Kamal;Naveed Abbas
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1807-1822
    • /
    • 2023
  • Innovation and rapid increased functionality in user friendly smartphones has encouraged shutterbugs to have picturesque image macros while in work environment or during travel. Formal signboards are placed with marketing objectives and are enriched with text for attracting people. Extracting and recognition of the text from natural images is an emerging research issue and needs consideration. When compared to conventional optical character recognition (OCR), the complex background, implicit noise, lighting, and orientation of these scenic text photos make this problem more difficult. Arabic language text scene extraction and recognition adds a number of complications and difficulties. The method described in this paper uses a two-phase methodology to extract Arabic text and word boundaries awareness from scenic images with varying text orientations. The first stage uses a convolution autoencoder, and the second uses Arabic Character Segmentation (ACS), which is followed by traditional two-layer neural networks for recognition. This study presents the way that how can an Arabic training and synthetic dataset be created for exemplify the superimposed text in different scene images. For this purpose a dataset of size 10K of cropped images has been created in the detection phase wherein Arabic text was found and 127k Arabic character dataset for the recognition phase. The phase-1 labels were generated from an Arabic corpus of quotes and sentences, which consists of 15kquotes and sentences. This study ensures that Arabic Word Awareness Region Detection (AWARD) approach with high flexibility in identifying complex Arabic text scene images, such as texts that are arbitrarily oriented, curved, or deformed, is used to detect these texts. Our research after experimentations shows that the system has a 91.8% word segmentation accuracy and a 94.2% character recognition accuracy. We believe in the future that the researchers will excel in the field of image processing while treating text images to improve or reduce noise by processing scene images in any language by enhancing the functionality of VGG-16 based model using Neural Networks.

드론 식별 시스템을 위한 합성곱 신경망 기반 이미지 분류 모델 성능 비교 (Performance Comparison of CNN-Based Image Classification Models for Drone Identification System)

  • 김영완;조대균;박건우
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.639-644
    • /
    • 2024
  • 최근 전장에서의 드론 활용이 정찰뿐만 아니라 화력 지원까지 확장됨에 따라, 드론을 조기에 자동으로 식별하는 기술의 중요성이 더욱 증가하고 있다. 본 연구에서는 드론과 크기 및 외형이 유사한 다른 공중 표적들인 새와 풍선을 구분할 수 있는 효과적인 이미지 분류 모델을 확인하기 위해, 인터넷에서 수집한 3,600장의 이미지 데이터셋을 사용하고, 세 가지 사전 학습된 합성곱 신경망 모델(VGG16, ResNet50, InceptionV3)의 특징 추출기능과 추가 분류기를 결합한 전이 학습 접근 방식을 채택하였다. 즉, 가장 우수한 모델을 확인하기 위해 세 가지 사전 학습된 모델(VGG16, ResNet50, InceptionV3)의 성능을 비교 분석하였으며, 실험 결과 InceptionV3 모델이 99.66%의 최고 정확도를 나타냄을 확인하였다. 본 연구는 기존의 합성곱 신경망 모델과 전이 학습을 활용하여 드론을 식별하는 새로운 시도로써, 드론 식별 기술의 발전에 크게 기여 할 것으로 기대된다.

반려견 자동 품종 분류를 위한 전이학습 효과 분석 (Analysis of Transfer Learning Effect for Automatic Dog Breed Classification)

  • 이동수;박구만
    • 방송공학회논문지
    • /
    • 제27권1호
    • /
    • pp.133-145
    • /
    • 2022
  • 국내에서 지속적으로 증가하는 반려견 인구 및 산업 규모에 비해 이와 관련한 데이터의 체계적인 분석이나 품종 분류 방법 연구 등은 매우 부족한 실정이다. 본 논문에서는 국내에서 양육되는 반려견의 주요 14개 품종에 대해 딥러닝 기술을 이용한 자동 품종 분류 방법을 수행하였다. 이를 위해 먼저 딥러닝 학습을 위한 반려견 이미지를 수집하고 데이터셋을 구축하였으며, VGG-16 및 Resnet-34를 백본 네트워크로 사용하는 전이학습을 각각 수행하여 품종 분류 알고리즘을 만들었다. 반려견 이미지에 대한 두 모델의 전이학습 효과를 확인하기 위해, Pre-trained 가중치를 사용한 것과 가중치를 업데이트하는 실험을 수행하여 비교하였으며, VGG-16 기반으로 fine tuning을 수행했을 때, 최종 모델에서 Top 1 정확도는 약 89%, Top 3 정확도는 약 94%의 정확도 성능을 각각 얻을수 있었다. 본 논문에서 제안하는 국내의 주요 반려견 품종 분류 방법 및 데이터 구축은 동물보호센터에서의 유기·유실견 품종 구분이나 사료 산업체에서의 활용 등 여러가지 응용 목적으로도 활용될 수 있는 가능성을 가지고 있다.

다양한 컨볼루션 신경망을 이용한 태국어 숫자 인식 (Handwriting Thai Digit Recognition Using Convolution Neural Networks)

  • ;정한민;김태홍
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.15-17
    • /
    • 2021
  • 필기체 인식 연구는 주로 딥러닝 기술에 초점이 맞추어져 있으며, 최근 몇 년 동안 많은 발전을 이루었다. 특히, 필기체 태국어 숫자 인식은 태국 공식 문서와 영수증과 같은 숫자 정보를 포함한 많은 분야에서 중요한 연구 분야지만, 동시에 도전적인 분야이기도 하다. 대규모 태국어 숫자 데이터 집합의 부재를 해결하기 위해, 본 연구는 자체적인 데이터 집합을 구축하고 이를 다양한 컨볼루션 신경망으로 학습시켰다. 정확도 메트릭을 이용하여 평가한 결과, 배치 정규화 기반 VGG 13이 98.29%의 가장 높은 성능을 보였다.

  • PDF

VGG-based BAPL Score Classification of 18F-Florbetaben Amyloid Brain PET

  • Kang, Hyeon;Kim, Woong-Gon;Yang, Gyung-Seung;Kim, Hyun-Woo;Jeong, Ji-Eun;Yoon, Hyun-Jin;Cho, Kook;Jeong, Young-Jin;Kang, Do-Young
    • 대한의생명과학회지
    • /
    • 제24권4호
    • /
    • pp.418-425
    • /
    • 2018
  • Amyloid brain positron emission tomography (PET) images are visually and subjectively analyzed by the physician with a lot of time and effort to determine the ${\beta}$-Amyloid ($A{\beta}$) deposition. We designed a convolutional neural network (CNN) model that predicts the $A{\beta}$-positive and $A{\beta}$-negative status. We performed 18F-florbetaben (FBB) brain PET on controls and patients (n=176) with mild cognitive impairment and Alzheimer's Disease (AD). We classified brain PET images visually as per the on the brain amyloid plaque load score. We designed the visual geometry group (VGG16) model for the visual assessment of slice-based samples. To evaluate only the gray matter and not the white matter, gray matter masking (GMM) was applied to the slice-based standard samples. All the performance metrics were higher with GMM than without GMM (accuracy 92.39 vs. 89.60, sensitivity 87.93 vs. 85.76, and specificity 98.94 vs. 95.32). For the patient-based standard, all the performance metrics were almost the same (accuracy 89.78 vs. 89.21), lower (sensitivity 93.97 vs. 99.14), and higher (specificity 81.67 vs. 70.00). The area under curve with the VGG16 model that observed the gray matter region only was slightly higher than the model that observed the whole brain for both slice-based and patient-based decision processes. Amyloid brain PET images can be appropriately analyzed using the CNN model for predicting the $A{\beta}$-positive and $A{\beta}$-negative status.

딥 러닝 기반의 SIFT 이미지 특징 추출 (SIFT Image Feature Extraction based on Deep Learning)

  • 이재은;문원준;서영호;김동욱
    • 방송공학회논문지
    • /
    • 제24권2호
    • /
    • pp.234-242
    • /
    • 2019
  • 본 논문에서는 일정 크기로 자른 영상의 가운데 픽셀이 SIFT 특징점인지를 판별함으로써 SIFT 특징점을 추출하는 딥 뉴럴 네트워크(Deep Neural Network)를 제안한다. 이 네트워크의 데이터 세트는 DIV2K 데이터 세트를 $33{\times}33$ 크기로 잘라서 구성하고, 흑백 영상으로 판별하는 SIFT와는 달리 RGB 영상을 사용한다. 그라운드 트루스(ground truth)는 옥타브(scale, octave)를 0, 시그마(sigma)는 1.6, 간격(intervals)은 3으로 설정하여 추출한 RobHess SIFT 특징들로 구성한다. VGG-16을 기반으로 컨볼루션 층을 13개에서 23개와 33개로 점점 깊은 네트워크를 구성하고, 영상의 스케일을 증가시키는 방법을 바꿔가며 실험을 수행한다. 출력 층의 활성화 함수로 시그모이드(sigmoid) 함수를 사용한 결과와 소프트맥스(softmax) 함수를 사용한 결과를 비교하여 분석한다. 실험결과 제안한 네트워크가 99% 이상의 추출 정확도를 가질 뿐 아니라 왜곡된 영상에 대해서도 높은 추출 반복성을 가진다는 것을 보인다.

개체군 희소성 인덱스에 의한 컨벌루션 신경망 모델의 적대적 예제에 대한 뉴런 활동에 관한 연구 (Study on Neuron Activities for Adversarial Examples in Convolutional Neural Network Model by Population Sparseness Index)

  • 이영석
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-7
    • /
    • 2023
  • 시각 피질로부터 영감을 심층 신경망의 일종인 컨벌루션 신경망은 영상 관련 분야에서 이미 인간의 시각처리 능력을 넘어서 다양한 분야에 응용되고 있지만 적대적 공격의 출현으로 모델의 성능이 저하되는 심각한 위험에 노출되어 있다. 또한 적대적 공격에 대응하기 위한 방어 기술은 해당 공격에 효과를 보이지만 다른 종류의 공격에는 취약하다. 적대적 공격에 대응하기 위해서는 적대적 공격이 컨벌루션 신경망 내부에서 어떤 과정을 통하여 성능이 저하되는 지에 대한 분석이 필요하다. 본 연구에서는 신경생리학 분야에서 뉴런의 활동을 측정하기 위한 척도인 개체군 희소성 인덱스를 이용하여 AlexNet과 VGG11 모델의 적대적 공격에 대한 분석을 수행하였다. 수행된 연구를 통하여 적대적 예제에 대한 개체군 희소성 인덱스가 AlexNet에서는 전 연결 층에서 개체군 희소성이 증가하는 현상을 발견할 수 있었으며 이와 같은 동작은 일반적인 신경망의 동작에 반하는 결과로서 적대적 예제가 신경망의 동작에 영향을 미치고 있다는 강력한 증거이며 또한 동일한 실험을 실시한 VGG11에서는 전체 레이어에서 개체군 희소성 인덱스가 전반적으로 감소하여 개체 인식의 성능이 감소되는 활동을 관찰 할 수 있었다. 이와 같은 결과는 신경생리학적 관점에서 뉴런의 활동을 관찰하는 방식을 인공지능 분야에서도 활용하고 분석할 수 있는 방법을 제시하였다.

HS 코드 분류를 위한 CNN 기반의 추천 모델 개발 (CNN-based Recommendation Model for Classifying HS Code)

  • 이동주;김건우;최근호
    • 경영과정보연구
    • /
    • 제39권3호
    • /
    • pp.1-16
    • /
    • 2020
  • 현재 운영되고 있는 관세신고납부제도는 납세의무자가 세액 산정을 스스로하고 그 세액을 본인 책임으로 납부하도록 하는 제도이다. 다시 말해, 관세법상 신고 납부제도는 납세액을 정확히 계산해서 납부할 의무와 책임이 온전히 납세의무자에게 무한정으로 부과하는 것을 원칙으로 하고 있다. 따라서, 만일 납세의무자가 그 의무와 책임을 제대로 행하지 못했을 경우에는 부족한 만큼의 세액 추징과 그에 대한 제제로 가산세를 부과하고 있다. 이러한 이유로 세액 산정의 기본이 되는 품목분류는 관세평가와 함께 가장 어려운 부분이며 잘못 분류하게 되면 기업에게도 큰 리스크가 될 수도 있다. 이러한 이유로 관세전문가인 관세사에게 상당한 수수료를 지불하면서 수입신고를 위탁하여 처리하고 있는 실정이다. 이에 본 연구에서는 수입신고 시 신고하려는 품목이 어떤 것인지 HS 코드 분류를 하여 수입신고 시 기재해야 할 HS 코드를 추천해 주는데 목적이 있다. HS 코드 분류를 위해 관세청 품목분류 결정 사례를 바탕으로 사례에 첨부된 이미지를 활용하여 HS 코드 분류를 하였다. 이미지 분류를 위해 이미지 인식에 많이 사용되는 딥러닝 알고리즘인 CNN을 사용하였는데, 세부적으로 CNN 모델 중 VggNet(Vgg16, Vgg19), ResNet50, Inception-V3 모델을 사용하였다. 분류 정확도를 높이기 위해 3개의 dataset을 만들어 실험을 진행하였다. Dataset 1은 HS 코드 이미지가 가장 많은 5종을 선정하였고 Dataset 2와 Dataset 3은 HS 코드 2단위 중 가장 데이터 샘플의 수가 많은 87류를 대상으로 하였으며, 이 중 샘플 수가 많은 5종으로 분류 범위를 좁혀 분석하였다. 이 중 dataset 3로 학습시켜 HS 코드 분류를 수행하였을 때 Vgg16 모델에서 분류 정확도가 73.12%로 가장 높았다. 본 연구는 HS 코드 이미지를 이용해 딥러닝에 기반한 HS 코드 분류를 최초로 시도하였다는 점에서 의의가 있다. 또한, 수출입 업무를 하고 있는 기업이나 개인사업자들이 본 연구에서 제안한 모델을 참조하여 활용할 수 있다면 수출입 신고 시 HS 코드 작성에 도움될 것으로 기대된다.

전이학습을 이용한 전반사가 있는 월패드 분류 (Glaring Wall Pad classification by transfer learning)

  • 이용준;조근식
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.35-36
    • /
    • 2021
  • 딥러닝을 이용한 이미지 처리에서 데이터 셋이 반드시 필요하다. 월패드는 널리 보급되는 다양한 성능을 포함한 IoT가전으로 그 기능의 사용을 돕기 위해서는 해당 월패드에 해당하는 매뉴얼을 제공해야 하고 이를 위해 딥러닝을 이용한 월패드 분류를 이용 할 수 있다. 하지만 월패드 중 일부 모델은 화면의 전반사가 매우 심해 기존의 작은 데이터 셋으로는 딥러닝을 이용한 이미지 분류 성능이 좋지 못하다. 본 논문은 이를 해결하기 위해 추가적으로 데이터 셋을 구축하고 이를 이용해 대규모 데이터로 사전 학습된 VGG16, VGG19, ResNet50, MobileNet 등을 이용해 전이학습을 통해 월패드를 분류한다.

  • PDF

An Implementation of Effective CNN Model for AD Detection

  • Vyshnavi Ramineni;Goo-Rak Kwon
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.90-97
    • /
    • 2024
  • This paper focuses on detecting Alzheimer's Disease (AD). The most usual form of dementia is Alzheimer's disease, which causes permanent cause memory cell damage. Alzheimer's disease, a neurodegenerative disease, increases slowly over time. For this matter, early detection of Alzheimer's disease is important. The purpose of this work is using Magnetic Resonance Imaging (MRI) to diagnose AD. A Convolution Neural Network (CNN) model, Reset, and VGG the pre-trained learning models are used. Performing analysis and validation of layers affects the effectiveness of the model. T1-weighted MRI images are taken for preprocessing from ADNI. The Dataset images are taken from the Alzheimer's Disease Neuroimaging Initiative (ADNI). 3D MRI scans into 2D image slices shows the optimization method in the training process while achieving 96% and 94% accuracy in VGG 16 and ResNet 18 respectively. This study aims to classify AD from brain 3D MRI images and obtain better results.