• 제목/요약/키워드: Image deep learning

검색결과 1,828건 처리시간 0.033초

FFT 적용을 통한 Convolution 연산속도 향상에 관한 연구 (A Study on the Optimization of Convolution Operation Speed through FFT Algorithm)

  • 임수창;김종찬
    • 한국멀티미디어학회논문지
    • /
    • 제24권11호
    • /
    • pp.1552-1559
    • /
    • 2021
  • Convolution neural networks (CNNs) show notable performance in image processing and are used as representative core models. CNNs extract and learn features from large amounts of train dataset. In general, it has a structure in which a convolution layer and a fully connected layer are stacked. The core of CNN is the convolution layer. The size of the kernel used for feature extraction and the number that affect the depth of the feature map determine the amount of weight parameters of the CNN that can be learned. These parameters are the main causes of increasing the computational complexity and memory usage of the entire neural network. The most computationally expensive components in CNNs are fully connected and spatial convolution computations. In this paper, we propose a Fourier Convolution Neural Network that performs the operation of the convolution layer in the Fourier domain. We work on modifying and improving the amount of computation by applying the fast fourier transform method. Using the MNIST dataset, the performance was similar to that of the general CNN in terms of accuracy. In terms of operation speed, 7.2% faster operation speed was achieved. An average of 19% faster speed was achieved in experiments using 1024x1024 images and various sizes of kernels.

다중스펙트럼을 이용한 횡단보도 보행자 검지에 관한 연구 (A study on the detection of pedestrians in crosswalks using multi-spectrum)

  • 김정훈;최두현;이종선;이동화
    • 한국산업정보학회논문지
    • /
    • 제27권1호
    • /
    • pp.11-18
    • /
    • 2022
  • 주간 및 야간의 보행자 감지를 위해서는 다중 스펙트럼 활용이 필수적이다. 본 논문에서는 교통사고의 위험성이 높은 교차로에서 횡단보도 근처의 보행자를 24시간 검출하기 위해 컬러 카메라 및 열화상 적외선 카메라를 사용하였다. 보행자 탐지를 위해서 YOLO v5 객체 검출기를 사용하였으며 컬러 이미지와 열화상 이미지를 동시에 사용하여 감지 성능을 향상 시켰다. 제안된 시스템은 실제 횡단보도 현장에서 확보한 주·야간 다중 스펙트럼(색상 및 열화상) 보행자 데이터 셋에서 Iou 0.5 기준 0.94 mAP의 높은 성능을 보였다.

One-step deep learning-based method for pixel-level detection of fine cracks in steel girder images

  • Li, Zhihang;Huang, Mengqi;Ji, Pengxuan;Zhu, Huamei;Zhang, Qianbing
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.153-166
    • /
    • 2022
  • Identifying fine cracks in steel bridge facilities is a challenging task of structural health monitoring (SHM). This study proposed an end-to-end crack image segmentation framework based on a one-step Convolutional Neural Network (CNN) for pixel-level object recognition with high accuracy. To particularly address the challenges arising from small object detection in complex background, efforts were made in loss function selection aiming at sample imbalance and module modification in order to improve the generalization ability on complicated images. Specifically, loss functions were compared among alternatives including the Binary Cross Entropy (BCE), Focal, Tversky and Dice loss, with the last three specialized for biased sample distribution. Structural modifications with dilated convolution, Spatial Pyramid Pooling (SPP) and Feature Pyramid Network (FPN) were also performed to form a new backbone termed CrackDet. Models of various loss functions and feature extraction modules were trained on crack images and tested on full-scale images collected on steel box girders. The CNN model incorporated the classic U-Net as its backbone, and Dice loss as its loss function achieved the highest mean Intersection-over-Union (mIoU) of 0.7571 on full-scale pictures. In contrast, the best performance on cropped crack images was achieved by integrating CrackDet with Dice loss at a mIoU of 0.7670.

표정과 언어 감성 분석을 통한 스트레스 측정시스템 설계 (A Design of Stress Measurement System using Facial and Verbal Sentiment Analysis)

  • 유수화;전지원;이애진;김윤희
    • KNOM Review
    • /
    • 제24권2호
    • /
    • pp.35-47
    • /
    • 2021
  • 끊임없는 경쟁과 발전을 요구하는 현대사회에는 다양한 스트레스가 존재하고 그 스트레스는 많은 경우 인물의 표정과 언어로 표현된다. 따라서 스트레스는 표정과 언어 분석을 통하여 측정할 수 있으며, 이를 효율적으로 관리하기 위한 시스템 개발이 필요하다. 본 연구에서는 표정과 언어 감성 분석을 통하여 스트레스를 측정할 수 있는 시스템을 제안한다. 인물의 표정과 언어 감성을 분석하여 주요 감성값 기준으로 스트레스 지수를 도출하고 표정과 언어의 일치성을 기준으로 통합 스트레스 지수를 도출하는 스트레스 측정 방법을 제안한다. 스트레스 측정기법을 통한 정량화, 일반화는 다수의 연구자가 객관적인 기준으로 스트레스 지수를 평가할 수 있도록 할 수 있다.

글꼴 유사도 판단을 위한 한글 형태소의 글자 크기별 영향력 검증 및 분석 (Verification and Analysis of the Influence of Hangul Stroke Elements by Character Size for Font Similarity)

  • 윤지애;송유정;전자연;안병학;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제25권8호
    • /
    • pp.1059-1068
    • /
    • 2022
  • Recently, research using image-based deep learning is being conducted to determine similar fonts or recommend fonts. In order to increase the accuracy in judging the similarity of Hangul fonts, a previous study was conducted to calculate the similarity according to the combination of stroke elements. In this study, we tried to solve this problem by designing an integrated model that reflects the weights for each stroke element. By comparing the results of the user's font similarity calculation conducted in the previous study and the weighted model, it was confirmed that there was no difference in the ranking of the influence of the stroke elements. However, as a result of comparison by letter sizes, it was confirmed that there was a difference in the ranking of the influence of stroke elements. Accordingly, we proposed a weighted model set separately for each font size.

초분광 광학가시화 기술을 활용한 인공지능 산소온도 측정기술 개발 (Development of AI oxygen temperature measurement technology using hyperspectral optical visualization technology)

  • 이정훈;김보라;이승훈;김준식;윤민;조경래
    • 한국가시화정보학회지
    • /
    • 제21권1호
    • /
    • pp.103-109
    • /
    • 2023
  • This research developed a measurement technique that can measure the oxygen temperature inside a high temperature furnace. Instead of measuring only changes in frequency components within a small range used in the existing variable laser absorption spectroscopy, laser spectroscopy technology was used to spread out wavelength of the light source passing through the gas Based on a total of 20,000 image data, research was conducted to predict the temperature of a high-temperature furnace using CNN with black and white images in the form of spectral bands by temperature of 25 to 800 degrees. The optimal model was found through Hyper parameter optimization, R2 score is 0.89, and the accuracy of the test data is 88.73%. Based on this research, it is expected that concentration measurement and air-fuel ratio control technology can be applied.

문서 처리 자동화를 위한 인보이스 이미지의 구조 인식 방법 (Structure Recognition Method of Invoice Document Image for Document Processing Automation)

  • 이동석;권순각
    • 한국산업정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.11-19
    • /
    • 2023
  • 본 논문은 인보이스 문서 이미지에 문서 처리 자동화를 적용하기 위한 문서 구조 인식 방법과 문서 구조 인식 결과를 토대로 스프레드문서 형태로 출력하는 방법을 제안한다. 딥러닝 OCR 엔진을 통해 문서 내 단어 블록들과 해당 블록들의 문자 인식 결과를 얻는다. 단어 블록의 위치 정보들을 통해 같은 행과 같은 열에 존재하는 단어 블록들을 검출한다. 단어 블록들의 배치 정보를 통해 문서 영역을 분할한다. 문서의 구역 정보를 통해 얻어진 문서 구조를 토대로 스프레드시트의 알맞은 위치에 문자 인식 결과를 입력한다. 실험 결과 제안된 방법을 통한 항목 배치는 평균 92.30%의 정확도를 보인다.

뇌성마비 환자의 자세 불균형 탐지를 위한 스마트폰 동영상 기반 보행 분석 시스템 (Smartphone-based Gait Analysis System for the Detection of Postural Imbalance in Patients with Cerebral Palsy)

  • 황윤호;이상현;민유선;이종택
    • 대한임베디드공학회논문지
    • /
    • 제18권2호
    • /
    • pp.41-50
    • /
    • 2023
  • Gait analysis is an important tool in the clinical management of cerebral palsy, allowing for the assessment of condition severity, identification of potential gait abnormalities, planning and evaluation of interventions, and providing a baseline for future comparisons. However, traditional methods of gait analysis are costly and time-consuming, leading to a need for a more convenient and continuous method. This paper proposes a method for analyzing the posture of cerebral palsy patients using only smartphone videos and deep learning models, including a ResNet-based image tilt correction, AlphaPose for human pose estimation, and SmoothNet for temporal smoothing. The indicators employed in medical practice, such as the imbalance angles of shoulder and pelvis and the joint angles of spine-thighs, knees and ankles, were precisely examined. The proposed system surpassed pose estimation alone, reducing the mean absolute error for imbalance angles in frontal videos from 4.196° to 2.971° and for joint angles in sagittal videos from 5.889° to 5.442°.

보행자의 검출 및 추적을 기반으로 한 실시간 이상행위 분석 시스템 (Real-time Abnormal Behavior Analysis System Based on Pedestrian Detection and Tracking)

  • 김도훈;박상현
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.25-27
    • /
    • 2021
  • 최근 딥러닝 기술의 발전으로 CCTV 카메라를 통해 획득한 영상 정보에서 객체의 이상행동을 분석하기 위한 컴퓨터 비전 기반 AI 기술들이 연구되었다. 위험 지역이나 보안 지역에는 범죄 예방 및 경계 감시를 위해 감시카메라가 설치되어 있는 경우가 다수 존재한다. 이러한 이유로 기업들에서는 감시카메라 환경에서 침입, 배회, 낙상, 폭행 같은 주요한 상황을 판단하기 위한 연구들이 진행되고 있다. 본 논문에서는 객체 검출 및 추적 방법을 사용한 실시간 이상 행위 분석 알고리즘을 제안한다.

  • PDF

인공지능 플랫폼기반 요로결석진단을 위한 CT 영상 데이터 자동판독 시스템 구축 (Construction of CT Image data Automatic Recognition System for Diagnosis of Urinary Stone Based on AI Plaform)

  • 노시형;이충섭;김태훈;이윤오;박성빈;윤권하;정창원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.928-930
    • /
    • 2020
  • 본 논문은 인공지능 플랫폼 기반의 요로결석 진단을 위한 CT 영상 데이터 자동판독 시스템에 대해 기술하고자 한다. 제안한 시스템은 웹 기반의 플랫폼을 기반으로 하며, 인공지능 기반의 진단 알고리즘을 장착하여 빠르게 요로결석 환자의 스크리닝에 목적을 두고 있다. 병원정보시스템의 PACS와 EMR과 연계와 Deep learning 진단 알고리즘을 적용한 요로결석 자동판독 시스템을 개발하였다. 특히, 기 구축된 인공지능 플랫폼을 통해 추출한 데이터셋을 기반으로 진단 알고리즘 개발 방법과 수행 결과를 보인다. 제안한 시스템은 요로결석 진단과 수술여부에 의사결정지원 시스템으로 임상에서 활용될 것으로 기대하고 있다.