• 제목/요약/키워드: deep convolutional network

검색결과 995건 처리시간 0.023초

CUDA를 이용한 Convolutional Neural Network의 구현 및 속도 비교 (Development and Speed Comparison of Convolutional Neural Network Using CUDA)

  • 기철민;조태훈
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.335-338
    • /
    • 2017
  • 현재 인공지능과 딥 러닝이 사회적인 이슈로 떠오르고 있는 추세이며, 다양한 분야에 이 기술들을 응용하고 있다. 인공지능 분야의 여러 알고리즘들 중에서 각광받는 방법 중 하나는 Convolutional Neural Network이다. Convolutional Neural Network는 일반적인 Neural Network 방법에 Convolution 연산을 하여 Feature를 추출하는 Convolution Layer를 추가한 형태이다. Convolutional Neural Network를 적은 양의 데이터에서 이용하거나, Layer의 구조가 복잡하지 않은 경우에는 학습시간이 길지 않아 속도에 크게 신경 쓰지 않아도 되지만, 학습 데이터의 크기가 크고, Layer의 구조가 복잡할수록 학습 시간이 상당히 오래 걸린다. 이로 인해 GPU를 이용하여 병렬처리를 하는 방법을 많이 사용하는데, 본 논문에서는 CUDA를 이용한 Convolutional Neural Network를 구현하였으며, CPU를 이용한 방법보다 학습 속도가 빨라지고 큰 데이터를 학습 시키는데 더욱 효율적으로 진행하도록 한다.

  • PDF

Video Expression Recognition Method Based on Spatiotemporal Recurrent Neural Network and Feature Fusion

  • Zhou, Xuan
    • Journal of Information Processing Systems
    • /
    • 제17권2호
    • /
    • pp.337-351
    • /
    • 2021
  • Automatically recognizing facial expressions in video sequences is a challenging task because there is little direct correlation between facial features and subjective emotions in video. To overcome the problem, a video facial expression recognition method using spatiotemporal recurrent neural network and feature fusion is proposed. Firstly, the video is preprocessed. Then, the double-layer cascade structure is used to detect a face in a video image. In addition, two deep convolutional neural networks are used to extract the time-domain and airspace facial features in the video. The spatial convolutional neural network is used to extract the spatial information features from each frame of the static expression images in the video. The temporal convolutional neural network is used to extract the dynamic information features from the optical flow information from multiple frames of expression images in the video. A multiplication fusion is performed with the spatiotemporal features learned by the two deep convolutional neural networks. Finally, the fused features are input to the support vector machine to realize the facial expression classification task. The experimental results on cNTERFACE, RML, and AFEW6.0 datasets show that the recognition rates obtained by the proposed method are as high as 88.67%, 70.32%, and 63.84%, respectively. Comparative experiments show that the proposed method obtains higher recognition accuracy than other recently reported methods.

깊은 신경망에서 단일 중간층 연결을 통한 물체 분할 능력의 심층적 분석 (Investigating the Feature Collection for Semantic Segmentation via Single Skip Connection)

  • 임종화;손경아
    • 정보과학회 논문지
    • /
    • 제44권12호
    • /
    • pp.1282-1289
    • /
    • 2017
  • 최근 심층 컨볼루션 신경망을 활용한 이미지 분할과 물체 위치감지 연구가 활발히 진행되고 있다. 특히 네트워크의 최상위 단에서 추출한 특징 지도뿐만 아니라, 중간 은닉 층들에서 추출한 특징 지도를 활용하면 더욱 정확한 물체 감지를 수행할 수 있고 이에 대한 연구 또한 활발하게 진행되고 있다. 이에 밝혀진 경험적 특성 중 하나로 중간 은닉 층마다 추출되는 특징 지도는 각기 다른 특성을 가지고 있다는 것이다. 그러나 모델이 깊어질수록 가능한 중간 연결과 이용할 수 있는 중간 층 특징 지도가 많아지는 반면, 어떠한 중간 층 연결이 물체 분할에 더욱 효과적일지에 대한 연구는 미비한 상황이다. 또한 중간층 연결 방식 및 중간층의 특징 지도에 대한 정확한 분석 또한 부족한 상황이다. 따라서 본 연구에서 최신 깊은 신경망에서 중간층 연결의 특성을 파악하고, 어떠한 중간 층 연결이 물체 감지에 최적의 성능을 보이는지, 그리고 중간 층 연결마다 특징은 어떠한지 밝혀내고자 한다. 그리고 이전 방식에 비해 더 깊은 신경망을 활용하는 물체 분할의 방법과 중간 연결의 방향을 제시한다.

Video Saliency Detection Using Bi-directional LSTM

  • Chi, Yang;Li, Jinjiang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권6호
    • /
    • pp.2444-2463
    • /
    • 2020
  • Significant detection of video can more rationally allocate computing resources and reduce the amount of computation to improve accuracy. Deep learning can extract the edge features of the image, providing technical support for video saliency. This paper proposes a new detection method. We combine the Convolutional Neural Network (CNN) and the Deep Bidirectional LSTM Network (DB-LSTM) to learn the spatio-temporal features by exploring the object motion information and object motion information to generate video. A continuous frame of significant images. We also analyzed the sample database and found that human attention and significant conversion are time-dependent, so we also considered the significance detection of video cross-frame. Finally, experiments show that our method is superior to other advanced methods.

1-D PE 어레이로 컨볼루션 연산을 수행하는 저전력 DCNN 가속기 (Power-Efficient DCNN Accelerator Mapping Convolutional Operation with 1-D PE Array)

  • 이정혁;한상욱;최승원
    • 디지털산업정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.17-26
    • /
    • 2022
  • In this paper, we propose a novel method of performing convolutional operations on a 2-D Processing Element(PE) array. The conventional method [1] of mapping the convolutional operation using the 2-D PE array lacks flexibility and provides low utilization of PEs. However, by mapping a convolutional operation from a 2-D PE array to a 1-D PE array, the proposed method can increase the number and utilization of active PEs. Consequently, the throughput of the proposed Deep Convolutional Neural Network(DCNN) accelerator can be increased significantly. Furthermore, the power consumption for the transmission of weights between PEs can be saved. Based on the simulation results, the performance of the proposed method provides approximately 4.55%, 13.7%, and 2.27% throughput gains for each of the convolutional layers of AlexNet, VGG16, and ResNet50 using the DCNN accelerator with a (weights size) x (output data size) 2-D PE array compared to the conventional method. Additionally the proposed method provides approximately 63.21%, 52.46%, and 39.23% power savings.

자동 얼굴인식을 위한 얼굴 지역 영역 기반 다중 심층 합성곱 신경망 시스템 (Facial Local Region Based Deep Convolutional Neural Networks for Automated Face Recognition)

  • 김경태;최재영
    • 한국융합학회논문지
    • /
    • 제9권4호
    • /
    • pp.47-55
    • /
    • 2018
  • 본 논문에서는 얼굴인식 성능 향상을 위해 얼굴 지역 영역 영상들로 학습된 다중개의 심층 합성곱 신경망(Deep Convolutional Neural Network)으로부터 추출된 심층 지역 특징들(Deep local features)을 가중치를 부여하여 결합하는 방법을 제안한다. 제안 방법에서는 지역 영역 집합으로 학습된 다중개의 심층 합성곱 신경망으로부터 추출된 심층 지역 특징들과 해당 지역 영역의 중요도를 나타내는 가중치들을 결합한 특징표현인 '가중치 결합 심층 지역 특징'을 형성한다. 일반화 얼굴인식 성능을 극대화하기 위해, 검증 데이터 집합(validation set)을 사용하여 지역 영역에 해당하는 가중치들을 계산하고 가중치 집합(weight set)을 형성한다. 가중치 결합 심층 지역 특징은 조인트 베이시안(Joint Bayesian) 유사도 학습방법과 최근접 이웃 분류기(Nearest Neighbor classifier)에 적용되어 테스트 얼굴영상의 신원(identity)을 분류하는데 활용된다. 제안 방법은 얼굴영상의 자세, 표정, 조명 변화에 강인하고 기존 최신 방법들과 비교하여 얼굴인식 성능을 향상시킬 수 있음이 체계적인 실험을 통해 검증되었다.

깊은 Convolutional Neural Network를 이용한 얼굴표정 분류 기법 (Facial Expression Classification Using Deep Convolutional Neural Network)

  • 최인규;송혁;이상용;유지상
    • 방송공학회논문지
    • /
    • 제22권2호
    • /
    • pp.162-172
    • /
    • 2017
  • 본 논문에서는 딥러닝 기술 중의 하나인 CNN(Convolutional Neural Network)을 이용한 얼굴 표정 인식 기법을 제안한다. 기존의 얼굴 표정 데이터베이스의 단점을 보완하고자 질 좋은 다양한 데이터베이스를 이용한다. 제안한 기법에서는 '무표정', '행복', '슬픔', '화남', '놀람', 그리고 '역겨움' 등의 여섯 가지 얼굴 표정 data-set을 구축한다. 효율적인 학습 및 분류 성능을 향상시키기 위해서 전처리 및 데이터 증대 기법(data augmentation)도 적용한다. 기존의 CNN 구조에서 convolutional layer의 특징지도의 수와 fully-connected layer의 node의 수를 조정하면서 여섯 가지 얼굴 표정의 특징을 가장 잘 표현하는 최적의 CNN 구조를 찾는다. 실험 결과 제안하는 구조가 다른 모델에 비해 CNN 구조를 통과하는 시간이 가장 적게 걸리면서도 96.88%의 가장 높은 분류 성능을 보이는 것을 확인하였다.

Tensile Properties Estimation Method Using Convolutional LSTM Model

  • Choi, Hyeon-Joon;Kang, Dong-Joong
    • 한국컴퓨터정보학회논문지
    • /
    • 제23권11호
    • /
    • pp.43-49
    • /
    • 2018
  • In this paper, we propose a displacement measurement method based on deep learning using image data obtained from tensile tests of a material specimen. We focus on the fact that the sequential images during the tension are generated and the displacement of the specimen is represented in the image data. So, we designed sample generation model which makes sequential images of specimen. The behavior of generated images are similar to the real specimen images under tensile force. Using generated images, we trained and validated our model. In the deep neural network, sequential images are assigned to a multi-channel input to train the network. The multi-channel images are composed of sequential images obtained along the time domain. As a result, the neural network learns the temporal information as the images express the correlation with each other along the time domain. In order to verify the proposed method, we conducted experiments by comparing the deformation measuring performance of the neural network changing the displacement range of images.

잔향 환경 음성인식을 위한 다중 해상도 DenseNet 기반 음향 모델 (Multi-resolution DenseNet based acoustic models for reverberant speech recognition)

  • 박순찬;정용원;김형순
    • 말소리와 음성과학
    • /
    • 제10권1호
    • /
    • pp.33-38
    • /
    • 2018
  • Although deep neural network-based acoustic models have greatly improved the performance of automatic speech recognition (ASR), reverberation still degrades the performance of distant speech recognition in indoor environments. In this paper, we adopt the DenseNet, which has shown great performance results in image classification tasks, to improve the performance of reverberant speech recognition. The DenseNet enables the deep convolutional neural network (CNN) to be effectively trained by concatenating feature maps in each convolutional layer. In addition, we extend the concept of multi-resolution CNN to multi-resolution DenseNet for robust speech recognition in reverberant environments. We evaluate the performance of reverberant speech recognition on the single-channel ASR task in reverberant voice enhancement and recognition benchmark (REVERB) challenge 2014. According to the experimental results, the DenseNet-based acoustic models show better performance than do the conventional CNN-based ones, and the multi-resolution DenseNet provides additional performance improvement.

Human Gait Recognition Based on Spatio-Temporal Deep Convolutional Neural Network for Identification

  • Zhang, Ning;Park, Jin-ho;Lee, Eung-Joo
    • 한국멀티미디어학회논문지
    • /
    • 제23권8호
    • /
    • pp.927-939
    • /
    • 2020
  • Gait recognition can identify people's identity from a long distance, which is very important for improving the intelligence of the monitoring system. Among many human features, gait features have the advantages of being remotely available, robust, and secure. Traditional gait feature extraction, affected by the development of behavior recognition, can only rely on manual feature extraction, which cannot meet the needs of fine gait recognition. The emergence of deep convolutional neural networks has made researchers get rid of complex feature design engineering, and can automatically learn available features through data, which has been widely used. In this paper,conduct feature metric learning in the three-dimensional space by combining the three-dimensional convolution features of the gait sequence and the Siamese structure. This method can capture the information of spatial dimension and time dimension from the continuous periodic gait sequence, and further improve the accuracy and practicability of gait recognition.