• 제목/요약/키워드: Network Feature Extraction

검색결과 499건 처리시간 0.024초

차영상과 DCT 기반 특징 추출과 신경망을 이용한 얼굴 인식에 관한 연구 (A Study on Face Recognition using Neural Networks and Characteristics Extraction based on Differential Image and DCT)

  • 임춘환;고낙용;박종안
    • 한국통신학회논문지
    • /
    • 제24권8B호
    • /
    • pp.1549-1557
    • /
    • 1999
  • 이 논문에서는 잡음에 대해 유연성이 있는 신경망과 차영상법-DCT를 이용한 얼굴인식 알고리즘을 제안한다. 동일환경(조도의 세기. 얼굴에서 카메라까지의 거리)에서 연속적으로 두 개의 영상을 캡쳐했다. 이 때 한 영상은 얼굴을 포함하지 않고 다른 영상은 얼굴을 포함하게 된다. 차영상 방법을 이용하여 두 개의 이미지로부터 얼굴영상과 배경영상을 분리하고 그 다음에 분리된 얼굴영역에서 사각영역을 추출하여 이 영역을 얼굴의 특징영역으로 이용하였다. 이 사각 영역은 눈, 코, 입, 눈썹 등이 포함된다. 다음으로 이 영역에 대해 DCT 연산을 수행한 후 특징 벡터를 추출하였고 추출된 특징벡터는 정규화 되어 신경망의 입력벡터로 사용되었다. 시뮬레이션 결과 학습된 얼굴영상에 대해서는 100% 인식률을 보였고 학습되지 않는 얼굴 영상에 대해서는 92.25%의 인식률을 보였다.

  • PDF

트위터 문서에서 시간 및 리트윗 분석을 통한 핵심 사건 추출 (Extracting Core Events Based on Timeline and Retweet Analysis in Twitter Corpus)

  • ;이경순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.69-74
    • /
    • 2012
  • 인터넷 사용자들은 어떠한 이슈에 대해 소셜 네트워크 서비스를 통해 빠르고 간결하게 다른 사람들과 지속적인 커뮤니케이션을 원한다. 사회적 이슈에 대해 어떠한 사건이 일어나게 되면 그날의 트윗 글과 리트윗 개수에 영향을 미치게 된다. 본 논문에서는 트위터 자료에서 사회적인 핵심 사건을 추출하기 위해 시간 분석과 감성 자질 및 리트윗 정보를 이용하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 비교실험으로 어휘 빈도수를 이용하여 핵심 사건을 추출하는 방법, 어휘 빈도수와 감성 자질을 함께 이용한 방법, 시간 분석을 반영하기 위해 카이제곱만을 이용한 방법과 제안 방법인 어휘 빈도수, 감성 자질, 리트윗 및 카이제곱을 함께 이용한 방법으로 성능을 비교하였다. 성능 평가를 위해서는 추출된 사건리스트에서 상위 10개 결과에서 정확도를 계산하였는데, 제안 방법이 94.9%의 성능을 보였다. 실험을 통해 제안한 방법이 핵심 사건 추출에 효과적인 방법임을 알 수 있다.

Corroded and loosened bolt detection of steel bolted joints based on improved you only look once network and line segment detector

  • Youhao Ni;Jianxiao Mao;Hao Wang;Yuguang Fu;Zhuo Xi
    • Smart Structures and Systems
    • /
    • 제32권1호
    • /
    • pp.23-35
    • /
    • 2023
  • Steel bolted joint is an important part of steel structure, and its damage directly affects the bearing capacity and durability of steel structure. Currently, the existing research mainly focuses on the identification of corroded bolts and corroded bolts respectively, and there are few studies on multiple states. A detection framework of corroded and loosened bolts is proposed in this study, and the innovations can be summarized as follows: (i) Vision Transformer (ViT) is introduced to replace the third and fourth C3 module of you-only-look-once version 5s (YOLOv5s) algorithm, which increases the attention weights of feature channels and the feature extraction capability. (ii) Three states of the steel bolts are considered, including corroded bolt, bolt missing and clean bolt. (iii) Line segment detector (LSD) is introduced for bolt rotation angle calculation, which realizes bolt looseness detection. The improved YOLOv5s model was validated on the dataset, and the mean average precision (mAP) was increased from 0.902 to 0.952. In terms of a lab-scale joint, the performance of the LSD algorithm and the Hough transform was compared from different perspective angles. The error value of bolt loosening angle of the LSD algorithm is controlled within 1.09%, less than 8.91% of the Hough transform. Furthermore, the proposed framework was applied to fullscale joints of a steel bridge in China. Synthetic images of loosened bolts were successfully identified and the multiple states were well detected. Therefore, the proposed framework can be alternative of monitoring steel bolted joints for management department.

RoutingConvNet: 양방향 MFCC 기반 경량 음성감정인식 모델 (RoutingConvNet: A Light-weight Speech Emotion Recognition Model Based on Bidirectional MFCC)

  • 임현택;김수형;이귀상;양형정
    • 스마트미디어저널
    • /
    • 제12권5호
    • /
    • pp.28-35
    • /
    • 2023
  • 본 연구에서는 음성감정인식의 적용 가능성과 실용성 향상을 위해 적은 수의 파라미터를 가지는 새로운 경량화 모델 RoutingConvNet(Routing Convolutional Neural Network)을 제안한다. 제안모델은 학습 가능한 매개변수를 줄이기 위해 양방향 MFCC(Mel-Frequency Cepstral Coefficient)를 채널 단위로 연결해 장기간의 감정 의존성을 학습하고 상황 특징을 추출한다. 저수준 특징 추출을 위해 경량심층 CNN을 구성하고, 음성신호에서의 채널 및 공간 신호에 대한 정보 확보를 위해 셀프어텐션(Self-attention)을 사용한다. 또한, 정확도 향상을 위해 동적 라우팅을 적용해 특징의 변형에 강인한 모델을 구성하였다. 제안모델은 음성감정 데이터셋(EMO-DB, RAVDESS, IEMOCAP)의 전반적인 실험에서 매개변수 감소와 정확도 향상을 보여주며 약 156,000개의 매개변수로 각각 87.86%, 83.44%, 66.06%의 정확도를 달성하였다. 본 연구에서는 경량화 대비 성능 평가를 위한 매개변수의 수, 정확도간 trade-off를 계산하는 지표를 제안하였다.

DTW 거리 기반 kNN을 활용한 시계열 데이터 정보 추출 및 회귀 예측 (Exploring Time Series Data Information Extraction and Regression using DTW based kNN)

  • 양현준;임채국;정우혁;우지환
    • 경영정보학연구
    • /
    • 제26권2호
    • /
    • pp.83-93
    • /
    • 2024
  • 본 연구는 도금욕 공정의 완성도 예측을 위한 시계열 데이터의 효과적인 표현을 목표로, Dynamic Time Warping(DTW) 및 k-Nearest Neighbors(kNN) 기반의 전처리 방법론을 제안한다. 제안된 DTW 기반 kNN 전처리 방법을 다양한 회귀 모델에 적용하여 비교한 결과, 기존 결정 나무(Decision tree) 대비 최대 RMSE에서 43%과 MAE에서 24% 개선된 성능 향상을 보였으며, 신경망 구조를 갖는 회귀 모델과 결합했을 때 성능 향상이 두드러졌다. 본 논문에서 제안하는 전처리 방법과 회귀 모델을 결합한 구조는 길이가 긴 시계열 데이터와 제한된 데이터 샘플이 있는 상황에서 적합할 것으로 사료되며, 데이터가 부족한 상황에서도 과적합의 위험을 감소시키며, 합리적인 예측을 가능하게 함을 시사한다. 그러나 DTW 및 kNN 알고리즘은 데이터 샘플이 많아질수록 연산량이 늘어난다는 한계가 존재하며, 향후 연구를 통해 이러한 계산 효율성의 문제를 개선할 수 있는 연구가 필요할 것으로 보인다.

파형 특징 추출과 신경망 학습 기반 모음 'ㅣ' 음성 인식 (Speech Recognition for the Korean Vowel 'ㅣ' based on Waveform-feature Extraction and Neural-network Learning)

  • 노원빈;이종우;이재원
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권2호
    • /
    • pp.69-76
    • /
    • 2016
  • 최근 모든 산업에서 사물인터넷에 대한 관심이 집중되면서 집, 회사, 차, 길거리 등 인간이 생활하는 모든 환경에 컴퓨팅 기술이 접목되고 있다. 이 같은 사물인터넷 환경에서 음성인식은 중요한 HCI 수단으로 자리 잡고 있다. 현존하는 서버 기반의 음성인식은 속도가 빠르고 꽤 높은 인식률을 보여주고는 있지만, 데이터베이스 내에 저장되어 있는 단어 단위로 인식하기 때문에 인터넷 연결과 복잡한 컴퓨팅이 필수적이다. 본 논문은 한국어 음소 모음 'ㅏ', 'ㅓ' 인식에 대한 휴리스틱 알고리즘에 이은 연구로 모음 'ㅣ'에 대한 음성 인식을 구현하고자 한다. 모음 'ㅣ' 음성의 여러 파형 패턴들을 관찰한 결과 모음 'ㅏ', 'ㅓ'와는 다른 특정한 파형의 패턴을 가지고 있음을 발견하였고, 그 패턴을 인식하는 알고리즘을 제시한다. 또한, 제시한 알고리즘에 신경망 학습을 적용하여 인식성공률을 높이는 실험 결과도 제시한다. 모음 'ㅣ'에 대한 본 알고리즘은 파형의 특징적인 부분 추출 기반으로 인식하며, 신경망 학습까지 적용한 후 실험한 결과 90% 이상의 정확도로 모음 'ㅣ'를 인식하는 것을 확인하였다.

Traffic Flow Prediction Model Based on Spatio-Temporal Dilated Graph Convolution

  • Sun, Xiufang;Li, Jianbo;Lv, Zhiqiang;Dong, Chuanhao
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권9호
    • /
    • pp.3598-3614
    • /
    • 2020
  • With the increase of motor vehicles and tourism demand, some traffic problems gradually appear, such as traffic congestion, safety accidents and insufficient allocation of traffic resources. Facing these challenges, a model of Spatio-Temporal Dilated Convolutional Network (STDGCN) is proposed for assistance of extracting highly nonlinear and complex characteristics to accurately predict the future traffic flow. In particular, we model the traffic as undirected graphs, on which graph convolutions are built to extract spatial feature informations. Furthermore, a dilated convolution is deployed into graph convolution for capturing multi-scale contextual messages. The proposed STDGCN integrates the dilated convolution into the graph convolution, which realizes the extraction of the spatial and temporal characteristics of traffic flow data, as well as features of road occupancy. To observe the performance of the proposed model, we compare with it with four rivals. We also employ four indicators for evaluation. The experimental results show STDGCN's effectiveness. The prediction accuracy is improved by 17% in comparison with the traditional prediction methods on various real-world traffic datasets.

Fall Detection Based on Human Skeleton Keypoints Using GRU

  • Kang, Yoon-Kyu;Kang, Hee-Yong;Weon, Dal-Soo
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권4호
    • /
    • pp.83-92
    • /
    • 2020
  • A recent study to determine the fall is focused on analyzing fall motions using a recurrent neural network (RNN), and uses a deep learning approach to get good results for detecting human poses in 2D from a mono color image. In this paper, we investigated the improved detection method to estimate the position of the head and shoulder key points and the acceleration of position change using the skeletal key points information extracted using PoseNet from the image obtained from the 2D RGB low-cost camera, and to increase the accuracy of the fall judgment. In particular, we propose a fall detection method based on the characteristics of post-fall posture in the fall motion analysis method and on the velocity of human body skeleton key points change as well as the ratio change of body bounding box's width and height. The public data set was used to extract human skeletal features and to train deep learning, GRU, and as a result of an experiment to find a feature extraction method that can achieve high classification accuracy, the proposed method showed a 99.8% success rate in detecting falls more effectively than the conventional primitive skeletal data use method.

DCT와 LVQ를 이용한 차량번호판 인식 시스템 (Vehicle License Plate Recognition System using DCT and LVQ)

  • 한수환
    • 지능정보연구
    • /
    • 제8권1호
    • /
    • pp.15-25
    • /
    • 2002
  • 본 논문에서는 차량 번호판에서 추출된 문자영역의 DCT(Digital Cosine Transform) 계수와 LVQ(Learning Vector quantization) 신경회로망을 이용하여 상대적으로 간결한 구조로 잡음의 영향을 적게 받는 차량 번호판 인식 시스템을 제안하였다. 입력된 차량영상의 RGB칼라정보를 이용하여 번호판 영역을 추출하고 추출된 번호판의 히스토그램과 문자의 상대적 위치정보를 병합하여 문자영역을 추출하였다. 이렇게 추출된 문자영역의 명암도 영상에 DCT를 적용하여 얻은 특징 벡터를 LVQ신경회로망의 입력으로 사용하여 인식 과정을 수행한다. 본 논문의 실험과정에서는 다양한 환경에서 촬영된 109대의 자가용 차량영상에 대하여 제안된 시스템을 실험하였으며 상대적으로 높은 번호판 영역 추출율과 인식률을 보였다.

  • PDF

Optimal Hyper Analytic Wavelet Transform for Glaucoma Detection in Fundal Retinal Images

  • Raja, C.;Gangatharan, N.
    • Journal of Electrical Engineering and Technology
    • /
    • 제10권4호
    • /
    • pp.1899-1909
    • /
    • 2015
  • Glaucoma is one of the most common causes of blindness which is caused by increase of fluid pressure in the eye which damages the optic nerve and eventually causing vision loss. An automated technique to diagnose glaucoma disease can reduce the physicians’ effort in screening of Glaucoma in a person through the fundal retinal images. In this paper, optimal hyper analytic wavelet transform for Glaucoma detection technique from fundal retinal images is proposed. The optimal coefficients for transformation process are found out using the hybrid GSO-Cuckoo search algorithm. This technique consists of pre-processing module, optimal transformation module, feature extraction module and classification module. The implementation is carried out with MATLAB and the evaluation metrics employed are accuracy, sensitivity and specificity. Comparative analysis is carried out by comparing the hybrid GSO with the conventional GSO. The results reported in our paper show that the proposed technique has performed well and has achieved good evaluation metric values. Two 10- fold cross validated test runs are performed, yielding an average fitness of 91.13% and 96.2% accuracy with CGD-BPN (Conjugate Gradient Descent- Back Propagation Network) and Support Vector Machines (SVM) respectively. The techniques also gives high sensitivity and specificity values. The attained high evaluation metric values show the efficiency of detecting Glaucoma by the proposed technique.