• 제목/요약/키워드: Frame Classification

검색결과 260건 처리시간 0.031초

한국어 연속음인식에 관한 연구(유성음 분류 및 단모음 인식 ) (On the Classification of Voice Sound and the Recognition of Vowels for Korean Continuous Speech)

  • 하판봉;이철희;방승찬;안수길
    • 한국음향학회지
    • /
    • 제5권3호
    • /
    • pp.28-35
    • /
    • 1986
  • 우리나라 음성의 유성음을 모음, 비음 및 유성화 자음으로 분류하는 알고리즘을 기술하였다. 먼 저 기존의 PITCH 검출 알고리즘에 의하여 음성을 유성음과 무성음으로 나눈 뒤, 단지 정규화된 1차 상 관계수, 영교차율, LOG 에너지 및 LPG 에너지의 골짜기 검출만을 이용하여, 유성음은 모음, 비음 및 유 성화자음으로 분류하고 무성음은 실제의 무성음과 묵음으로 분류하였다. 그리고 이렇게 분류된 모음에 대하여 단모음 인식을 행하였다. 단지 한 FRAME으로 모음을 대표하였기 때문에 메모리 크기와 인식 시간을 줄였다. 여기서 UP & DOWN 및 수정된 영교차율을 새로이 정의하여 적용한 결과 만족한 결과 를 얻을 수 있었다. LPC 매개변수 및 전력 스펙트럼도 단모음 인식의 FEATURE로 사용하였다. 그리고 각 FEATURE 의 성능을 비교하였다. 이들 FEATURE을 잘 조합하여 2단계 인식을 행한 결과 92%의 높은 인식율을 얻을 수 있었다.

  • PDF

온톨로지를 이용한 뉴스 비디오의 자동 분류 기법 (Full-automatic Classification Technique of News Video using Domain Ontologies)

  • 김하은;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.193-195
    • /
    • 2005
  • 본 논문은 온톨로지를 이용하여 뉴스 비디오를 분야별로 자동으로 분류하는 효율적인 기법을 제안한다. 이를 위해서 뉴스 비디오를 파싱하여 키프레임(Key frame), 샷(Shot), 씬(Scene)으로 나누고 키프레임과 샷에서 특징 정보를 추출한다. 추출된 특징 정보를 이용하여 샷의 키워드 집합을 만들고 이를 이용하여 씬의 키워드 집합을 만든다. 그리고 씬의 키워드 집합을 어휘 온톨로지와 뉴스 온톨로지에 매칭(추론)하여, 씬의 분야를 결정한다. 또한 이렇게 결정된 분야를 기반으로 서로 유사한 씬들을 자동으로 그룹화하는 방법을 제안한다.

  • PDF

초등학교 과학과 교수·학습 과정에 따른 발문 유형 분석 (Analysis of Questioning used in Elementary Science Classes based on Teaching and Learning Processes)

  • 이상균
    • 대한지구과학교육학회지
    • /
    • 제7권2호
    • /
    • pp.276-285
    • /
    • 2014
  • The purpose of this study is to investigate the pattern and characteristics of elementary school teaching and learning processes in science based classes. The study participants' class was recorded in video and instructional conversation transcription. The pattern of the observed class was analyzed using the classification frame suggested by Mogan &Saxton(2006). In result, the questioning for elicit information was most frequent and questioning for shape understanding and the questioning for press for reflection in its priority. In result, the presence of elicited questioning for the attainment of knowledge and understanding is more prominent in science-based classrooms. It was revealed that the participating teachers used the questioning sentence pattern more frequently and the self-sustained inquiry that accelerates creative thinking of the student was lacking. It was discovered that teaching elicited questioning, which accelerates creative thinking, as well as fact confirmation pattern is a necessary element of training for teachers.

MIMO Architecture for Optical Camera Communications

  • Le, Nam-Tuan;Jang, Yeong Min
    • 한국통신학회논문지
    • /
    • 제42권1호
    • /
    • pp.8-13
    • /
    • 2017
  • Compare with other communication system based RF technology, Optical Camera Communication (OCC) has limitation on data rate due to the low frame rate of camera. The limitation on data rate can be solved with multiple-input and multiple-output (MIMO) technology; and it is the final target of all researches on OCC. The MIMO topology can be implemented easily without breaking out the architecture of image sensor. For image sensor classification, there are two architectures have been developed: rolling shutter and global shutter. The operation of two techniques is different so the performance is also different. In this paper we analyze and evaluate the performance of the MIMO architecture for OCC.

GMM을 이용한 프레임 단위 분류에 의한 우리말 음성의 분할과 인식 (Korean Speech Segmentation and Recognition by Frame Classification via GMM)

  • 권호민;한학용;고시영;허강인
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2003년도 하계학술대회 논문집
    • /
    • pp.18-21
    • /
    • 2003
  • In general it has been considered to be the difficult problem that we divide continuous speech into short interval with having identical phoneme quality. In this paper we used Gaussian Mixture Model (GMM) related to probability density to divide speech into phonemes, an initial, medial, and final sound. From them we peformed continuous speech recognition. Decision boundary of phonemes is determined by algorithm with maximum frequency in a short interval. Recognition process is performed by Continuous Hidden Markov Model(CHMM), and we compared it with another phoneme divided by eye-measurement. For the experiments result we confirmed that the method we presented is relatively superior in auto-segmentation in korean speech.

  • PDF

K-겹 교차 검증과 서포트 벡터 머신을 이용한 고무 오링결함 검출 시스템 (Rubber O-ring defect detection system using K-fold cross validation and support vector machine)

  • 이용은;최낙준;변영후;김대원;김경천
    • 한국가시화정보학회지
    • /
    • 제19권1호
    • /
    • pp.68-73
    • /
    • 2021
  • In this study, the detection of rubber o-ring defects was carried out using k-fold cross validation and Support Vector Machine (SVM) algorithm. The data process was carried out in 3 steps. First, we proceeded with a frame alignment to eliminate unnecessary regions in the learning and secondly, we applied gray-scale changes for computational reduction. Finally, data processing was carried out using image augmentation to prevent data overfitting. After processing data, SVM algorithm was used to obtain normal and defect detection accuracy. In addition, we applied the SVM algorithm through the k-fold cross validation method to compare the classification accuracy. As a result, we obtain results that show better performance by applying the k-fold cross validation method.

ADD-Net: Attention Based 3D Dense Network for Action Recognition

  • Man, Qiaoyue;Cho, Young Im
    • 한국컴퓨터정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.21-28
    • /
    • 2019
  • Recent years with the development of artificial intelligence and the success of the deep model, they have been deployed in all fields of computer vision. Action recognition, as an important branch of human perception and computer vision system research, has attracted more and more attention. Action recognition is a challenging task due to the special complexity of human movement, the same movement may exist between multiple individuals. The human action exists as a continuous image frame in the video, so action recognition requires more computational power than processing static images. And the simple use of the CNN network cannot achieve the desired results. Recently, the attention model has achieved good results in computer vision and natural language processing. In particular, for video action classification, after adding the attention model, it is more effective to focus on motion features and improve performance. It intuitively explains which part the model attends to when making a particular decision, which is very helpful in real applications. In this paper, we proposed a 3D dense convolutional network based on attention mechanism(ADD-Net), recognition of human motion behavior in the video.

Angle-of-Arrival Estimation Algorithm Based on Combined Array Antenna

  • Kim, Tae-yun;Hwang, Suk-seung
    • Journal of Positioning, Navigation, and Timing
    • /
    • 제10권2호
    • /
    • pp.131-137
    • /
    • 2021
  • The Angle-of-Arrival (AOA) estimation in real time is one of core technologies for the real-time tracking system, such as a radar or a satellite. Although AOA estimation algorithms for various antenna types have been studied, most of them are for the single-shaped array antenna suitable to the specific frequency. In this paper, we propose the cascade AOA estimation algorithm for the combined array antenna with Uniform Rectangular Frame Array (URFA) and Uniform Circular Array (UCA), with the excellent performance for various frequencies. The proposed technique is consisted of Capon for roughly finding AOA groups with multiple signal AOAs and Beamspace Multiple Signal Classification (MUSIC) for estimating the detailed signal AOA in the AOA group, for the combined array antenna. In addition, we provide computer simulation results for verifying the estimation performance of the proposed algorithm.

주파수대역 정보를 이용한 가변률 IMBE-LP 음성부호화 알고리즘 (Variable Rate IMBE-LP Coding Algorithm Using Band Information)

  • 박만호;배건성
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.576-582
    • /
    • 2001
  • MBE(Multi-Band Excitation) 음성부호화 방식은 프레임 단위로 유/무성음을 구분하는 기존의 분석-합성 방식과는 달리 한 프레임 내에서의 주파수 영역을 여러 대역으로 나누고, 각 대역별로 유/무성음 구간을 판정하여 그에 맞는 여기신호를 이용하여 음성을 합성한다. 이러한 MBE 방식은 프레임 단위로 유/무성음을 구분하는 기존의 방식들이 갖는 합성음의 buzziness 영향이나 잡음이 섞인 음성을 분석할 때 생길 수 있는 유/무성음 판정 오류의 영향을 최소화함으로써 음질 향상을 이룰 수 있다. IMBE-LP 방식은 MBE 방식을 이용하여 2.4 kbps의 저전송률을 얻기 위한 음성부호화 알고리즘으로 MBE 모델에서 사용되는 각 대역별 스펙트럼 정보를 LP(Linear Prediction) 계수로 모델링 한다. 본 연구에서는 2.4 kbps IMBE-LP 알고리즘을 구현하고, 주파수대역 정보를 이용하여 분석프레임의 음성특성에 따라 LP차수를 달리 함으로써 전송률을 줄일 수 있는 방법을 제안하고 실험하였다.

  • PDF

시간-주파수 영역에서 음성/잡음 우세 결정에 의한 새로운 잡음처리 (A Novel Speech Enhancement Based on Speech/Noise-dominant Decision in Time-frequency Domain)

  • 윤석현;유창동
    • 한국음향학회지
    • /
    • 제20권3호
    • /
    • pp.48-55
    • /
    • 2001
  • 가산적이고 비정상적인 잡음을 줄이는 새로운 방법이 제안되었다. 본 방법은 잡음에 대한 정보나 묵음구간에서의 잡음추정을 필요로 하지 않는다. 잡음처리는 각 시간 프레임에서 주파수대역을 기본으로 하여 수행된다. 어떤 프레임에서 특정한 주파수대역이 음성이 우세한지 혹은 잡음이 우세한지에 대한 결정과 인간청각기의 매스킹 성질을 기반으로 하여, 적절한 양의 잡음을 주파수 차감법을 이용하여 제거한다. 제안된 방법은 다양한 환경에서 (자동차 잡음, Fl6 잡음, 백색 잡음, 핑크 잡음, 탱크 잡음, 혼선잡음) 성능평가가 이루어졌다. 그리고 일반적인 주파수차감법과 비교하여 세그멘탈 신호대 잡음비 (SNR)를 구하고, 시각적 측정 척도인 스펙트로그램과 듣기평가를 통해, 음성왜곡은 줄이면서 효과적으로 잡음을 줄일 수 있음을 알 수 있다.

  • PDF