• 제목/요약/키워드: 스펙트로그램 분석

검색결과 66건 처리시간 0.027초

SOLA를 이용한 더빙 신호의 시간축 동기화 (Time-Synchronization Method for Dubbing Signal Using SOLA)

  • 이기승;지철근;차일환;윤대희
    • 방송공학회논문지
    • /
    • 제1권2호
    • /
    • pp.85-95
    • /
    • 1996
  • 본 논문에서는 음성 신호의 시간축 변화에 널리 사용되고 있는 SOLA(Synchronized Over-Lap and ADD)기법을 사용하여 더빙된 신호를 본래의 음성 신호와 시간적으로 일치시키는 기법을 제안하였다. 방송 녹음의 경우, 큰 레벨의 배경 잡음등으로 인하여 스튜디오에서의 재녹음이 필요한 경우가 발생하게 된다. 이러한 재녹음 신호는 원래의 녹음 시간과 비교하여 대략 200msec의 시간차이를 갖게 되며, 이러한 시간차이는 화면과 음성과의 합성시 입모양이 서로 불일치하는 현상을 야기시킨다. 본 논문에서는 이러한 문제점을 해결하기 먼저 에너지궤적을 통해 원녹음 신호와 더빙 신호간의 어절 시작점을 서로 일치시키고, 어절내의 음소 위치를 동기화시키기 위하여 LPC 켑스트럼 분석과 DTW(Dynamic Time Warping)을 적용하였다. 음소가 서로 일치하는 지점은 원래의 녹음 신호와 더빙된 신호간의 LPC켑스트럼 자승 오차가 취소로 되는 지점을 탐색함으로서 결정된다. 음성의 합성시에는 인접 프레임간의 위상 관계가 서로 일치하도록 SOLA 방법을 사용하였다. 컴퓨터를 이용하여 모의 실험을 수행한 결과, 제안된 알고리즘을 통해 시간축 보정된 음성 신호는 음성 파형, 스펙트로그램 및 청취상으로 원래의 녹음 신호와 시간적으로 서로 일치함을 확인할 수 있었다.

  • PDF

한국 학생들의 영어 겹자음 철자 인지와 발화 (Perception and Production of English Geminate Graphemes by Korean Students)

  • 초미희
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.1092-1096
    • /
    • 2009
  • 영어와 한국어의 차이점 중의 하나는 한국어에서는 똑같은 자음이 앞 음절의 종성과 뒤 음절의 초성으로 나와서 겹자음이 될 수 있으나 영어에서는 이것이 불가능하다는 것이다. 그러므로 영어를 배우는 한국 학생들은 영어에서 summer와 같이 겹자음 철자를 포함하는 단어들을 발음할 때 철자의 겹자음을 모두 발음하는 오류를 흔히 보인다. 따라서 본 예비 연구에서는 한국 학생들이 영어 겹자음 철자를 어떻게 발음할 뿐 만 아니라 인지하는지 살펴보기 위해서 영어 겹자음과 단자음의 유사 최소변별쌍으로 구성된 36개의 실제어를 20명의 대학생이 듣고 발음하는 인지와 발화 실험을 실행하였다. 실험 결과 한국 학생들은 단자음 철자를 인지하거나 발화할 때는 각각 78.6%와 76.1%의 비교적 높은 정확율을 보이는 반면에 겹자음 철자을 인지하거나 발화할 때는 각각 55.3%와 61.7%의 낮은 정확율을 보임으로써, 영어 겹자음 철자를 더 길게 인지하고 또한 더 길게 발음하는 오류를 보였다. 또한 한국학생들의 발화를 스펙트로그램을 통해서 분석함으로써 영어 단자음 철자보다는 겹자음 철자에서 더 많은 발화오류를 일으키는 것도 보여주었다.

  • PDF

예방진단기술을 이용한 지능형 GIS 감시시스템에 관한 연구 (A Study on a Intelligent GIS Monitoring System using the Preventive Diagnostic Technology)

  • 박기영;이종하;조숙진;최형기;정의붕
    • 전자공학회논문지
    • /
    • 제51권6호
    • /
    • pp.244-251
    • /
    • 2014
  • 본 논문에서, 가스절연개폐장치(GIS)의 정상상태와 비정상상태에 대해 예방진단기술을 이용하여 자세하게 서술하였다. 이 기술은 지능형 GIS 감시시스템에 의해 저장된 GIS의 데이터의 분석과 진단에 근거한다. GIS음의 파형은 방전과 자체내의 코로나 방전음에 의해 발생되는 것으로 잡음과 비슷하다. 그러므로, 본 논문에서, GIS음의 정상 상태와 비정상 상태로 분류하는데, 정상과 비정상 상태를 레벨교차율(LCR)과 스펙트로그램 에너지비율로 이용하여 구분하였다.

협대역 다중 주파수선의 자동 탐지 및 추출 기법 연구 (A Study on the Automatic Detection and Extraction of Narrowband Multiple Frequency Lines)

  • 이성은;황수복
    • 한국음향학회지
    • /
    • 제19권8호
    • /
    • pp.78-83
    • /
    • 2000
  • 수동 소나 시스템에서는 수중 소음원에 대한 신호처리 과정을 수행하여 토널 및 주파수선의 신호 성분으로부터 신호 세기 대역폭, 토널 개수, 토널간의 상호 관계둥의 다양한 특징인자를 분석, 비교하여 표적을 식별하게 되며, 표적 식별율을 향상시키기 위해서는 무엇보다도 주파수선의 신호 성분만을 정밀하게 탐지하고 추출하여야 한다. 그러나 수중신호의 스펙트로그램상에 형성되는 협대역 주파수선은 토널의 신호 세기와 바다 자체의 전달 특성 둥으로 인하여 미약하게 탐지되거나 불규칙하게 끊어져서 불연속적으로 나타날 뿐 아니라 임펄스성의 주변잡음 성분과 복합적으로 존재하므로 주파수선의 신호 성분만을 정밀하게 탐지하고 추출하기가 매우 어렵다. 본 논문에서는 신호 세기가 미약한 경우나 높은 주변잡음이 복합되어 있는 경우에도 정밀하게 주파수선의 신호 성분만을 탐지, 추출한 수 있는 협대역 다중 주파수선의 자동 탐지 및 추출을 위한 기법을 제안하였으며, 실제 수중표적 신호를 적용하여 제안된 알고리즘이 매우 유용함을 보인다.

  • PDF

보안 감시용 레이다 시스템을 위한 면적-효율적인 특징점 추출기 설계 (Design of Area-efficient Feature Extractor for Security Surveillance Radar Systems)

  • 최영웅;임재형;김건우;정윤호
    • 전기전자학회논문지
    • /
    • 제24권1호
    • /
    • pp.200-207
    • /
    • 2020
  • 본 논문에서는 보안 감시용 레이다 시스템을 위한 저복잡도 특징점 추출기를 제안하고, 이의 FPGA 기반 설계 결과를 제시하였다. 특징점 추출기의 메모리 요구량을 최소화하기 위해 레이다 스펙트로그램 전체에 대한 통계처리를 요구하는 프레임 단위의 특징점을 배제하고, 단위 도플러 프로파일에서 추출 가능한 특징점을 적용하였다. 제안된 특징점 추출기는 Verilog-HDL을 이용하여 RTL 설계 후, Xilinx Zynq-7000 FPGA를 활용하여 구현되었으며, 기존 연구대비 58.3%의 slice 및 98.3%의 메모리 요구량을 감소 가능함을 확인하였다. 또한, 제안된 특징점 추출기가 통합된 레이다 기반 보안 감시 시스템을 통해 차, 자전거, 보행자 및 전동 킥보드에 대한 분류 실험이 수행되었고, 성능 분석 결과 93.4%의 정확도 성능을 확인하였다.

소프트맥스를 이용한 딥러닝 음악장르 자동구분 투표 시스템 (Deep Learning Music genre automatic classification voting system using Softmax)

  • 배준;김장영
    • 한국정보통신학회논문지
    • /
    • 제23권1호
    • /
    • pp.27-32
    • /
    • 2019
  • 인간이 가진 뛰어난 능력 중의 하나인 곡 분류 과정을 딥러닝 알고리즘을 통해 구현하는 연구는 단일데이터를 이용한 유니모달 모델, 멀티모달 모델, 뮤직비디오를 이용한 멀티모달 방식 등이 있다. 이 연구에서는 곡의 스펙트로그램을 짧은 샘플들로 분할하여 각각을 CNN으로 분석한 뒤 그 결과를 투표하는 시스템을 제안하여 더 좋은 결과를 얻었다. 딥러닝 알고리즘 중 CNN이 RNN에 비해 음악 장르 구분에 있어 우수한 성능을 보였으며 CNN과 RNN을 같이 적용했을 때 성능이 좋아짐을 알 수 있었다. 음악샘플을 나누어 각각의 CNN 결과를 투표하는 시스템이 이전 모델에 비해 좋은 결과를 나타내었고 이 모델에 Softmax 레이어를 추가한 모델이 가장 좋은 성능을 보였다. 디지털 미디어의 폭발적인 성장과 수많은 스트리밍 서비스 속에서 음악장르의 자동분류에 대한 필요는 점점 증가하고 있는 추세이다. 향후 연구에서는 미분류 곡의 비율을 낮추고 최종적으로 미분류된 곡들의 장르구분에 대한 알고리즘을 개발할 필요가 있을 것이다.

딥러닝을 이용하여 진동 응답 기반 비선형 변환 접근법을 적용한 단일 랩 조인트의 접착 면적 탐지 시스템 (Adhesive Area Detection System of Single-Lap Joint Using Vibration-Response-Based Nonlinear Transformation Approach for Deep Learning)

  • 김민제;김동윤;윤길호
    • 한국전산구조공학회논문집
    • /
    • 제36권1호
    • /
    • pp.57-65
    • /
    • 2023
  • 본 연구는 딥러닝을 위한 비선형 변환 접근법을 사용하여 Single-lap joint의 접착 영역을 조사하기 위한 진동 응답 기반 탐지 시스템을 제시한다. 산업 혹은 공학 분야에서 분해가 쉽지 않은 구조 내에 보이지 않는 부분의 상태와 접착된 구조의 접착 부위 상태를 알기 어려운 문제가 있다. 이러한 문제를 해결하기 위해 본 연구는 비선형 변환을 이용하여 기준 시편의 진동 응답으로 다양한 시편의 접착 면적을 조사하는 탐지 방법을 제안한다. 이 연구에서는 CNN 기반 딥러닝으로 진동 특성을 파악하기 위해 비선형 변환을 적용한 주파수 응답 함수를 사용했고 분류를 위해 가상의 스펙트로그램을 사용했다. 또한, 제시된 방법을 검증하기 위해 알루미늄, 탄소섬유복합재 그리고 초고분자량 폴리에틸렌 시편에 대한 진동 실험, 분석적 해, 유한요소해석을 수행했다.

영상 콘텐츠의 오디오 분석을 통한 메타데이터 자동 생성 방법 (Method of Automatically Generating Metadata through Audio Analysis of Video Content)

  • 용성중;박효경;유연휘;문일영
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.557-561
    • /
    • 2021
  • 영상 콘텐츠를 사용자에게 추천하기 위해서는 메타데이터가 필수적인 요소로 자리 잡고 있다. 하지만 이러한 메타데이터는 영상 콘텐츠 제공자에 의해 수동적으로 생성되고 있다. 본 논문에서는 기존 수동으로 직접 메타데이터를 입력하는 방식에서 자동으로 메타데이터를 생성하는 방법을 연구하였다. 기존 연구에서 감정 태그를 추출하는 방법에 추가로 영화 오디오를 통한 장르와 제작국가에 대한 메타데이터 자동 생성 방법에 대해 연구를 진행하였다. 전이학습 모델인 ResNet34 인공 신경망 모델을 이용하여 오디오의 스펙트로그램으로부터 장르를 추출하고, 영화 속 화자의 음성을 음성인식을 통해 언어를 감지하였다. 이를 통해 메타데이터를 생성 인공지능을 통해 자동 생성 가능성을 확인할 수 있었다.

양측 인공와우이식 아동의 성대진동시작시간 특성 (Voice onset time in children with bilateral cochlear implants)

  • 전예솔;이영미
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.77-86
    • /
    • 2022
  • 본 연구는 조기 양측 인공와우이식 아동과 건청 아동 간 파열음의 조음위치와 발성유형에 대한 성대진동 시작시간(voice onset time, VOT)의 차이를 살펴봄으로써, 조기 양측 인공와우이식을 통한 청각적 보상과 피드백이 청각장애 아동의 말 운동통제 능력에 미치는 영향을 살펴보고자 하였다. 대상자는 만 5세부터 10세 사이의 양측 인공와우이식 아동 15명과 건청 아동 15명을 선정하였다. 검사 과제는 조음위치 및 발성 유형을 고려한 9개 파열음의 VCV음절을 사용하였다. VOT 측정을 위해 Praat 프로그램을 사용하였으며, 정확한 측정을 위해 녹음된 음성, 스펙트로그램, 포먼트 정보를 함께 사용하였다. 삼원혼합분산분석 결과, 집단에 대한 주 효과는 유의하지 않았다. 조음위치에 대한 주 효과는 유의하였으며, 연구개음의 VOT값이 양순음과 치조음보다 유의하게 길었다. 발성유형에 대한 주 효과도 유의하였으며, VOT값은 격음, 평음, 경음 순으로 유의하게 길었다. 이러한 결과는 조기 양측 인공와우이식을 통한 양이 청취가 고도 이상의 난청 아동의 말 운동 통제 능력에 긍정적인 영향을 준다는 것을 시사한다.

케이지 내 사육 공간의 차이에 따른 산란계의 음성 특성 (Characteristics of Vocalizations of Laying Hen Related with Space in Battery Cage)

  • 손승훈;신지혜;김민진;강정훈;임신재;백인기
    • Journal of Animal Science and Technology
    • /
    • 제51권5호
    • /
    • pp.421-426
    • /
    • 2009
  • 본 연구는 산란계의 사육공간의 크기별 발성음의 특성을 파악하기 위해 하이라인브라운(Hy-Line Brown) 80주령의 산란계를 대상으로 2008년 10월부터 2009년 2월까지의 기간 동안 발성음을 수집 및 녹음하였다. 산란계의 사육 케이지는 무항생제 축산물 사육밀도조건을 만족하는 0.0231 $m^3$ (0.3m ${\times}$ 0.14m ${\times}$ 0.55m)을 개체당 사육공간의 기준(control)으로 하고, 좁은 공간(small, 0.21m ${\times}$ 0.14m ${\times}$ 0.55m)과 넓은 공간(large, 0.3m ${\times}$ 0.3m ${\times}$ 0.55m) 등의 3가지 유형으로 구분하였다. 하루 3회, 각각 1시간씩 디지털 녹음기(PMD-650, Marantz)와 마이크(MKH 416P48, RF Condenser Mic.)를 이용하여 발성음을 녹음하여 분석을 실시하였다. 발성음의 스펙트로그램을 비교한 결과 케이지의 크기별로 차이가 있는 것으로 나타났으며, 스펙트럼을 비교한 결과 역시 차이가 있었다. 또한 발성음의 주파수, 강도 및 길이 역시 통계적으로 유의한 차이를 나타내었다. 본 연구를 통해 산란계의 사육공간과 발성음 사이에는 깊은 관련이 있었으며, 사육공간에 의한 스트레스의 정도를 파악하기 위해 발성음은 매우 유용할 것으로 판단된다.