• Title/Summary/Keyword: 소리 생성

Search Result 88, Processing Time 0.029 seconds

Detection of Keysound for Indexing ana Retrieval of Multimedia information (멀티미디어 정보의 색인 및 검색을 위한 핵심 사운드 검출)

  • 이용주;배건성
    • Proceedings of the IEEK Conference
    • /
    • 2000.09a
    • /
    • pp.759-762
    • /
    • 2000
  • 멀티미디어 정보의 보다 효율적인 검색을 위해서는 비디오 요약정보의 생성 및 색인 작업이 필요하며, 이러한 요약정보를 만들기 위해서는 많은 시간과 비용이 소요된다. 스포츠 비디오 프로그램의 요약정보를 만들 때 오디오 신호를 이용하여 주요 장면을 검출할 경우 이러한 시간과 비용을 줄일 수 있다. 본 연구에서는 축구경기 비디오에서 주요장면을 나타내는 핵심 사운드로 주심의 호르라기 소리 및 아나운서의 "슛" 음성을 정의하고 이를 오디오 신호에서 검출하는 방법에 대해 연구하였다.

  • PDF

ETRI신기술-확장 합성단위 기반 한국어 음성합성기 기술

  • Electronics and Telecommunications Research Institute
    • Electronics and Telecommunications Trends
    • /
    • v.14 no.3 s.57
    • /
    • pp.127-128
    • /
    • 1999
  • 확장 합성단위 기반 한국어 음성합성장치는 통상의 문자로 쓰여진 텍스트를 인간이 소리내어 읽듯이 기계에 의해 자동적으로 음성을 합성하는 시스템이다. 이 시스템은 1995년부터 수행하고 있는 "다중 매체 환경 하에서의 대화체 음성번역 통신 기술개발" 사업의 연구 결과물 중 하나로 1997년도에 개발되어 학습형 자동합성단위 생성기 및 영역의존 음성합성기 기술을 전수할 예정이다.

  • PDF

Acoustics of Speech Production (발성의 음향학)

  • 안상철
    • Proceedings of the KSLP Conference
    • /
    • 1995.11a
    • /
    • pp.88-102
    • /
    • 1995
  • 이 글의 목적은 조음기관의 구조와 그 움직임에 의해 발생하는 음향학적 원리를 소개하는 데 있다. 이 글에서 논의되는 부분은 모음, 마찰음, 비음, 파찰음, 유음, 이중모음, 활음 등이 모두 포함되지만 상세한 논의는 주로 모음, 마찰음, 비음에 한정하여 진행된다. 왜냐하면 이들에 대한 논의가 다른 소리의 분석에 비슷하게 적용될 수 있기 때문이다. 예를 들어 활음(glide)은 모음의 생성에 관한 설명을, 파찰음의 경우는 마찰음의 것을 수정하여 적용할 수 있다. (중략)

  • PDF

Web-based Orally Narrated Fairy Tale System for Learning Korean Sign Language (수화 교육을 위한 웹 기반의 구연 동화 시스템)

  • Song, Haeng-Sook
    • Annual Conference of KIPS
    • /
    • 2004.05a
    • /
    • pp.833-836
    • /
    • 2004
  • 본 연구에서는 장애인은 물론 일반 어린이들이 쉽고 재미있게 수화 언어를 배울 수 있게 도와주는 구연 동화 시스템을 구현하고자 한다. 본 시스템은 흥미를 유발할 수 있도록 이미지나 배경 소리와 같은 멀티미디어 자료와 동영상을 포함한다. 아울러, 본 시스템은 인터넷 상에서 누구나 쉽게 접근하여 배울 수 있고 단어별 수화 학습이 가능하도록 HTML 문서 형식을 가지며, 여기에 XML를 도입하여 사용자의 편리성과 단어에 대한 수화DB가 없는 경우를 고려하여 자동 지화가 생성되도록 구현한다.

  • PDF

A Study on Timbre Analysis of Pyunjong (편종의 음색 분석 연구)

  • Cho, Hee-Young;Kim, Jun
    • Journal of Korea Multimedia Society
    • /
    • v.14 no.11
    • /
    • pp.1507-1515
    • /
    • 2011
  • As the first step in research for sound synthesis of Pyungjong, timbre was analyzed by FFT analysis. There was no significant difference in the pitch of scale between modern Pyungjong and western twelve-tone equal temperament scale. The timbre of Pyunjong chagnes over time. When striking Pyunjong, the noises to be generated across all frequencies will disappear in a short period of time, and a unique partial only is left. Then it disappear from the partial of high frequency components in order, and two partials remain at release time. At this time, the beating is occurring by the frequency of the remaining partial. Pyungjong used in this study is relatively a recently manufactured Pyungjong, and for original sound synthesis of Pyungjong, a study of ancient Pyungjong's timbre should be additionally conducted later.

Audio-Visual Scene Aware Dialogue System Utilizing Action From Vision and Language Features (이미지-텍스트 자질을 이용한 행동 포착 비디오 기반 대화시스템)

  • Jungwoo Lim;Yoonna Jang;Junyoung Son;Seungyoon Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.253-257
    • /
    • 2023
  • 최근 다양한 대화 시스템이 스마트폰 어시스턴트, 자동 차 내비게이션, 음성 제어 스피커, 인간 중심 로봇 등의 실세계 인간-기계 인터페이스에 적용되고 있다. 하지만 대부분의 대화 시스템은 텍스트 기반으로 작동해 다중 모달리티 입력을 처리할 수 없다. 이 문제를 해결하기 위해서는 비디오와 같은 다중 모달리티 장면 인식을 통합한 대화 시스템이 필요하다. 기존의 비디오 기반 대화 시스템은 주로 시각, 이미지, 오디오 등의 다양한 자질을 합성하거나 사전 학습을 통해 이미지와 텍스트를 잘 정렬하는 데에만 집중하여 중요한 행동 단서와 소리 단서를 놓치고 있다는 한계가 존재한다. 본 논문은 이미지-텍스트 정렬의 사전학습 임베딩과 행동 단서, 소리 단서를 활용해 비디오 기반 대화 시스템을 개선한다. 제안한 모델은 텍스트와 이미지, 그리고 오디오 임베딩을 인코딩하고, 이를 바탕으로 관련 프레임과 행동 단서를 추출하여 발화를 생성하는 과정을 거친다. AVSD 데이터셋에서의 실험 결과, 제안한 모델이 기존의 모델보다 높은 성능을 보였으며, 대표적인 이미지-텍스트 자질들을 비디오 기반 대화시스템에서 비교 분석하였다.

  • PDF

인터렉티브 하이브리드 미디어 응용기술 -MPEG-4 SNHC를 중심으로-

  • 김형곤
    • Broadcasting and Media Magazine
    • /
    • v.3 no.2
    • /
    • pp.44-58
    • /
    • 1998
  • 최근의 멀티미디어 기술은 정보의 디지털화와 온라인화에 따라 가전, 컴퓨터, 통신 및 방송 기술이 융화되어 가는 추세에 있으며, 대화형의 하이브리드 멀티미디어 기술을 그 특징으로 하고있다. 하이브리드 멀티미디어는 컴퓨터 그래픽 및 미디(MIDI) 기술로 인위적으로 생성한 2D/3D그래픽 및 음향을 실제의 자연적인 영상과 소리에 추가하여 합성하므로 생성된다. MPEG-4는 이렇게 인위적으로 합성되거나 자연적인 영상 혹은 음향 정보의 디지털 하이브리드 멀티미디어 부호화를 목적으로 하며, 활성화된 혼합 미디어의 내용기반 처리, 상호, 동작 및 사용자의 쉬운 접근 등을 가능하게 한다. SNHC(Synthetic-Natural Hybrid Coding)는 기존의 수동적인 미디어의 전달뿐 아니라 실시간 처리가 가능한 인터랙티브 응용 분야까지 다루고 있으며, 통합된 시공간 부호화 기법을 사용하여 시각, 청각, 2차원, 3차원 컴퓨터 그래픽스 등 다양한 형태의 표준 AV(Aural/Visual) 객체를 처리한다. 표준화는 주로mesh-segmented 비디오 부호화, 구조물 부호화, 객체간의 동기화, AV 객체 스트림의 멀티플렉싱, 혼합 미디어 형태의 시-공간 통합화 등에서 이루어지게 되는데, 이는 궁극적으로 네트워크로 연결되는 가상 환경(Virtual Environment)에서 다수의 사용자가 서로 상호작용 할 수 있는 틀을 제공하는데 있다. 이러한 틀이 제공되면, 대화형 하이브리드 멀티미디어라는 새로운 형태의 정보를 사용함으로써 기존의 미디어로는 경험하지 못하는 다양한 응용과 서비스를 경험할 수 있을 것이다.

  • PDF

A Teaching Program in Making Eastern and Western Musical Scales using Integer Ratio (정수비를 이용한 음 생성 관련 교수계획)

  • Lee, Gyou Bong
    • Communications of Mathematical Education
    • /
    • v.26 no.4
    • /
    • pp.339-349
    • /
    • 2012
  • Integer ratios 1:2:3:4 are very important in making eastern and western musical scales. Suggest an educational program of Mathematics in middle school which shows how to make an musical instrument and musical scales by Euclidean constructions. It explains for Mathematics how to make musical notes.

A Methodology of approach on Information from Social Network Service (Mass Collaboration 사례를 통한 SNS 정보 활용 접근 방법)

  • Lim, Soo-Min;Kim, Hyoung-Joong;Joo, Sang-Hyung
    • Annual Conference of KIPS
    • /
    • 2011.04a
    • /
    • pp.1579-1581
    • /
    • 2011
  • 페이스북(Facebook)과 트위터(Twitter)등으로 각광 받는 소셜 네트워크 서비스(Social Network Service)는 사용자의 온라인과 오프라인에 구축된 인맥 네트워크를 기반으로 한다. SNS내의 소셜커머스, 소셜어플리케이션 등의 다양한 기능이 추가 되면서 새로운 온라인 서비스 시장이 등장하게 되었다. 초기의 새로운 가상 인맥 늘리기 수단으로 사용되었던 SNS서비스는 스마트폰의 등장과 카메라, 마이크 등의 추가 디바이스와 서비스간의 연계가 가능해 지면서 이용자들의 새로운 정보 생성과 실시간 커뮤니케이션이 가능해 졌다. 또한 SNS를 통한 정보의 흐름은 텍스트 기반의 한방향 정보 전달 틀에서 소리와 이미지, 동영상등의 다양한 미디어가 취합되는 공간이 됨으로서 사용자와 다른 사용자간의 상호 작용이 가능한 쌍방향 소통으로 현실의 정보를 보다 정확하고 빠르게 전달할 수 있는 하나의 미디어 형태로 진화하는 중이다. 본 논문에서는 소셜 서비스에서 생성된 정보가 집단 협업(Mass Collaboration)을 이룰 때 갖는 신뢰성을 기대하여 키워드 중심의 정보 형성에 따른 SNS 활용 방법을 제시한다.

Development of Al Based Disaster Safety Pictogram Emergency Alert Generation Technology for Hearing Impaired (인공지능 기반 청각장애인 재난안전 픽토그램 긴급알림 생성 기술 개발)

  • Kim, Yong-Yook;Kim, Hyun-Chul;Jo, Beom-Jun
    • Proceedings of the Korean Society of Disaster Information Conference
    • /
    • 2022.10a
    • /
    • pp.357-358
    • /
    • 2022
  • 지진, 호우, 태풍, 화재 등 긴급한 재난 알림 전달이 필요한 상황에서 청각장애인은 소리를 통한 알림을 인지할 수 없으며 문자를 통한 알림의 인지율도 비장애인에 비하여 상대적으로 낮은 편으로서 일반적인 수단의 재난알림을 신속하게 인지하기 어려운 경우가 많다. 이와 같은 청각장애인의 재난안전 긴급알림 인지의 취약성 문제를 해결하고자 픽토그램을 통한 재난안전 긴급 알림 시스템이 개발되었다. 본 연구에서는 재난문자 통보문의 문구를 기반으로 인공지능을 통하여 청각장애인이 인지하기 보다 용이한 일련의 픽토그램으로 자동으로 변환하는 기술을 개발하고자 하였다. 이를 위해 재난안전 관련 긴급 통보문과 관련되는 픽토그램 기반의 콘텐츠를 수집하고 문자 기반의 그림 출력에 적합한 인공신경망 구조와 훈련방법을 구성하여 인공신경망 기반으로 재난문자에 대응되는 픽토그램 기반의 청각장애인 재난안전 긴급알림이 생성될 수 있도록 하였다.

  • PDF