• 제목/요약/키워드: MPEG audio

검색결과 323건 처리시간 0.03초

MPEG-4 기반 연동형 방송에서 장면 키워드를 이용한 내용 기반 동기화 기법 (A Content-Based Synchronization Approach using Scene Keywords in Enhanced TV based on MPEG-4)

  • 임현정;임순범
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.737-741
    • /
    • 2010
  • 연동형 방송 서비스 구현 시 배경이 되는 오디오/비디오 스트림과 오버레이 되는 데이터 콘텐츠의 시간 동기화는 중요한 문제이다. 그러나 현재 MPEG-4 환경에서는 절대적인 시간 값을 바탕으로 각각의 데이터를 동기화하는 기초적인 방법을 이용하고 있다. 따라서 본 논문에서는 연동형 방송 콘텐츠 개발 시 효율적인 데이터 동기화를 위해 비디오 콘텐츠의 내용에 따라 데이터 콘텐츠의 내용이 변화하는 내용 기반 동기화 기법을 제안한다. 제안하는 내용 기반 동기화 기법은 장면 키워드를 바탕으로 BIFS 노드를 확장 정의하고 MPEG-7의 메타데이터를 이용하여 구현되었다.

MPEG-4 표준을 이용한 멀티미디어 스트리밍 시스템 구현 (Implementation of A Multimedia Streaming System using MPEG-4)

  • 임동근;이정우;김선태;마평수;호요성
    • 방송공학회논문지
    • /
    • 제6권3호
    • /
    • pp.215-224
    • /
    • 2001
  • 최근 멀티미디어 분야의 연구개발 동향은 주로 비디오와 오디오 신호의 개별적인 부호화에 치중하던 이전의 기술적 동향에서 벗어나, 비디오, 오디오, 텍스트 등과 같은 여러 종류의 신호에 대하여 시간상 동기일치를 고려하여 다중화하는 시스템 기술의 중요성이 더욱 증가하고 있다. MPEG-4 영상압축 표준은 영상의 내용에 대한 이해를 바탕으로 내용기반 부호화에 중점을 두고 있다. 이 내용기반 부호화에서는 각 미디어 데이터 자체를 개체 단위로 나누어 처리할 수 있기 때문에 사용자의 의도에 따라 다양한 형태의 조작과 디스플레이가 가능하며 그 응용 분야가 매우 넓다. 본 논문에서는 MPEG-4 표준의 시스템 규격과 파일 포맷에 따라 구현된 멀티미디어 서비스 시스템을 기술하였다. 구현된 기술은 멀티미디어 데이터의 스트리밍, DVD, 영상전자메일, 디지털 방송과 같은 다양한 멀티미디어 서비스에 응용될 수 있는 기반 기술로서 그 중요성을 가진다.

  • PDF

Digital Audio Adaptation in MPEG-21 Framework

  • Kim, Hyoung-Joong;Kim, Hae-Kwang;Kim, Rin-Chul;Nam, Je-Ho;Hong, Jin-Woo
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 II
    • /
    • pp.875-878
    • /
    • 2003
  • PDF

MPEG-U part 2 기반 향상된 사용자 상호작용 인터페이스 시스템 (MPEG-U part 2 based Advanced User Interaction Interface System)

  • 한국희;백아람;최해철
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.54-62
    • /
    • 2012
  • 향상된 사용자 상호작용 (AUI: Advanced User Interaction) 인터페이스(interface)의 목적은 다양한 입/출력 장치와 비디오, 오디오, 그래픽 등의 객체로 표현되는 장면 기술(scene description) 사이에서 정보의 상호연동을 향상시키는 것이다. 이를 위해서 국제 표준화 기구인 MPEG(moving picture experts group)에서는 MPEG-U part 2: AUI Interface 프로젝트를 통해서 AUI 인터페이스 데이터 포맷의 표준화를 진행 중이다. 본 논문에서는 MPEG-U part 2의 표준을 소개하고, 이 표준에 기반을 둔 AUI 인터페이스 시스템을 제안한다. 제안하는 AUI 인터페이스 시스템은 크게 UID(User Interaction Device)의 데이터를 처리하는 사용자 인터페이스 입/출력부와 XML 문서를 처리하는 MPEG-U XML 생성/해석부로 구성된다. 본 시스템은 MPEG-U 표준 기반 입/출력 장치와 사용자와의 상호작용을 향상시키기 위한 시스템의 프레임 워크로 활용될 수 있다. 실험에서는 제안하는 사용자 상호작용 인터페이스 시스템이 MPEG-U part2 표준에 적합한지를 보이며 이를 이용하여 MPEG-U part 2 표준의 타당성을 검증한다.

저비트율로 압축된 오디오의 음질 개선 방법 (Audio Quality Enhancement at a Low-bit Rate Perceptual Audio Coding)

  • 서정일;서진수;홍진우;강경옥
    • 한국음향학회지
    • /
    • 제21권6호
    • /
    • pp.566-575
    • /
    • 2002
  • 이동통신망과 같이 제한된 대역폭에서 실시간 멀티미디어 스트리밍 서비스를 제공하기 위해서는 보다 낮은 비트율로 비디오와 오디오 데이터를 압축하여야 한다. 또한 대부분의 대역이 비디오 데이터를 위해 할당되어 있으므로 제한된 대역폭만이 오디오에 할당되게 된다. 오디오 데이터를 낮은 비트율로 압축하기 위해서는 압축율이 높은 알고리즘을 사용하거나, 표본화 주파수 (sampling frequency)를 낮춤으로써 데이터 양을 줄여 낮은 비트율로 부호화하여야 한다. 본 논문에서는 이러한 문제점을 극복하기 위해서 낮은 표본화 주파수로 오디오 신호를 압축하고, 낮은 표본화주파수를 사용함으로서 발생하는 대역폭의 손실은 소량의 부가정보를 이용하여 복원해 줌으로써 음질을 향상시키는 알고리즘을 제안한다. 높은 주파수의 스펙트럼을 복원하기 위하여 부호화단에서 낮은 주파수 대역과 다운 샘플링 과정 중에 손실되는 높은 주파수 대역간의 에너지비를 바크밴드에 구한 후 이를 부호화하여 복호화 단으로 전달하고 이를 이용하여 높은 주파수 성분을 복원하는 방법을 제안하였다. 제안된 방법을 이용하면 10%∼20% 정도의 추가적인 비트를 사용하면서 기존의 방식보다 세그멘탈 신호대 잡음비는 1㏈∼3㏈의 성능 개선을 보였으며, 주관적인 MOS 듣기 평가를 수행한 결과 기존의 방식보다 음질이 향상됨을 확인하였다. 또한 본 논문에서 제안한 방법은 주파수 영역에서 압축을 수행하는 모든 오디오 부호화 방식에도 적용이 가능하다.

MDCT/IMDCT의 계산 복잡도를 개선하기 위한 효율적인 알고리즘 (An Efficient Algorithm for Improving Calculation Complexity of the MDCT/IMDCT)

  • 조양기;이원표;김희석
    • 대한전자공학회논문지SP
    • /
    • 제40권6호
    • /
    • pp.106-113
    • /
    • 2003
  • Modified Discrete Cosine Transform (MDCT)와 역변환인 IMDCT는 서브밴드 및 변환 코딩 기법에서 시간 영역 에일리어징 제거(Time Domain Aliasing Cancellation)를 기반으로 하는 분석/합성 필터 뱅크로서 채택되고 있으며, MPEG 오디오 표준의 레이어-Ⅲ에서 가장 많은 연산 량을 필요로 한다 본 논문에서는 MDCT/IMDCT를 효율적으로 계산할 수 있는 새로운 알고리즘을 제안하였다. 제안한 알고리즘은 DCT를 이용하여 MDCT/IMDCT를 계산하는 알고리즘에 기반을 두고 있기 때문에, MDCT/IMDCT 계산을 위해 두 개의 DCT-Ⅱ를 이용한다. 더불어, 제안한 알고리즘은 4로 나누어지는 길이의 입력을 갖는 MDCT/IMDCT의 계산에도 적용할 수 있다. 제안한 알고리즘은 계산 복잡도 면에서 기존의 알고리즘들과 비교하여 적은 계산 량을 필요로 하며, 구조적인 면에서 병렬적인 구조로 나타낼 수 있기 때문에, VLSI 구현에 매우 적합하다.

다중 스트림을 이용한 객체기반 MPEG-4 컨텐트의 적응 기법 (Adaptation for Object-based MPEG-4 Content with Multiple Streams)

  • 차경애
    • 한국산업정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.69-81
    • /
    • 2006
  • In this paper, an adaptive algorithm is proposed in streaming MPEG-4 contents with fluctuating resource amount such as throughput of network conditions. In the area of adaptive streaming issue, a lot of researches have been made on how to represent encoded media(such as video) bitstream in scalable way. By contrast, MPEG-4 supports object-based multimedia content which is composed of various types of media streams such as audio, video, image and other graphical elements. Thus, it can be more effective to provide individual media streams in scalable way for streaming object-based content to heterogeneous environment. The proposed method provides the multiple media streams corresponding to an object with different qualities and bit rate in order to support object based scalability to the MPEG-4 content. In addition, an optimal selection of the multiple streams for each object to meet a given constraint is proposed. The selection process is adopted a multiple choice knapsack problem with multi-step selection for the MPEG-4 objects with different scalability levels. The proposed algorithm enforces the optimal selection process to maintain the perceptual qualities of more important objects at the best effort. The experimental results show that the set of selected media stream for presenting objects meets a current transmission condition with more high perceptual quality.

  • PDF

웨이브릿과 마스킹 효과를 이용한 디지털 오디오 워터마킹 (A Digital Audio Watermark Using Wavelet Transform and Masking Effect)

  • Hwang, Won-Young;Kang, Hwan-Il;Han, Seung-Soo;Kim, Kab-Il;Kang, Hwan-Soo
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.243-246
    • /
    • 2003
  • In this paper, we propose a new digital audio watermarking technique with the wavelet transform. The watermark is embedded by eliminating unnecessary information of audio signal based on human auditory system (HAS). This algorithm is an audio watermarking method, which does not require any original audio information in watermark extraction process. In this paper, the masking effect is used for audio watermarking, that is, post-tempera] masking effect. We construct the window with the synchronization signal and we extract the best frame in the window by using the zero-crossing rate (ZCR) and the energy of the audio signal. The watermark may be extracted by using the correlation of the watermark signal and the portion of the frame. Experimental results show good robustness against MPEG1-layer3 compression and other common signal processing manipulations. All the attacks are made after the D/A/D conversion.

  • PDF

A 3D Audio-Visual Animated Agent for Expressive Conversational Question Answering

  • Martin, J.C.;Jacquemin, C.;Pointal, L.;Katz, B.
    • 한국정보컨버전스학회:학술대회논문집
    • /
    • 한국정보컨버전스학회 2008년도 International conference on information convergence
    • /
    • pp.53-56
    • /
    • 2008
  • This paper reports on the ACQA(Animated agent for Conversational Question Answering) project conducted at LIMSI. The aim is to design an expressive animated conversational agent(ACA) for conducting research along two main lines: 1/ perceptual experiments(eg perception of expressivity and 3D movements in both audio and visual channels): 2/ design of human-computer interfaces requiring head models at different resolutions and the integration of the talking head in virtual scenes. The target application of this expressive ACA is a real-time question and answer speech based system developed at LIMSI(RITEL). The architecture of the system is based on distributed modules exchanging messages through a network protocol. The main components of the system are: RITEL a question and answer system searching raw text, which is able to produce a text(the answer) and attitudinal information; this attitudinal information is then processed for delivering expressive tags; the text is converted into phoneme, viseme, and prosodic descriptions. Audio speech is generated by the LIMSI selection-concatenation text-to-speech engine. Visual speech is using MPEG4 keypoint-based animation, and is rendered in real-time by Virtual Choreographer (VirChor), a GPU-based 3D engine. Finally, visual and audio speech is played in a 3D audio and visual scene. The project also puts a lot of effort for realistic visual and audio 3D rendering. A new model of phoneme-dependant human radiation patterns is included in the speech synthesis system, so that the ACA can move in the virtual scene with realistic 3D visual and audio rendering.

  • PDF

멀티미디어 신호에서 오디오/비디오 신호의 동기화에 관한 연구 (A Study on the Synchronization of Audio and Video Signals)

  • 김시호;이승원;배건성
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2001년도 제14회 신호처리 합동 학술대회 논문집
    • /
    • pp.627-630
    • /
    • 2001
  • 본 연구에서는 MPEG 시스템의 동기화 방식에 대해 조사하고, 이를 바탕으로 특정 어플리케이션 개발에 적용 할 오디오/비디오 동기화 시스템을 구현하고자 한다. 먼저 비디오 신호와 오디오 신호를 각각 MPEG-1 시스템의 비디오 압축 방식과 G.722 팡대역 음성 부호화 방식을 이용하여 부호화하고, 부호화된 두 미디어간의 동기화를 위해 시간 정보를 삽입하여 최종적으로 하나의 비트스트림으로 다중화 하고, 다중화된 비트스트림으로부터 오디오/비디오 신호를 각각 분리하여 재생할 수 있음을 보였다.

  • PDF