• Title/Summary/Keyword: Mpeg-4

Search Result 1,150, Processing Time 0.024 seconds

Unified coding scheme of speech and music (음악 및 음성 신호의 융합 압축 기술)

  • O, Eun-Mi
    • Broadcasting and Media Magazine
    • /
    • v.16 no.4
    • /
    • pp.59-71
    • /
    • 2011
  • 오디오와 음성 압축 기술적 근간은 서로 다르지만, 최근의 모바일 멀티미디어 기기 시장의 컨버전스 현상에 따라 압축하고자 하는 신호가 혼용되고 있으며, 비슷한 목표 전송률과 음질로 수렴하고 있다. 현재는 동일 기기에서 서로 다른 압축 기술을 적용하고 있으나, 음성과 음악이 동시에 서비스 되는 멀티미디어 기기에서는 단일 압축 방식으로 처리하고자 하는 이슈가 부각되고 있다. 특히, 스마트 폰 및 음악 콘텐츠 포탈 서비스의 대중화를 고려할 때, 음성 및 음악 신호 모두를 효율적으로 압축하는 음악 및 음성 신호의 융합 압축 기술이 더욱 필요해 보인다. 본 고에서는 MPEG 오디오 그룹에서 가장 최근 진행한 Unified Speech and Audio Coding(USAC)의 탄생 배경 및 표준화 현황을 소개한다. USAC는 64kbps 이하에서 기술적으로 최고 성능을 지닌 AMR-WB+ 및 HE-AAC v2보다도 우월한 음질을 보이며, 높은 비트율에서도 동등한 음질을 보장한다. 이런 우수한 음질에 기여한 USAC의 스위칭 구조와 더불어 기술적으로 향상된 주요 모듈인 파라미터 기반 스테레오 및 고주파 압축, 그리고 엔트로피 코딩 방식에 대해서 살펴 본다. 향후, 다양한 오디오 신호를 효율적으로 압축하는 USAC는 디지털 라디오, 모바일 TV, 그리고 오디오 북과 같은 사용자 시나리오에서 사용될 확률이 높아 보인다. 또한, USAC는 배경 잡음이나 배경 음악이 있는 경우에도 성능이 우수하기 때문에 YouTube 및 podcast 등과 같이 사용자가 콘텐츠를 생성할 때도 유용하게 사용 될 수 있다.

Design of Service Signaling Structure based on MMT for Terrestrial UHD Broadcasting Systems (MMT 기반 지상파 UHD 방송을 위한 서비스 시그널링 구조 설계)

  • Seo, Min-jae;Yu, Kyung-A;Paik, Jong-Ho
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2014.06a
    • /
    • pp.126-128
    • /
    • 2014
  • 디지털 방송기술의 비약적인 발전으로 기존 HD(High Definition) 화질의 4~16배까지 지원 가능한 UHD(Ultra High Definition) 방송 서비스가 제공되는 새로운 시대를 맞이하게 되었다. UHD 방송은 초고선명 비디오와 22.2 채널 오디오 서비스가 가능한 차세대 실감방송 기술이다. 이러한 UHD 서비스를 제공하기 위해서는 고압축 영상 코덱 기술인 HEVC(High Efficiency Video Coding), OFDM(Othogonal Frequency Division Multiplexing) 기반 대용량 전송기술과 다양한 멀티미디어 부가서비스 가능한 전송 프로토콜이 필수적으로 요구된다. 최근 UHD 방송 전송 프로토콜로 표준화 추진 중인 MMT(MPEG Media Transport)는 이기종망에서 적용할 수 있으며, 양방향 전환이 가능하여 시청자의 요구사항을 실시간으로 반영할 수 있다는 장점을 지닌다. 한편, 지상파 UHD 방송 서비스를 빠르고 효과적으로 수신하기 위해 필요한 정보인 NIT(Network Information Table), RRT(Rating Region Table) 및 SDT(Service Description Table)가 MMT 시그널링 프로토콜에서는 포함되어 있지 않다. 따라서 본 논문에서는 지상파 UHD 방송 서비스의 효과적 수신이 가능한 MMT 기반 지상파 UHD 방송을 위해 NIT, RRT 및 SDT 정보가 포함된 서비스 시그널링 구조을 제안한다.

  • PDF

Development of EDUTAINMENT Application on DMB Data Service (DMB 데이터 서비스에서의 유아 대상 EDUTAINMENT 어플리케이션 개발)

  • Kong, Shin;Kim, Hyo-Yong;Park, Tae-Jin;Choy, Yoon-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.223-228
    • /
    • 2007
  • 근래 주목받는 키워드인 유비쿼터스(Ubiquitous), UCC(User Created Contents) 등은 기술적 발달과 함께한 사람들의 행동 양식 변화를 잘 반영하고 있다. 기술적인 측면에서 모바일 환경으로의 진화는 사람들에게 시공간적 제약을 없애주었으며, '호모 루덴스'로 표현된 유희적 인간의 개념은 현대인의 행동 양식을 잘 표현했다. 이중 지상파 이동 멀티미디어 방송(Digital Multimedia Broadcasting, DMB)은 방송에 있어서 시공간적 제약을 없앤 대표적인 사례이며, 'EDUTAINMENT(에듀테인먼트)'는 교육에 유희를 결합한 실례라고 하겠다. 특히 DMB는 정보와 유희의 욕구를 기본적으로 충족시킬 수 있는 방송이라는 매체를 이용한다는 점에서 에듀테인먼트의 기술적 기반이 될 수 있으며, 이를 통해 저 연령의 학습자에게 유희와 교육을 동시에 제공함으로써, 학습효과를 높일 수 있는 장점이 있다. 본 논문에서는 DMB 시스템을 위한 유아 대상의 에듀테인먼트 어플리케이션을 설계하고, 구현한다. 이 어플리케이션을 위해 스토리텔링, 음악과 악기 선택 시스템, 타임라인 및 자유표면 게임 시스템 등 DMB 시스템에 적절하며, 에듀테인먼트의 조건을 충족하는 몇 가지 방법론을 제안하여 방송을 통해 콘텐츠와 대상자가 서로 상호작용 할 수 있도록 한다. 이를 위해서는 기존 방송의 음성, 영상 서비스를 넘어 상호작용의 필수적인 요소라고 할 수 있는 데이터 서비스를 요구하며, 이는 MPEG-4 Part 11: BIFS(Binary Format for Scenes) 기술을 기반으로 그 구현에는 VRML에 기초한 BT(BIFS Text) 언어를 사용한다.

  • PDF

Control Method of BIFS Contents on Mobile Device with Restricted Input Key (제한적 키 입력을 갖는 휴대 단말에서의 BIFS 콘텐츠 제어방법)

  • Kim, Jong-Youn;Moon, Nam-Mee;Park, Joo-Kyung
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2009.11a
    • /
    • pp.313-316
    • /
    • 2009
  • 지상파 DMB에서는 양방�� 데이터 서비스를 위하여 MPEG-4 BIFS 규격을 사용하고 있다. BIFS는 콘텐츠의 장면을 구성하는 AV, 이미지, 그래픽, 텍스트 등의 다양한 멀티미디어 객체를 장면상에 표현하고, 사용자로부터 입력을 받아 표현된 객체를 조작하도록 하는 것이 가능하다. 그러나 BIFS가 다양한 형태의 입력장치를 갖는 멀티미디어 시스템에 부합되도록 설계되었지만, 오늘날과 같이 제한적 입력장치를 갖는 휴대 단말에 대한 고려가 결여되어 있다. 문제는 DMB 단말들이 제한적 입력을 가질 수밖에 없기 때문에 사용자가 양방향 데이터 콘텐츠를 조작하는 방법이 일관적이지 못하다는 것이다. 본 논문에서는 이러한 문제를 해결하기 위하여 콘텐츠 제공자와 사용자간의 통일되고 효율적인 콘텐츠 조작을 위해 현재의 BIFS 규격에 KeyNavigator 노드를 추가로 정의하였다. KeyNavigator 노드는 BIFS 콘텐츠에서 휴대 단말의 방향키를 이용하여 BIFS 객체간의 이동이나 BIFS 객체를 선택하는 방법을 제공한다. KeyNavigator노드를 사용함으로써 BIFS 콘텐츠 제공자가 의도하는 바에 따라 콘텐츠를 저작할 수 있고 휴대 단말 사용자에게도 통일되고 효율적인 BIFS 콘텐츠 제어 방법을 제시하는 우수한 효과가 있다.

  • PDF

Implementation of CAVLC Encoder for the Image Compression in H.264/AVC (H.264/AVC용 영상압축을 위한 CAVLC 인코더 구현)

  • Jung Duck Young;Choi Dug Young;Jo Chang-Seok;Sonh Seung Il
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.9 no.7
    • /
    • pp.1485-1490
    • /
    • 2005
  • Variable length code is an integral component of many international standards on image and video compression currently. Context-based Adaptive Variable Length Coding(CAVLC) is adopted by the emerging JVT(also called H.264, and AVC in MPEG-4). In this paper, we design an architecture for CAVLC encoder, including a coeff_token encoder, level encoder, total_zeros encoder and run_before encoder. The designed CAVLC encoder can encode one syntax element in one clock cycle. As a result of implementation by Vertex-1000e of Xilinx, its operation frequency is 68MHz. Therefore, it is very suitable for video applications that require high throughput.

Automatic 3D Facial Movement Detection from Mirror-reflected Multi-Image for Facial Expression Modeling (거울 투영 이미지를 이용한 3D 얼굴 표정 변화 자동 검출 및 모델링)

  • Kyung, Kyu-Min;Park, Mignon;Hyun, Chang-Ho
    • Proceedings of the KIEE Conference
    • /
    • 2005.05a
    • /
    • pp.113-115
    • /
    • 2005
  • This thesis presents a method for 3D modeling of facial expression from frontal and mirror-reflected multi-image. Since the proposed system uses only one camera, two mirrors, and simple mirror's property, it is robust, accurate and inexpensive. In addition, we can avoid the problem of synchronization between data among different cameras. Mirrors located near one's cheeks can reflect the side views of markers on one's face. To optimize our system, we must select feature points of face intimately associated with human's emotions. Therefore we refer to the FDP (Facial Definition Parameters) and FAP (Facial Animation Parameters) defined by MPEG-4 SNHC (Synlhetic/Natural Hybrid Coding). We put colorful dot markers on selected feature points of face to detect movement of facial deformation when subject makes variety expressions. Before computing the 3D coordinates of extracted facial feature points, we properly grouped these points according to relative part. This makes our matching process automatically. We experiment on about twenty koreans the subject of our experiment in their late twenties and early thirties. Finally, we verify the performance of the proposed method tv simulating an animation of 3D facial expression.

  • PDF

A Study Vector Image Transformation of Personal Feature And Image Interpolation (2차원 얼굴외곽 정보의 VECTOR IMAGE 변환과 효과적인 영상복원에 관한 연구)

  • Jo, Nam-Chul
    • Journal of the Korea society of information convergence
    • /
    • v.1 no.1
    • /
    • pp.17-24
    • /
    • 2008
  • Video camera play very important roles for preventing many kinds of crimes and resolving those crime affairs. But in the case of recording image of a specific person far from the CCTV, the original image needs to be enlarged and recovered in order to identify the person more obviously. Interpolation is usually used for the enlargement and recovery of the image in this case. However, it has a certain limitation. As the magnification of enlargement is getting bigger, the quality of the original image can be worse. This paper uses FOP(Facial Definition Parameter) proposed by the MPEG-4 SNHC FBA group and introduces a new algorithm that uses face outline information of the original image based on the FOP, which makes it possible to recover better than the known methods until now.

  • PDF

ROI-based Encoding using Face Detection and Tracking for mobile video telephony (얼굴 인식과 추적을 이용한 ROI 기반 영상 통화 코덱 설계 및 구현)

  • Lee, You-Sun;Kim, Chang-Hee;Na, Tae-Young;Lim, Jeong-Yeon;Joo, Young-Ho;Kim, Ki-Mun;Byun, Jae-Woan;Kim, Mun-Churl
    • Proceedings of the IEEK Conference
    • /
    • 2008.06a
    • /
    • pp.77-78
    • /
    • 2008
  • With advent of 3G mobile communication services, video telephony becomes one of the major services. However, due to a narrow channel bandwidth, the current video telephony services have not yet reached a satisfied level. In this paper, we propose an ROI (Region-Of-Interest) based improvement of visual quality for video telephony services with the H.264|MPEG-4 Part 10 (AVC: Advanced Video Coding) codec. To this end, we propose a face detection and tracking method to define ROI for the AVC codec based video telephony. Experiment results show that our proposed ROI based method allowed for improved visual quality in both objective and subjective perspectives.

  • PDF

Motion estimation method using multiple linear regression model (다중선형회귀모델을 이용한 움직임 추정방법)

  • 김학수;임원택;이재철;이규원;박규택
    • Journal of the Korean Institute of Telematics and Electronics S
    • /
    • v.34S no.10
    • /
    • pp.98-103
    • /
    • 1997
  • Given the small bit allocation for motion information in very low bit-rate coding, motion estimation using the block matching algorithm(BMA) fails to maintain an acceptable level of prediction errors. The reson is that the motion model, or spatial transformation, assumed in block matching cannot approximate the motion in the real world precisely with a small number of parameters. In order to overcome the drawback of the conventional block matching algorithm, several triangle-based methods which utilize triangular patches insead of blocks have been proposed. To estimate the motions of image sequences, these methods usually have been based on the combination of optical flow equation, affine transform, and iteration. But the compuataional cost of these methods is expensive. This paper presents a fast motion estimation algorithm using a multiple linear regression model to solve the defects of the BMA and the triange-based methods. After describing the basic 2-D triangle-based method, the details of the proposed multiple linear regression model are presented along with the motion estimation results from one standard video sequence, representative of MPEG-4 class A data. The simulationresuls show that in the proposed method, the average PSNR is improved about 1.24 dB in comparison with the BMA method, and the computational cost is reduced about 25% in comparison with the 2-D triangle-based method.

  • PDF

Fast Hybrid Transform: DCT-II/DFT/HWT

  • Xu, Dan-Ping;Shin, Dae-Chol;Duan, Wei;Lee, Moon-Ho
    • Journal of Broadcast Engineering
    • /
    • v.16 no.5
    • /
    • pp.782-792
    • /
    • 2011
  • In this paper, we address a new fast DCT-II/DFT/HWT hybrid transform architecture for digital video and fusion mobile handsets based on Jacket-like sparse matrix decomposition. This fast hybrid architecture is consist of source coding standard as MPEG-4, JPEG 2000 and digital filtering discrete Fourier transform, and has two operations: one is block-wise inverse Jacket matrix (BIJM) for DCT-II, and the other is element-wise inverse Jacket matrix (EIJM) for DFT/HWT. They have similar recursive computational fashion, which mean all of them can be decomposed to Kronecker products of an identity Hadamard matrix and a successively lower order sparse matrix. Based on this trait, we can develop a single chip of fast hybrid algorithm architecture for intelligent mobile handsets.