• Title/Summary/Keyword: MPEG 4

Search Result 1,150, Processing Time 0.032 seconds

Application of Software Decoder Based on H.264/AVC in Mobile Device (모바일 단말에서 H.264/AVC기반 소프트웨어 디코더 적용방안)

  • Jung, Sa-Kyun;Chang, Ok-Bae;Yoo, Cheol-Jung;Kim, Eun-Mi
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • v.9 no.1
    • /
    • pp.800-803
    • /
    • 2005
  • 모바일 단말 기반 동영상 서비스 기술에 관한 연구는 최근에 이르기까지 활발히 수행되고 있으며, 인터넷 기반에서 상용화가 가능한 기술 분야를 모바일에 응용하는 시도가 계속되고 있다. 모바일 단말 기반 영상서비스와 관련하여 최신형 모바일 단말에서는 관련기술을 하드웨어적으로 구현하거나 독자적 동영상 압축기술을 적용한 소프트웨어적 구현을 통하여 동영상 서비스를 제공하고 있다. 그러나 상당한 비율을 점하고 있는 기존 모바일 단말에서는 이들 하드웨어 칩이 없거나 추가적으로 애드온(add-on) 할 수 있는 표준적인 방법이 정해지지 않아 최신의 동영상 서비스 기술을 제공받을 수 없다. 따라서 시시각각으로 변화하는 모바일 동영상 서비스 환경에 적극적으로 대처하기 위해서는 소프트웨어적 해결방안이 필수적이라는 인식이 대두되고 있다. 본 연구에서는 모바일 단말에서 소프트웨어 디코더를 이용하여 기존 단말에서 뿐만 아니라 향후 최신단말에서도 적극적으로 대처하기 위하여 H.264/AVC 기반 소프트웨어 디코더를 모바일 단말에 적용하는 방안에 대하여 제안한다.

  • PDF

Quality-Enhancement Technique on Video telephony over WCDMA Network (WCDMA망상에서 영상통화의 품질향상 기법)

  • Kim, Yo-Han;Kwak, Hyong-Won;Shin, Ji-Tae
    • Journal of Broadcast Engineering
    • /
    • v.13 no.1
    • /
    • pp.25-33
    • /
    • 2008
  • Video telephony is a representative service in 3G mobile network. And there have been efforts to improve quality of video telephony service in different fields. In Korea, the leading mobile service provider SKTelecom and KTF service the WCDMA network as 3G mobile network. Now, more than a million people is using the network. In this paper, we study about video telephony over WCDMA network. and propose error minimizing algorithm using cross-layer adaptation between physical layer and video codec. We simulated 3G-324M protocol with MPEG-4 video codec, and simulation results show suggested algorithm improve packet transmission rate for improving quality of video telephony service.

A Scalable Audio Coder for High-quality Speech and Audio Services

  • Lee, Gil-Ho;Lee, Young-Han;Kim, Hong-Kook;Kim, Do-Young;Lee, Mi-Suk
    • MALSORI
    • /
    • no.61
    • /
    • pp.75-86
    • /
    • 2007
  • In this paper, we propose a scalable audio coder, which has a variable bandwidth from the narrowband speech bandwidth to the audio bandwidth and also has a bit-rate from 8 to 320 kbits/s, in order to cope with the quality of service(QoS) according to the network load. First of all, the proposed scalable coder splits bandwidth of the input audio into narrowband up to around 4 kHz and above. Next, the narrowband signals are compressed by a speech coding method compatible to an existing standard speech coder such as G.729, and the other signals whose bandwidth is above the narrowband are compressed on the basis of a psychoacoustic model. It is shown from the objective quality tests using the signal-to-noise ratio(SNR) and the perceptual evaluation of audio quality(PEAQ) that the proposed scalable audio coder provides a comparable quality to the MPEG-1 Layer III (MP3) audio coder.

  • PDF

Development of Authoring Tool for Mobile DMB Contents and Templates with 3D Objects (3차원 객체를 사용하는 모바일 DMB 콘텐츠 및 템플릿의 제작을 지원하는 저작도구 개발)

  • Kong, Shin;Park, Tae-Jin;Lim, Soon-Bum;Choy, Yoon-Chul
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.10b
    • /
    • pp.178-183
    • /
    • 2007
  • 디지털 방송 기술의 비약적인 발전은 그 수요와 공급을 늘려가며 디지털 컨버전스 시대의 매력적인 산업으로 디지털 방송을 급부상시키고 있다. 이러한 발전 추세를 반영하듯 국내 아날로그 방송 서비스는 2012년을 기점으로 종료해야 하는 운명을 맞아 그 가속화는 더욱 빨라질 것으로 예상된다. 한편, 디지털 방송의 한 분야인 지상파 이동 멀티미디어 방송(Digital Multimedia Broadcasting, DMB) 역시 시류에 발맞추어 디지털 방송과 모바일 환경의 결합이라는 추가적인 이점을 안고, 몇 가지 서비스를 선보이고 있다. 하지만 이와 같은 이점에도 불구하고, DMB 서비스는 교육 혹은 광고 분야 등의 뚜렷한 수요의 증가를 가져오는 콘텐츠에 대한 제작과 배포가 쉽지 않고, 그 방법과 기준이 혼재하는 어려움으로 인하여 DMB가 지닌 무한한 가능성에 비해 크게 이슈화가 되지 못하고 있는 실정이다. 본 연구에서는 이러한 점에 착안하여, 지난 연구들에서 얻은 경험을 밑거름 삼아 기본적인 콘텐츠의 제작 및 배포는 물론 DMB 서비스에서 특화될 수 있는 콘텐츠를 더욱 쉴게 생성할 수 있으며, 기술적으로는 3차원 객체를 지원하는 부분을 보강하며, 편리한 인터페이스 등을 포함하는 저작 도구를 개발한다. 이를 위해 기존 연구들에서 다루어온 MPEG-4 Part 11 : BIFS(Binary Format for Scenes)를 기반으로 국내외에서 연구된 기존의 저작도구들을 비교하며, 새로운 아이디어들을 접목시켜 향후 DMB 서비스에서 효율적으로 쓰여 질 수 있는 저작도구를 개발한다.

  • PDF

Shape Description and Retrieval Using Included-Angular Ternary Pattern

  • Xu, Guoqing;Xiao, Ke;Li, Chen
    • Journal of Information Processing Systems
    • /
    • v.15 no.4
    • /
    • pp.737-747
    • /
    • 2019
  • Shape description is an important and fundamental issue in content-based image retrieval (CBIR), and a number of shape description methods have been reported in the literature. For shape description, both global information and local contour variations play important roles. In this paper a new included-angular ternary pattern (IATP) based shape descriptor is proposed for shape image retrieval. For each point on the shape contour, IATP is derived from its neighbor points, and IATP has good properties for shape description. IATP is intrinsically invariant to rotation, translation and scaling. To enhance the description capability, multiscale IATP histogram is presented to describe both local and global information of shape. Then multiscale IATP histogram is combined with included-angular histogram for efficient shape retrieval. In the matching stage, cosine distance is used to measure shape features' similarity. Image retrieval experiments are conducted on the standard MPEG-7 shape database and Swedish leaf database. And the shape image retrieval performance of the proposed method is compared with other shape descriptors using the standard evaluation method. The experimental results of shape retrieval indicate that the proposed method reaches higher precision at the same recall value compared with other description method.

An Efficient Feature Point Extraction and Comparison Method through Distorted Region Correction in 360-degree Realistic Contents

  • Park, Byeong-Chan;Kim, Jin-Sung;Won, Yu-Hyeon;Kim, Young-Mo;Kim, Seok-Yoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.24 no.1
    • /
    • pp.93-100
    • /
    • 2019
  • One of critical issues in dealing with 360-degree realistic contents is the performance degradation in searching and recognition process since they support up to 4K UHD quality and have all image angles including the front, back, left, right, top, and bottom parts of a screen. To solve this problem, in this paper, we propose an efficient search and comparison method for 360-degree realistic contents. The proposed method first corrects the distortion at the less distorted regions such as front, left and right parts of the image excluding severely distorted regions such as upper and lower parts, and then it extracts feature points at the corrected region and selects the representative images through sequence classification. When the query image is inputted, the search results are provided through feature points comparison. The experimental results of the proposed method shows that it can solve the problem of performance deterioration when 360-degree realistic contents are recognized comparing with traditional 2D contents.

An Efficient Feature Point Extraction Method for 360˚ Realistic Media Utilizing High Resolution Characteristics

  • Won, Yu-Hyeon;Kim, Jin-Sung;Park, Byuong-Chan;Kim, Young-Mo;Kim, Seok-Yoon
    • Journal of the Korea Society of Computer and Information
    • /
    • v.24 no.1
    • /
    • pp.85-92
    • /
    • 2019
  • In this paper, we propose a efficient feature point extraction method that can solve the problem of performance degradation by introducing a preprocessing process when extracting feature points by utilizing the characteristics of 360-degree realistic media. 360-degree realistic media is composed of images produced by two or more cameras and this image combining process is accomplished by extracting feature points at the edges of each image and combining them into one image if they cover the same area. In this production process, however, the stitching process where images are combined into one piece can lead to the distortion of non-seamlessness. Since the realistic media of 4K-class image has higher resolution than that of a general image, the feature point extraction and matching process takes much more time than general media cases.

A 3D Audio-Visual Animated Agent for Expressive Conversational Question Answering

  • Martin, J.C.;Jacquemin, C.;Pointal, L.;Katz, B.
    • 한국정보컨버전스학회:학술대회논문집
    • /
    • 2008.06a
    • /
    • pp.53-56
    • /
    • 2008
  • This paper reports on the ACQA(Animated agent for Conversational Question Answering) project conducted at LIMSI. The aim is to design an expressive animated conversational agent(ACA) for conducting research along two main lines: 1/ perceptual experiments(eg perception of expressivity and 3D movements in both audio and visual channels): 2/ design of human-computer interfaces requiring head models at different resolutions and the integration of the talking head in virtual scenes. The target application of this expressive ACA is a real-time question and answer speech based system developed at LIMSI(RITEL). The architecture of the system is based on distributed modules exchanging messages through a network protocol. The main components of the system are: RITEL a question and answer system searching raw text, which is able to produce a text(the answer) and attitudinal information; this attitudinal information is then processed for delivering expressive tags; the text is converted into phoneme, viseme, and prosodic descriptions. Audio speech is generated by the LIMSI selection-concatenation text-to-speech engine. Visual speech is using MPEG4 keypoint-based animation, and is rendered in real-time by Virtual Choreographer (VirChor), a GPU-based 3D engine. Finally, visual and audio speech is played in a 3D audio and visual scene. The project also puts a lot of effort for realistic visual and audio 3D rendering. A new model of phoneme-dependant human radiation patterns is included in the speech synthesis system, so that the ACA can move in the virtual scene with realistic 3D visual and audio rendering.

  • PDF

Fast Intermode Decision of Scalable Video Coding using Statistical Hypothesis Testing (스케일러블 비디오 부호화에서 통계적 가설 검증 기법을 이용한 프레임 간 모드 결정)

  • Lee, Bum-Shik;Kim, Mun-Churl;Hahm, Sang-Jin;Lee, Keun-Sik;Park, Keun-Soo
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2006.11a
    • /
    • pp.111-115
    • /
    • 2006
  • 스케일러블 비디오 코딩(SVC, Scalable Video Coding)은 MPEG(Moving Picture Expert Group)과 VCEG (Video Coding Expert Group)의 JVT(Joint VIdeo Team)에 의해 현재 표준화 되고 있는 새로운 압축 표준 기술이며 시간, 공간 및 화질의 스케일러빌리티를 지원하기 위해 계층 구조를 가지고 있다. 특히 시간적 스케일러빌리티를 위해 계층적 B-픽처 구조를 채택하고 있다. 스케일러블 비디오 코딩의 기본 계층은 H.264|AVC와 호환적이므로, 모션 예측과 모드 결정과정에서 $16{\times}16,\;16{\times}8,\;8{\times}16,\;8{\times}8,\;8{\times}4,\;4{\times}8$ 그리고 $4{\times}4$와 같은 7개의 서로 다른 크기를 갖는 블록을 사용한다. 스케일러블 비디오 코딩에서 사용되고있는 계층적 B-픽처 구조는 키 픽처인 I와 P 픽처를 제외하고는 한 GOP (Group of Picture)내에서 모두 B-픽처를 사용하므로 H.264|AVC와 비교했을 때 연산량 증가와 함께 부호화 지연도 급격히 증가한다. B-픽처는 양방향 모션 벡터인 LIST0와 LIST1을 사용하고 양방향 모두에서 다중 참조 픽처를 사용하기 때문이다. 본 논문에서는 통계적 가선 검증을 이용하여 스케일러블 비디오 부호화에 적용 가능한 고속 프레임간 모드 결정 알고리듬 대해 소개한다. 제안된 방법은 $16{\times}16$ 매크로 블록과 $8{\times}8$ 서브 매크로 블록에 통계적 가설 감증 기법을 적용하여 실행되며, 현재 블록과 복원된 참조 블록간의 픽셀 값을 비교하여 RD(Rate Distortion) 최적화 기반 모드 결정을 빨리 완료함으로써 고속 프레임간 모드 결정을 가능하게 한다. 제안된 방법은 프레임 간 모드 결정을 고속화함으로써 스케일러블 비디오 부호화기의 연산량과 복잡도를 최대 57%감소시킨다. 그러나 연산량 감소에 따른 비트율의 증가나 화질의 열화는 최대 1.74% 비트율 증가 및 0.08dB PSNR 감소로 무시할 정도로 작다.

  • PDF

Fast Intra Prediction using Pixel Variation in H.264 (H.264에서 화소 변화량을 이용한 빠른 인트라 예측)

  • Lee, Tak-Gi;Kim, Sung-Min;Sin, Kwang-Mu;Chung, Ki-Dong
    • Journal of Korea Multimedia Society
    • /
    • v.11 no.7
    • /
    • pp.956-965
    • /
    • 2008
  • H.264/AVC is the newest video coding standard of ITU-T VCEG and the ISO/IEC MPEG, offering a significant performance improvement over previous video coding standards. However, the computational complexity of H.264/AVC is drastically increased because of new technologies such as intra prediction, variable block size, quarter-pels motion estimation/compensation, etc. In this paper, we propose a fast intra prediction scheme which has two step processing. The first step is a fast block size decision which can be calculated only in one block without considering all cases of $4{\times}4$ block and $16{\times}16$ block. The complexity of the intra prediction can be reduced by using boundary difference values of macroblock. After selecting the block size, we can make mode decision using the neighbouring reference pixels and representative pixels of the block in the second step. The experimental results show that the proposed algorithm saved on the average 41.5% encoding time without any significant PSNR losses.

  • PDF