• Title/Summary/Keyword: 객체 오디오

Search Result 94, Processing Time 0.021 seconds

Relation Extraction between Image Objects using Dual Supervision (Dual Supervision 을 이용한 이미지 객체 간 관계 추출)

  • Min-Kyu Kim;Min-Soo Jang;Hee-Gook Jun;Dong-Hyuk Im
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.1244-1246
    • /
    • 2023
  • 비디오, 오디오, 이미지, 텍스트 등의 비정형 데이터는 데이터 구조가 없어 데이터 자체만으로는 내용에 대한 질의 처리가 힘들어 정형 데이터로 변환하는 과정이 필요하다. 관계 추출 작업은 문장 내 단어 간 속성 또는 관계를 예측하여, 문장을 구조적으로 표현한다. 자연어처리 기법인 Dual Supervision 모델은 인간이 레이블한 데이터와 기계가 레이블한 데이터를 기반으로 기존 모델보다 적은 리소스로 관계를 예측한다. 해당 자연어 처리 모델을 이미지 처리에도 적용하여 기존 방법보다 적은 리소스를 이용하여 이미지에 대한 내용을 구조적으로 나타내는 모델을 제안하였으며, 실험을 통해 효율적인 이미지 객체 관계 추출이 가능함을 확인하였다.

A Study on Vocal Removal Scheme of SAOC Using Harmonic Information (하모닉 정보를 이용한 SAOC의 보컬 신호 제거 방법에 관한 연구)

  • Park, Ji-Hoon;Jang, Dae-Geun;Hahn, Min-Soo
    • Journal of Korea Multimedia Society
    • /
    • v.16 no.10
    • /
    • pp.1171-1179
    • /
    • 2013
  • Interactive audio service provide with audio generating and editing functionality according to user's preference. A spatial audio object coding (SAOC) scheme is audio coding technology that can support the interactive audio service with relatively low bit-rate. However, when the SAOC scheme remove the specific one object such as vocal object signal for Karaoke mode, the scheme support poor quality because the removed vocal object remain in the SAOC-decoded background music. Thus, we propose a new SAOC vocal harmonic extranction and elimination technique to improve the background music quality in the Karaoke service. Namely, utilizing the harmonic information of the vocal object, we removed the harmonics of the vocal object remaining in the background music. As harmonic parameters, we utilize the pitch, MVF(maximum voiced frequency), and harmonic amplitude. To evaluate the performance of the proposed scheme, we perform the objective and subjective evaluation. As our experimental results, we can confirm that the background music quality is improved by the proposed scheme comparing with the SAOC scheme.

MPEG-4 Based Multimedia Synchronization Model and Application (MPEG-4 기반의 멀티미디어 동기화 모델과 응용)

  • Sung, Seung-Kyu;Lee, Myeong-Won
    • The KIPS Transactions:PartD
    • /
    • v.11D no.5
    • /
    • pp.1159-1166
    • /
    • 2004
  • This paper describes a multimedia synchronization model based on the MPEG-4(Moving Picture Expert Group) system. It defines and modifies new nodes for representing temporal relationships between media objects in the BIFS(Binary Format for Scene) of MPEG-4 system which Integrates, manages and transfers multimedia objects such as audio, video, image, etc. The relationships are represented by using a multimedia temporal model during the start, play and delay time interval. In addition, we illustrate a multimedia authoring system that includes the Interface used for defining the temporal relationships. Differently from several contentional tools generally appropriate for professional users who can edit the BIFS nodes of themselves, the system provides end-users with the function that can define the temporal relationships of multimedia objects directly in the interface.

On the Principles and Applications of Wave Field Synthesis (WFS의 원리와 활용에 관하여)

  • Yoo, Jae-Hyoun;Shim, Hwan;Chung, Hyun-Joo;Sung, Koeng-Mo;Kang, Kyeong-Ok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.28 no.8
    • /
    • pp.688-696
    • /
    • 2009
  • There are many studies on Wave Field Synthesis(WFS) which provides better presence and spaciousness than conventional discrete multichannel audio reproduction methods. However, it has several problems such as the listener-enclosing loudspeaker array and pre-authorized object-based source signal, so it is not widely used except in large-scale listening rooms. This paper presents a method which utilizes the merit of WFS in small listening rooms such as a living room.

Dynamic Timed Multimedia Synchronization Model for Efficient Quality of Service (효율적인 서비스 품질을 위한 동적 시간형 멀티미디어 동기화 모델)

  • 이근왕;오해석
    • Journal of the Korean Institute of Telematics and Electronics C
    • /
    • v.36C no.10
    • /
    • pp.75-80
    • /
    • 1999
  • Multimedia synchronization model for distributed, continuous or discrete media that was guaranteed high quality of service is requited in developing multimedia application software. In this paper we have specific object controller which is called dynamic key media that is changed by user event generation. This becomes media whose event occurrence and periods can't be predicted. For event occurrence not only audio but also text and image can be chosen for key media and performs its role. Object controller transfers information for next transition. The proposed model offers high qualify of services by permitting maximum allowed jitter and skew in playout time and verified its effectiveness by simulation.

  • PDF

Design of a Carousel Manager for Data Broadcasting Services (양방향 데이터방송 서비스를 위한 캐러셀 관리자 설계)

  • Kang Min-Goo
    • The Journal of the Korea Contents Association
    • /
    • v.5 no.5
    • /
    • pp.78-84
    • /
    • 2005
  • Various kinds of data broadcasting services can be offered using a return-channel in digital broadcasting TV compared to analog services. In these data broadcasting environments, several data(associated with TV broadcasting programs, or not) are provided to the TV audiences except for audio/video broadcasting data. In this paper, a structure of data manager for data/object carousel, based on data broadcasting protocols, was proposed for data broadcasting services using a return-channel, and were supported to the production technologies of DTV contents. These contents application techniques for DTV will be implemented with this data manager in MPEG2-TS data broadcasts using PID(Packet ID).

  • PDF

Multi-View Point switch System Structure & Implementation of Video player in MPEG-4 based (MPEG-4 시스템 기반의 다시점 전환 시스템 구조 및 재생기 구현)

  • Lee, Jun-Cheol;Lee, Jung-Won;Chang, Yong-Seok;Kim, Sung-Ho
    • Journal of the Institute of Electronics Engineers of Korea CI
    • /
    • v.44 no.1
    • /
    • pp.80-93
    • /
    • 2007
  • This paper suggests structures of the Object Descriptor and the Elementary Stream Descriptor that provide multi-view video services in 3-Dimensional Audio Video technical standards of current MPEG-4. First, it defines that the structures of the Object Descriptor and the Elementary Stream Descriptor on established MPEG-4 system, then distributes individually, and analyzes that. But extension of established system is inappropriate for providing multi-view audio video services connected transmissions and receptions. And, this paper suggests a structure of new Object Descriptor able to switch viewpoints that considers the correlation between each viewpoints, when multi-view video is transmitted. By means of that, it is able to switch viewpoints according to a requirement of a user in a multi-view video services, and reduce overheads for transmitting information about necessary viewpoint.

Implementation of MPEG-U part2 Reference Software (MPEG-U part2 참조 소프트웨어 설계 및 구현)

  • Han, Gukhee;Baek, A-Ram;Choi, Haechul
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2012.07a
    • /
    • pp.202-205
    • /
    • 2012
  • 최근 멀티미디어 분야에서 다양한 입/출력 장치들이 개발됨에 따라 입/출력 장치와 사용자 사이의 향상된 상호작용(AUI : Advanced User Interaction)을 위한 방법들이 연구되고 있다. AUI에서 정의되는 데이터는 입/출력 장치와 다양한 객체(비디오, 오디오, 2D 그래픽 객체, 애니메이션 등)로 표현되는 Scene Description 사이에서 서로 정보를 주고받기 위한 매체이다. 따라서 다양한 입/출력 장치와 사용자 사이의 향상된 상호작용을 위해서는 AUI 데이터 형식이 공통적으로 정의되어야한다. 이를 위해 ISO/IEC JTC1/SC29/WG11 Moving Picture Experts Group(MPEG)에서는 XML(Extensible Markup Language) 문서로 AUI 데이터 포맷을 표준화하기 위한 MPEG-U 프로젝트를 진행 중이다. 본 논문에서는 MPEG-U의 표준을 소개하고, 이의 타당성을 검증하기 위해서 MPEG-U 참조 소프트웨어를 설계하였다. MPEG-U 참조 소프트웨어는 크게 UID(User Interaction Device)의 데이터를 처리하는 사용자 인터페이스 입/출력부와 XML 문서를 처리하는 MPEG-U XML 생성/해석부로 구성된다. 사용자 인터페이스 입력부에서는 사용자의 손동작을 인식하여 AUI 파라미터로 저장하고, 이 파라미터를 MPEG-U XML 생성부에서 MPEG-U 표준 XML 스키마 구조로 서술하여 표준화된 AUI 데이터 포맷을 생성한다. 다시 표준화된 XML 문서를 읽어 MPEG-U XML 해석부에서 파라미터를 얻고, 사용자 인터페이스 출력부에서 GUI(Graphic User Interface)에서 그래픽 객체로 표현한다. 본 연구에서는 MPEG-U 참조 소프트웨어로 MPEG-U의 용용 예를 제시하고, 구현된 소프트웨어가 표준에 적합한지를 보였다.

  • PDF

Design and implementation of MPEG-4 Authoring tool (MPEG-4 저작툴의 설계와 구현)

  • 조상범;이남열;정영승;진광범;초민서
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.04b
    • /
    • pp.595-597
    • /
    • 2002
  • MPEG그룹은 미디어 객체를 시간과 3차원 공간상에 배치하여, 멀티미디어 컨텐츠를 표현하고, 사용자의 상호작용을 가능하게 하는 MFEG-4 System물 표준화하였으며, 다양한 전송계층 (File, TCF/IP, Broadcasting등)을 통합하여 처리할 수 있는 MPEG-4 System의 Multimedia Interface Framework)[3] 전송규약을 표준화하였다. 이 논문에서는 MPEG-4 System을 이용하여 비디오, 오디오, 그랙픽과 같은 다양한 미디어들을 결합하해주고 사용자와의 상호작용에 의한 실시간 표현을 가능하게 해주며 사용자가 MPEG-4 Sytem에 대해서 잘 알고 있지 않더라도 손쉽게 MPEG-4미디어 파일을 만들 수 있도록 해주는 저작툴을 제안한다 [1,3,5]

  • PDF

A Proposal of Multimedia Retrieval System and XML Meta-data Modeling Techniques (XML 메타데이터 모델링기법과 멀티미디어 검색시스템의 제안)

  • 윤미희;조동욱
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2003.05a
    • /
    • pp.393-398
    • /
    • 2003
  • Video which contains the multiple data such as text, images, audio and motion of objects is typical multimedia data. Multimedia retrieval system using XML is essential for efficient rep. of multimedia data. Therefore, multimedia retrieval system for retrieval and structural understanding is needed to retrieve the multimedia data. This Paper Proposes the multimedia retrieval system based on XML Meta-data modeling techniques.

  • PDF