• 제목/요약/키워드: encoder-decoder

검색결과 453건 처리시간 0.023초

블라인드 워터마킹을 내장한 실시간 비디오 코덱의 FPGA기반 단일 칩 구조 및 설계 (FPGA-based One-Chip Architecture and Design of Real-time Video CODEC with Embedded Blind Watermarking)

  • 서영호;김대경;유지상;김동욱
    • 한국통신학회논문지
    • /
    • 제29권8C호
    • /
    • pp.1113-1124
    • /
    • 2004
  • 본 논문에서는 입력 영상을 실시간으로 압축 및 복원할 수 있는 하드웨어(hardware, H/W)의 구조를 제안하고 처리되는 영상의 보안 및 보호를 위한 워터마킹 기법(watermarking)을 제안하여 H/W로 내장하고자 한다. 영상압축과 복원과정을 하나의 FPGA 칩 내에서 처리할 수 있도록 요구되는 모든 영상처리 요소를 고려하였고 VHDL(VHSIC Hardware Description Language)을 사용하여 각각을 효율적인 구조의 H/W로 사상하였다. 필터링과 양자화 과정을 거친 다음에 워터마킹을 수행하여 최소의 화질 감소를 가지고 양자화 과정에 의해 워터마크의 소실이 없으면서 실시간으로 동작이 가능하도록 하였다. 구현된 하드웨어는 크게 데이터 패스부(data path part)와 제어부(Main Controller, Memory Controller)로 구분되고 데이터 패스부는 영상처리 블록과 데이터처리 블록으로 나누어진다. H/W 구현을 위해 알고리즘의 기능적인 간략화를 고려하여 H/W의 구조에 반영하였다. 동작은 크게 영상의 압축과 복원과정으로 구분되고 영상의 압축 시 대기지연 시간 없이 워터마킹이 수행되며 전체 동작은 A/D 변환기에 동기하여 필드단위의 동작을 수행한다. 구현된 H/W는 APEX20KC EP20K600CB652-7 FPGA 칩에서 69%(16980개)의 LAB(Logic Array Block)와 9%(28352개)의 ESB(Embedded System Block)을 사용하였고 최대 약 82MHz의 클록주파수에서 안정적으로 동작할 수 있어 초당 67필드(33 프레임)의 영상에 대해 워터마킹과 압축을 실시간으로 수행할 수 있었다.

DMB 서비스를 위한 DCT 기반 MPEG-2/H.264 비디오 트랜스코더 시스템 구조 (DCT-domain MPEG-2/H.264 Video Transcoder System Architecture for DMB Services)

  • 이주경;권순영;박성호;김영주;정기동
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.637-646
    • /
    • 2005
  • DMB 서비스를 위해 제공되는 대부분의 비디오 컨텐츠는 MPEG-2 규격으로 압축된 채 제공되므로 실제 서비스를 위해서 H.264 규격으로 트랜스코딩을 수행해야 한다. 현재 사용되는 트랜스코딩 방식은 MPEG-2 비트열(bit-stream)의 디코딩과 H.264 규격으로의 인코딩 과정을 연속적으로 수행하는 픽셀 기반 직렬 구조형 (CPDT, Cascaded Pixel-Domain Transcoding Architecture)이다. 이 방식은 두 표준의 소스 코드를 수정 없이 사용할 수 있으므로 구현이 용이하지만 변환을 위한 처리 시간이 길고 디코딩과 인코딩을 반복하므로 화질의 열화가 발생 할 수 있다. 본 논문에서는 MPEG-2로 압축된 비디오 비트열을 H.264로 트랜스크딩 할 때 변환 시간을 향상할 수 있는 DCT 기반의 열린 회로형 트랜스코더 구조(DCT-OPEN)와 변환시간은 CPDT와 유사하지만 화질면에서 우수한 DCT 기반 닫힌 회로형 트랜스코더(DCT-CLOSED) 구조를 제안한다. 제안된 구조에서는 CPDT 방식과 달리 압축 과정의 중간 단계인 DCT(Discrete Cosine Transform)를 이용하여 변환을 수행한다. 이때, MPEG-2와 H.264의 DCT 단위와 방법이 상이하므로 [l, 2]에서 제안된 방식을 이용하여 DCT 간의 변환을 수행한다. 제안된 구조의 성능 평가를 위해 MPEG-2 TM5하 H.264 JM8 코덱을 수정하여 다양한 구조를 구현하였으며 실험 결과 DCT-OPEN의 경우 CPDT에 비하여 계산 복잡도에서 우수하지만 PSNR 성능은 낮게 나타났으며 DCT-CLOSED의 경우 계산 복잡도는 높으나 화질에서 우수한 것으로 나타났다.

Sequence-to-sequence 학습을 이용한 한국어 약어 생성 (Korean Abbreviation Generation using Sequence to Sequence Learning)

  • 최수정;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권3호
    • /
    • pp.183-187
    • /
    • 2017
  • 스마트폰 사용자들은 텍스트를 쉽게 읽고 빠르게 입력하기를 원한다. 이런 흐름에 따라 사용자들은 채팅 용어에서부터 전문 분야, 뉴스 기사에 이르기까지 여러 단어로 이루어진 어휘를 축약한 약어를 많이 사용한다. 그러므로 약어를 모아 데이터를 구축한다면 정보 검색과 추천 시스템 등에 유용하게 사용될 수 있다. 하지만 약어는 새로운 콘텐츠가 등장할 때마다 계속해서 생겨나기 때문에 수동으로 모으는 일은 쉽지 않으므로, 약어를 자동으로 생성하는 방법이 필요하다. 기존 연구들은 약어를 자동으로 생성하기 위해 규칙 기반 방법을 사용하였으나, 불규칙한 약어들은 생성할 수 없다는 한계점이 있다. 또한 규칙에 의해 생성된 후보 약어들 중에서 올바른 약어를 결정해야하는 문제도 발생한다. 따라서 본 논문에서는 이런 한계점을 극복하기 위해 시퀀스 투 시퀀스 학습 방법을 사용하여 약어를 자동으로 생성한다. 시퀀스투 시퀀스 학습 방법은 심층 신경망으로 기존의 규칙 기반 방법으로 생성할 수 없던 불규칙한 약어들을 생성할 수 있다. 게다가 후보 약어들 중 올바른 약어를 결정할 문제가 발생하지 않기 때문에 자동으로 약어를 생성하는 문제에 적합하다. 본 논문에서는 제안한 방법을 평가한 결과, 기존의 연구에서 생성할 수 없던 불규칙적인 약어를 생성하여 제안한 모델이 효과적임을 증명하였다.

ARM926EJ-S 프로세서 코어를 이용한 G.729.1의 실시간 구현 (Real-Time Implementation of the G.729.1 Using ARM926EJ-S Processor Core)

  • 소운섭;김대영
    • 한국통신학회논문지
    • /
    • 제33권8C호
    • /
    • pp.575-582
    • /
    • 2008
  • 본 논문에서는 ITU-T의 SG15에서 채택된 G.729.1 광대역 음성 코덱을 ARM926EJ-S(R) 프로세서 코어에 적용하기 위해 기본연산자 및 산술기능 함수를 포함한 G.729.1 코덱 프로그램 일부를 어셈블리어로 변환하여 실시간으로 동작하도록 구현한 절차 및 결과를 기술하였다. G.729.1은 $8{\sim}32kbps$의 가변 전송률을 갖는 ITU-T 표준 광대역 음성 코덱이며, 입력신호는 8kHz 또는 16 kHz로 샘플링 되어 샘플 당 16 비트로 양자화된 PCM 신호를 입력받는다. 이 코덱은 앞서 표준화된 G.729 및 0.729A와 상호 호환이 가능하며 음질 향상을 위해 기존의 협대역($300{\sim}3,400Hz$)에 비해 대역폭을 광대역($50{\sim}7,000Hz$)으로 확장한 버전이다. 실시간으로 구현된 G.729.1 광대역 음성 코덱은 32kbps에서 인코더와 디코더 부분이 각각 약 31.2 MCPS 및 22.8 MCPS의 복잡도를 가지며, 실제 임베디드 시스템에서의 실행 시간은 인코더와 디코더 평균 6.75ms와 4.76ms로 총 11.5ms가 걸렸다. 또한 이 코덱은 ITU-T에서 제공하는 모든 테스트 벡터에 대해 비트 단위로 정확하게 시험하여 통과하였으며, 실제 인터넷 전화기에 적용한 실시간 음성통화에서 정상적으로 동작하였다.

객체기반 3차원 오디오 방송 시스템 설계 (The Design of Object-based 3D Audio Broadcasting System)

  • 강경옥;장대영;서정일;정대권
    • 한국음향학회지
    • /
    • 제22권7호
    • /
    • pp.592-602
    • /
    • 2003
  • 본 논문은 오디오를 동반한 방송 서비스에 있어서 기존의 단순 청취형의 오디오 서비스에서 탈피한 대화형의 객체 기반 3차원 오디오 방송 시스템의 구조를 설명한다. 객체기반 3차원 오디오 방송 시스템은 3차원 오디오 입력부, 3차원 오디오 편집/제작부, 3차원 오디오 부호화부, 3차원 오디오 복호화부, 3차원 오디오 장면합성부 및 3차원 오디오 재생부로 구성된다. 오디오 입력부에서는 3차원 배경음 객체와 독립적인 오디오 객체들을 획득한다. 편집/제작부에서는 오디오 객체들에 대한 3차원 음상정위 및 오디오 이미지 생성을 위한 파라미터를 설정하고, 이들을 조합하여 3차원 오디오 장면을 편집/제작한다. 부호화부에서는 장면정보와 오디오 객체들을 부호화하고, 복호화부에서는 오디오 객체들을 복원하고 장면정보를 획득한다. 장면 합성부에서는 장면정보와 오디오 객체들을 이용하여 오디오 장면을 구성한다. 3차원 오디오 재생부에서는 3차원 오디오 객체들 재생하고, 사용자의 제어신호를 이용한 대화형 기능을 구현한다.

CTR 코드를 사용한 I/O 핀 수를 감소 시킬 수 있는 인터페이스 회로 (An I/O Interface Circuit Using CTR Code to Reduce Number of I/O Pins)

  • 김준배;권오경
    • 전자공학회논문지D
    • /
    • 제36D권1호
    • /
    • pp.47-56
    • /
    • 1999
  • 반도체 칩의 집적도가 급격히 향상됨에 따라 칩의 I/O 수가 증ㅇ가하여 패키지의 크기가 커질 뿐 아니라 칩 자체의 가격보다 패키지의 가격이 높아지고 있는 실정이다. 따라서 집적도의 증가에 의한 I/O 수으이 증가를 억제할 수있는 방법이 요구되고 있다. 본 논문에서는 CTR(Constant-Transition-Rate) 코드 심벌 펄스의 상승 예지와 하강 예지의 위치에 따라 각각 2비트 씩의 디지털 데이터를 엔코딩함으로써 I/O 핀 수를 50% 감소 시킬 수 있는 I/O 인터페이스 회로를 제안한다. 제안한 CTR 코드의 한 심벌은 4비트 데이터를 포함하고 있어 기존의 인터페이스 회로와 비교하여 심벌 속도가 절반으로 감소되고, 엔코딩 신호의 단위 시간당 천이 수가 일정하며, 천이 위치가 넓게 분산되어 동시 스위칭 잡음(Simultaneous Switehing Noise, SSN)이 작아진다. 채널 엔코더는 논리 회로만으로 구현하고, 채널 디코더는 오버샘플링(oversampling) 기법을 이용하여 신호를 복원하는 입출력 회로를 설계하였다. 설계한 회로는 0.6${\mu}m$ CMOS SPICE 파라미터를 이용하여 시뮬레이션함으로써 동작을 검증하였으며, 동작 속도는 200 Mbps/pin 이상이 됨을 확인 하였다. 제안한 방식을 Altera사의 FPGA를 이용하여 구성하였으며, 구성한 회로는 핀 당 22.5 Mbps로 데이터를 전송함을 실험적으로 검증하였다.

  • PDF

실시간 영상압축과 복원시스템을 위한 DWT기반의 영상처리 프로세서의 VLSI 설계 (VLSI Design of DWT-based Image Processor for Real-Time Image Compression and Reconstruction System)

  • 서영호;김동욱
    • 한국통신학회논문지
    • /
    • 제29권1C호
    • /
    • pp.102-110
    • /
    • 2004
  • 본 논문에서는 이차원 이산 웨이블릿 변환을 이용한 실시간 영상 압축 및 복원 프로세서의 구조를 제안하고 ASIC(Application specific integrated circuit) 라이브러리를 이용하여 최소의 하드웨어로 구현하였다. 구현된 하드웨어에서 데이터 패스부는 웨이블릿 변환과 역변환을 수행하는 DWT 커널(Kernel)부, 양자화기 및 역양자화기, 허프만 엔코더 및 디코더, 웨이블릿 역변환 시 계수의 덧셈을 수행하는 덧셈기 및 버퍼, 그리고 입출력을 위한 인터페이스와 버퍼로 구성하였다. 제어부는 프로그래밍 레지스터와 명령어를 디코딩하여 제어 신호를 생성하는 주 제어부, 그리고 상태를 외부로 알리는 상태 레지스터로 구성된다. 프로그래밍 조건에 따라서 영상을 압축할 때의 출력은 웨이블릿 계수, 양자화 계수 혹은 양자화 인덱스, 그리고 허프만 코드 중에서 선택하여 발생할 수 있고 영상을 복원할 때의 출력은 허프만 디코딩 결과, 복원된 양자화 계수 그리고 복원된 웨이블릿 계수 중에서 선택하여 발생할 수 있다. 프로그래밍 레지스터는 총 16개로 구성되어 있는데 각각이 한번의 수직 혹은 수평 방향의 웨이블릿 변환을 수행할 수 있고 각각의 레지스터들이 차례대로 동작하기 때문에 4 레벨의 웨이브릿 변환을 한번의 프로그래밍으로 수행가능하다. 구현된 하드웨어는 Hynix 0.35m CMOS 공정의 합성 라이브러리를 가지고 Synopsys 합성툴을 이용하여 게이트 레벨의 네트리스트(Netlist)를 추출하였고 이 네트리스트로부터 Vela 툴을 이용하여 타이밍정보를 추출하였다. 추출된 네트리스트와 타이밍정보(sdf 파일)를 입력으로 하여 NC-Verilog를 이용하여 타이밍 시뮬레이션을 수행하여 구현된 회로를 검증하였다. 또한 Apollo 툴을 이용하여 PNR(Place and route) 및 레이아웃을 수행하였다. 구현된 회로는 약 5만 게이트의 적은 하드웨어 자원을 가지고 최대 80MHz에서 동작 가능하였다.

변형된 3차 함수와 DCT-IF를 이용한 적응적 화면내 예측 방법 (Adaptive Intra Prediction Method using Modified Cubic-function and DCT-IF)

  • 이한식;이주옥;문주희
    • 방송공학회논문지
    • /
    • 제17권5호
    • /
    • pp.756-764
    • /
    • 2012
  • HEVC의 화면내 예측은 AIP와 화면내 평할화를 사용하여 예측 화소의 값을 결정하는데, 최종적으로 예측 화소값은 참조 화소들 사이에서 1차 방정식의 형태를 가지고 계산된다. 이는 참조 화소들의 값의 차이가 큰 경우 성능을 기대하기 어렵다. 본 논문에서는 현재 HEVC의 화면내 예측에서 사용되는 1차 함수 형태의 보간 방법 외에 DCT-IF 및 3차 함수를 사용하는 적응적 예측 방법을 제안한다. 2개 이상의 참조 화소들의 주파수 성분을 이용하는 DCT-IF를 사용하고, 또한 3차 함수의 형태를 이용하여 보간하므로 기존의 1차 함수를 이용하는 것보다 예측 화소값을 정확하게 결정한다. 3차함수는 1차함수보다 기울기가 더 크다. 따라서, 3차 함수는 예측 단위내의 에지에서 활용되어진다. HM6.0에서 부호화 시간은 3%, 복호화 시간은 1%의 증가를 보였고, 평균 BD-rate가 휘도 신호 Y에서 0.4%, 색차 신호 U, V에서 0.3%, 0.3% 감소되었다. 이를 통해 DCT-IF와 3차 함수, 그리고 기존의 방법을 적응적으로 사용할 경우 부호화 성능이 향상됨을 알 수 있다.

고효율 비디오 부호화를 위한 적응적 인-루프 필터 방법 (Adaptive In-loop Filter Method for High-efficiency Video Coding)

  • 정광수;남정학;임웅;조현호;심동규;최병두;조대성
    • 방송공학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-13
    • /
    • 2011
  • 본 논문에서는 고효율의 비디오 부호화를 위한 적응적인 인-루프 필터 방법을 제안한다. 최근 비디오 부호화 표준화 단체에서는 영상의 부호화 후 복원된 영상과 원본 영상과의 평균 제곱 오차(mean square error) 관점에서 오차를 최소화하는 Wiener 필터기반의 post-filter hint SEI 메시지 방법과 블록 기반의 필터 제어 방법 (block-based adaptive filter control, BAFC)에 대한 연구가 있었다. Post-filter hint SEI 메시지 방법은 후처리 필터로서 프레임간의 예측 오차를 줄이지 못하는 문제점이 있으며, BAFC 방법은 기존 H.264/AVC의 디블록킹 필터와 독립적으로 동작하기 때문에 인코더 및 디코더 영역에서 높은 연산 복잡도를 차지하는 문제점이 있다. 본 논문에서는 기존 H.264/AVC의 디블록킹 필터와 문맥 기반으로 설계한 인-루프 필터를 적응적으로 사용함으로써 복잡도를 낮추고 부호화 효율을 높이는 인-루프 필터 방법(Low-complexity adaptive in-loop filter, LCALF)을 제안한다. 실험결과에서 제안하는 방법은 기존 방법보다 평균적으로 약 1% 정도의 비트 감소를 보이고, 동시에 디코더 영역에서 약 22% 정도의 낮은 연산 복잡도를 보인다.

$OakDSPCore^{\circledR}$를 이용한 적응형 다중 비트 (AMR) 음성 부호화기의 실시간 구현 (Real-time Implementation of the AMR Speech Coder Using $OakDSPCore^{\circledR}$)

  • 이남일;손창용;이동원;강상원
    • 한국음향학회지
    • /
    • 제20권6호
    • /
    • pp.34-39
    • /
    • 2001
  • 적응형 다중 비트 (AMR: adaptive multi-rate)은 ETSI (European Telecommunications Standards Institute)에서 채택한 광대역 코드분할 다중화(W-CDMA: wideband cadedivision multiple access)용 음성 부호화표준방식으로서 채널 상태의 변화에 따라 가변적인 전송률을 가진다. 본 논문에서는 적응형 다중 비트 음성 부호화 알고리즘을 분석하고 C프로그램 최적화 과정을 거친 후OakDSPCore/sup R/를 기반으로 설계된 C&S Technology사의 CSD17C00A칩을 이용하여 전과정을 어셈블리어로 실시간 구현하였다. 구현된 코덱은 최대의 계산량을 요구하는6.7 kbps 모드일때 인코더부분이 최대 20.6MIPS이며 디코더부분은 약2.7MIPS의 복잡도를 나타낸다. 사용된 메모리는 약 21.33 kwords, 데이터 RAM메모리는 약 4.25 kwords를 가지며 데이터 ROM메모리는 약 15.1kwords 이다. 구현된 코덱은 최대 약 23.29MIPS의 복잡도를 가지고 있으므로 40MIPS의 성능을 가지는 CSD17C00A를 이용한 보드상에서 실시간 동작이 가능함을 확인하였다. 구현된 프로그램은 ETSI에서 제공하는 21개의 테스트 (test) 벡터를 통하여 bit-exact함을 확인하였다. 그리고 마이크와 스피커를 이용한 실시간 음성 입출력이 음질의 왜곡이나 지연없이 실시간으로 동작함을 확인하였다.

  • PDF