• 제목/요약/키워드: second quantization

검색결과 76건 처리시간 0.023초

A Common Bitmap Block Truncation Coding for Color Images Based on Binary Ant Colony Optimization

  • Li, Zhihong;Jin, Qiang;Chang, Chin-Chen;Liu, Li;Wang, Anhong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권5호
    • /
    • pp.2326-2345
    • /
    • 2016
  • For the compression of color images, a common bitmap usually is generated to replace the three individual bitmaps that originate from block truncation coding (BTC) of the R, G and B channels. However, common bitmaps generated by some traditional schemes are not the best possible because they do not consider the minimized distortion of the entire color image. In this paper, we propose a near-optimized common bitmap scheme for BTC using Binary Ant Colony Optimization (BACO), producing a BACO-BTC scheme. First, the color image is compressed by the BTC algorithm to get three individual bitmaps, and three pairs of quantization values for the R, G, and B channels. Second, a near-optimized common bitmap is generated with minimized distortion of the entire color image based on the idea of BACO. Finally, the color image is reconstructed easily by the corresponding quantization values according to the common bitmap. The experimental results confirmed that reconstructed image of the proposed scheme has better visual quality and less computational complexity than the referenced schemes.

네트워크 환경에서 서버용 음성 인식을 위한 MFCC 기반 음성 부호화기 설계 (A MFCC-based CELP Speech Coder for Server-based Speech Recognition in Network Environments)

  • 이길호;윤재삼;오유리;김홍국
    • 대한음성학회지:말소리
    • /
    • 제54호
    • /
    • pp.27-43
    • /
    • 2005
  • Existing standard speech coders can provide speech communication of high quality while they degrade the performance of speech recognition systems that use the reconstructed speech by the coders. The main cause of the degradation is that the spectral envelope parameters in speech coding are optimized to speech quality rather than to the performance of speech recognition. For example, mel-frequency cepstral coefficient (MFCC) is generally known to provide better speech recognition performance than linear prediction coefficient (LPC) that is a typical parameter set in speech coding. In this paper, we propose a speech coder using MFCC instead of LPC to improve the performance of a server-based speech recognition system in network environments. However, the main drawback of using MFCC is to develop the efficient MFCC quantization with a low-bit rate. First, we explore the interframe correlation of MFCCs, which results in the predictive quantization of MFCC. Second, a safety-net scheme is proposed to make the MFCC-based speech coder robust to channel error. As a result, we propose a 8.7 kbps MFCC-based CELP coder. It is shown from a PESQ test that the proposed speech coder has a comparable speech quality to 8 kbps G.729 while it is shown that the performance of speech recognition using the proposed speech coder is better than that using G.729.

  • PDF

음성 질의 기반 디지털 사진 검색 기법 (A Query-by-Speech Scheme for Photo Albuming)

  • 김태성;서영주;이용주;김회린
    • 대한음성학회지:말소리
    • /
    • 제57호
    • /
    • pp.99-112
    • /
    • 2006
  • In this paper, we introduce two retrieval methods for photos with speech documents. We compare the pattern of speech query with those of speech documents recorded in digital cameras, and measure the similarities, and retrieve photos corresponding to the speech documents which have high similarity scores. As the first approach, a phoneme recognition scheme is used as the pre-processor for the pattern matching, and in the second one, the vector quantization (VQ) and the dynamic time warping (DTW) are applied to match the speech query with the documents in signal domain itself. Experimental results show that the performance of the first approach is highly dependent on that of phoneme recognition while the processing time is short. The second method provides a great improvement of performance. While the processing time is longer than that of the first method due to DTW, but we can reduce it by taking approximated methods.

  • PDF

고품질 스테레오 음악을 위한 오디오 워터마크 정보 삽입/추출 기술 (An Embedding /Extracting Method of Audio Watermark Information for High Quality Stereo Music)

  • 배경율
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.21-35
    • /
    • 2018
  • 본 논문에서는 스테레오 음악에 오디오 워터마크를 삽입하기 위한 알고리즘을 제안하였다. 스테레오 음악은 2개의 채널을 갖고 있기 때문에 기존 워터마킹 기술은 일반적으로 각 채널을 독립적으로 생각하고 처리하는 경우가 많다. 그러나 스테레오를 모노로 변환하는 과정에서 워터마크의 손실이 발생하는 경우가 많이 발생할 수 있다. 제안한 알고리즘은 스테레오를 모노로 변환하더라도 워터마크의 손실이 발생하지 않도록 워터마크를 삽입할 때 스테레오와 모노변환의 특성을 이용하였다. 제안된 알고리즘에 사용된 오디오 워터마크는 "Copyright"와 "Copy_free"라는 두 가지 정보를 터보코드를 이용하여 생성하였다. 두 워터마크는 9바이트(72비트)로 이루어져 있으며, 오류정정을 위하여 터보코드를 적용하면 222비트로 삽입해야 하는 정보량이 늘어난다. 222비트의 워터마크는 추가적인 오류에 강인하도록 1024비트로 확장하여 최종적으로 스테레오 음악에 삽입할 워터마크로 사용하였다. 평균적으로 SNR은 40dB를 넘어서서 전통적인 양자화 방식보다 10dB 이상의 음질 개선을 가져왔다. 이는 상대적으로 10배의 음질 개선도를 의미하는 것으로 매우 유의미한 결과이다. 또한 워터마크의 추출에 필요한 샘플길이는 1초 이내의 길이면 충분히 추출이 가능하고, 128Kbps의 비트레이트를 갖는 MP3 압축에 대해서도 모두 1초 이내 길이의 음악 샘플로부터 워터마크의 완전한 추출이 가능하였다. 전통적인 양자화 방식이 10초 길이의 샘플을 이용해도 대부분 워터마크의 추출에 실패한 것에 비하면 1/10에 불과한 길이로 워터마크의 추출이 가능하다.

GLVQ클러스터링을 위한 필기체 숫자의 효율적인 특징 추출 방법 (The Efficient Feature Extraction of Handwritten Numerals in GLVQ Clustering Network)

  • 전종원;민준영
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.995-1001
    • /
    • 1995
  • 패턴인식은 전처리, 특징추출, 식별의 과정을 거쳐 인식을 하게된다. 식별과정 에서 여러개의 패턴이 흩어져 있을 경우에 유사한 패턴끼리 클러스터링을 위하여 한 카테고리 내에서 패턴을 분할하게 된다. 클러스터링 방법에는 통계적인 방법으로 k-means 방법, ISODATA알고리즘등이 있으며〔1〕, 최근에는 신경망에 의한 클러스터링 방법으로 T, Kohonen의 LVQ(Learning Vector Quantization)가 주로 이용되었다〔6〕. Nikhil R, Pal. et al은 LVQ알고리즘을 보다 개선한 방법으로 GLVQ(Generalized LVQ, 1993)를 제안하였다〔4〕.본 논문은 GLVQ 알고니즘으로 패턴을 클러스터링 할 경우에 효율적인 특징추출 방법을 제안한다. 본 논문에서는 20명의 필기체 숫자 0에서 9까지 의 200개 패턴을 여러 가지 방법으로 특징 추출하여 GLVQ알고리즘으로 10개(0-9의 패턴) 의 클러스터로 구분하고, 해당 클러스터에서 오분류되는 패턴의 비율로서 그 효율성을 비교 하였다. 그 결과 투영조합 방법을 이용하였을 경우 98.5%의 분류율을 나타내었다.

  • PDF

적응성 양자화 레벨을 가지는 광대역 다중-비트 연속시간 $\Sigma\Delta$ 모듈레이터 (Wideband Multi-bit Continuous-Time $\Sigma\Delta$ Modulator with Adaptive Quantization Level)

  • 이희범;신우열;이현중;김수환
    • 대한전자공학회논문지SD
    • /
    • 제44권11호
    • /
    • pp.1-8
    • /
    • 2007
  • 본 논문에서는, 무선 통신 응용을 위한 광대역 연속시간 시그마-델타 모듈레이터를 130nm CMOS공정으로 구현하였다. 제안된 양자화 레벨을 효율적으로 조절할 수 있는 적응성 양자화기를 사용하여, 작은 크기의 입력에 대해서 SNR의 이득을 볼 수 있었다. 모듈레이터는 전력 소모를 줄이기 위해 2차 루프 필터로 구성되어 있고, 지터에 의한 영향을 줄이고 높은 선형성을 보장하기 위해 4 비트 양자화기, DAC를 사용하였다. 설계된 회로는 320MHz 샘플링 주파수에서 동작하며 10MHz 입력 대역에서 30mW의 전력을 소모하고 최대 SNR 51.36dB를 얻었다.

대역의 특성을 이용한 웨이블렛 기반 영상 압축 부호화 (Wavelet-Based Image Compression Using the Properties of Subbands)

  • 박성완;강의성;문동영;고성제
    • 방송공학회논문지
    • /
    • 제1권2호
    • /
    • pp.118-132
    • /
    • 1996
  • 본 논문에서는 웨이블렛 변환에 의해서 얻어진 고주파 대역에 웨이블렛 변환을 반복 적용하면 분해된 대역들이 필터링 방향에 따라서 대역 내의 웨이블렛 계수의 자승합으로 정의되는 에너지량을 다르게 갖는 특성을 이용하여 영상을 압축 부호화한다. 2차원 영상에 웨이블렛 변환을 적용하면 하나의 저해상도 영상과 세 개의 고주파 대역을 얻을 수 있다. 원영상에 포함되어 있는 고주파 성분은 웨이블렛 변환에 의해서 수평 방향, 수직 방향, 대각 방향의 윤곽선 형태로 세 개의 고주파 대역에 나뉘어서 존재하게 된다. 이러한 세 개의 고주파 대역에 다시 웨이블렛 변환을 적용하면, 윤곽선 방향과 동일한 방향으로 저역 통과 필터링되어 얻어진 대역에서는 에너지량이 크게 나타나지만, 윤곽선 방향과 동일한 방향으로 고역 통과 필터링되어 얻어진 대역에서는 에너지량이 적게 나타난다. 그러므로, 효율적인 압축을 위하여 에너지량이 적은 대역들을 부호화 과정에서 제외하며 제외되지 않은 나머지 대역들은 대역에 따라 DPCM 또는 임계값을 이용하여 양자화한 후에 엔트로피 부호화한다. 본 논문에서 제안한 방법은 압축률과 화질면에서 기존의 웨이블렛 변환과 벡터 양자화를 이용한 방법보다 우수한 성능을 보인다는 것을 실험을 통하여 제시하였다.

  • PDF

Generalized Clustering Network를 이용한 전방향 학습 알고리즘 (Feed-forward Learning Algorithm by Generalized Clustering Network)

  • 민준영;조형기
    • 한국정보처리학회논문지
    • /
    • 제2권5호
    • /
    • pp.619-625
    • /
    • 1995
  • 본 연구에서는 역전파(backpropagationlk)학습 알고리즘에 대체될 수 있는 전방향 학습 알고리즘에 준하는 혼합 인식모형을 구성한다. 본 알고리즘은 Nikhil R. Pal (1993)이 제안한 GLVQ(Generalized Learning Vector Quantization)를 이용하여 패턴을 클러스터링 한 다음 비유사성(dissimilarity)을 가진 패턴끼리 재구성(regrouping) 하여 단순 퍼셉트론(simple perceptron)을 이용하여 group별 학습을 한다. 일반적으로 역전파학습인 학습시간이 많이 소요된다는 단점이 있다[1]. 본 알고리즘의 특징으로 는 feed-forward학습이기 때문에 학습시간이 단축될 뿐만 아니라 전체 패턴을 그룹별 로 나누어 학습을 하기 때문에 인식률도 향상 시킬 수 있다. 본 알고리즘에 적용한 데 이타는 250개의 ASCII코드를 16$\times$8격자에 정규화시킨 비트 패턴(bit pattern)을 이용 하였다. 실험결과 250개의 패턴을 10개의 클러스터로 나누어 학습을 시켰을 때 각 클 러스터별 평균반복횟수 94.7회만에 250개의 ASCII코드를 100% 인식할 수 있었다.

  • PDF

새로운 계층적 이동 보상 피라미드 부호화 방식 연구 (A Study on New Hierarchical Motion Compensation Pyramid Coding)

  • 전준현
    • 방송공학회논문지
    • /
    • 제8권2호
    • /
    • pp.181-197
    • /
    • 2003
  • 대역 분할 부호화(Sub-Band Coding: SBC)방식은 계층적 피라미드(hierarchical pyramid) 구조를 갖고 있어 움직임 예측 시 상위 계층에서는 전체적인 이동특성을 추정하고 하위 계층에서는 국부적인 세부 이동 특성을 추정할 수가 있어 실제 동영상 움직임 보상 성능이 매우 우수하다. 이와 같은 계층적 이동보상피라미드를 이용한 기존의 저대역(low-band) 이동보상 피라미드 방식에는 다음 두 가지 문제점들로 인해 매우 심각한 화질 저하가 발생한다. 첫째는 저대역 이동보상 피라미드의 각 계층에서 양자화기가 포함된 부호화기를 사용할 경우 하위 계층의 재생 영상일수록 상위 계층에서 누적된 양자화 오차(quantization error)들을 그대로 포함하기 때문에 연속된 영상에서의 정확한 이동 보상이 어렵게 된다. 둘째는 피라미드의 계층적 구조 모순으로 상위 계층예서 잘못된 움직임 추정(motion estimation)은 하위 계층으로 진행될수록 막대한 성능 저하의 원인이 된다. 본 논문에서는 우선 대역분할 부호화 방식을 이용한 대역별 계층적 이동보상에 대한 수학적 분석을 하였으며, 이를 바탕으로 제안되었던 통과 대역(pass-band) 이동보상 피라미드 방식이 누적된 양자화 오차 요인이 제거됨으로서 기존의 저대역 이동보상 피라미드에 비해 성능이 우수하다는 것을 이론적으로 분석하여 이를 증명하였다. 또한 계층적 이동보상 피라미드에서 매우 중요한 최고 계층의 초기 이동벡터 추정을 위하여 에지 패턴 분류를 이용한 이동벡터 추정 방식을 새로이 제안하였으며, 실험 결과 성능의 우수함이 입증되었다.

음향 장면 분류를 위한 경량화 모형 연구 (Light weight architecture for acoustic scene classification)

  • 임소영;곽일엽
    • 응용통계연구
    • /
    • 제34권6호
    • /
    • pp.979-993
    • /
    • 2021
  • 음향 장면 분류는 오디오 파일이 녹음된 환경이 어디인지 분류하는 문제이다. 이는 음향 장면 분류와 관련한 대회인 DCASE 대회에서 꾸준하게 연구되었던 분야이다. 실제 응용 분야에 음향 장면 분류 문제를 적용할 때, 모델의 복잡도를 고려하여야 한다. 특히 경량 기기에 적용하기 위해서는 경량 딥러닝 모델이 필요하다. 우리는 경량 기술이 적용된 여러 모델을 비교하였다. 먼저 log mel-spectrogram, deltas, delta-deltas 피쳐를 사용한 합성곱 신경망(CNN) 기반의 기본 모델을 제안하였다. 그리고 원래의 합성곱 층을 depthwise separable convolution block, linear bottleneck inverted residual block과 같은 효율적인 합성곱 블록으로 대체하고, 각 모델에 대하여 Quantization를 적용하여 경량 모델을 제안하였다. 경량화 기술을 고려한 모델은 기본 모델에 대비하여 성능이 비슷하거나 조금 낮은 성능을 보였지만, 모델 사이즈는 503KB에서 42.76KB로 작아진 것을 확인하였다.