Proceedings of the IEEK Conference (대한전자공학회:학술대회논문집)
The Institute of Electronics and Information Engineers (IEIE)
- 기타
2003.07e
-
In this paper, we propose a method of decision on blurring for business card images using block classification. In the proposed method, an input image is partitioned into 8
${\times}$ 8 blocks and each block is classified into character block or background block using a block energy calculated in DCT domain. Whether the input image is blurring or non-blurring is determined using a ratio of low frequency energy and high frequency energy in DCT domain. Experimental results show that the proposed block classification classifies block well and the proposed decision on blurring decides well for various business card images. -
The noise in an image degrades image quality and deteriorates coding efficiency of compression. Recently, various edge-preserving noise filtering methods based on the nonstationary image model have been proposed to overcome this problem. In most conventional nonstationary image models, however, pixels are assumed to be uncorrelated to each other In order not to increase the computational burden too much. As a result, some detailed information is lost in the filtered results. In this paper, we propose a computationally feasible adaptive noise smoothing algorithm which considers the nonstationary correlation characteristics of images. We assume that an image has a nonstationary mean and can be segmented into subimages which have individually different stationary correlations. Taking advantage of the special structure of the covariance matrix that results from the proposed image model, we derive a computationally efficient FFT-based adaptive linear minimum mean square error filter. The justification for the proposed image model is presented and the effectiveness of the proposed algorithm is demonstrated experimentally.
-
본 논문에서 우리는 정규화 된 혼합 노름(norm)을 이용한 다중 채널 영상 복원 알고리즘을 제안한다. 채널 내부와 채널 사이의 결정론적 정보를 이용하는 다중채널 복원 문제를 고려한다. 각 채널에서, LMS(Least Mean Square), LMF(Least Mean Fourth), 평탄 함수가 결합된 함수가 제안되었다. LMS와 LMF 사이의 적절한 분배를 제어하는 혼합 노를 매개변수와 해의 평탄 정도를 정의하는 정규화 매개 변수를 소개하며, 두 매개 변수는 각 채널의 잡음 특성에 따라 매번 반복적으로 갱신된다. 제안된 알고리즘은 각 채널의 잡음분포에 대한 지식이 필요하지 앉고 앞에서 언급된 매개 변수는 부분적으로 복원된 영상에 기반을 두고 조절하게 된다.
-
Image enhancement를 하기 위한 영상처리 알고리즘 중의 하나인 contrast enhancement 알고리즘은 화면의 flickering 과 같은 부작용과 조절 가능한 contrast enhancement rate 에 대한 구현의 어려움 등으로 실제 TV와 같은 동영상에 적용하기에 어려움이 있었다. 본 논문에서는 Bin Underflow Bin Overflow(BUBO)를 이용하여 동영상에 적용할 경우에도 flickering 등의 부작용이 생기지 않으며 contrast enhancement rate 을 조절할 수 있는 효율적인 알고리즘을 제안한다. 또한 이와 관련하여 영상의 휘도 레벨에 있어서 어두운 영역의 계조와 밝은 영역의 계조를 향상시킬 수 있는 black/white level stretch 알고리즘과 전체 화면의 출력 휘도 레벨에 대한 dynamic range를 유지하면서 brightness를 조절할 수 있는 알고리즘을 제안한다.
-
본 논문에서는 상세 부밴드에서의 PSNR과 웨이블릿 계수의 계층적 데이터 구조 측면에 초점을 맞추어 웨이블릿 영역에서의 신호 해석을 통한 잡음 제거를 연구하였다. 제안된 방식은 기존의 방식들과는 달리 수직 또는 수평 방향의 고주파 성분에 의한 상세 부밴드에서의 에너지 편중을 고려하여 이들의 에너지의 편중에 따른 분해 필터를 적응적으로 설계하고 부밴드의 에너지를 재분배시켜 성능을 향상 시켰으며, 웨이블릿 계수의 상호 의존성을 고려한 지역윈도우 사용해 기존의 방식을 개선하였다.
-
In this paper we propose a sub-pixel point spread function (PSF) estimation method for a fully digital auto-focusing system. We assume that the amount of out-of-focus is the same along the concentric circle. In order to estimate the accurate PSF, sub-pixel information is considered in the proposed PSF estimation procedure. The feasibility of the proposed algorithm is experimentally demonstrated.
-
In this paper, we describe an approach for image denoising using the lifting construction, with the spatial adaptive wavelet transform. The adaptive lifting scheme is implemented in spatial domain to be adjusted thresholds to reduce noise. In this approach we represent adaptive characteristics of biorthogonal wavelets for choosing predictors effectively. Predict filter is changed from sample to sample according to local signal features with their vanishing moments. We in this approach have implemented and applied to image denoising by finding a relevant minimax threshold. Experimental results show that the adaptive method of denoising process is compared with existing ones, such as non-adaptive wavelet, CRF(13, 7) and SWE(13, 7) wavelets used by JPEG2000.
-
영상은 주파수 분포로 볼 때, 크게 에지 영역과 평탄 영역으로 구분할 수 있다. 또한 각 영역 안에서도 다양한 주파수 분포를 가지고 있다. 기존의 가중치 합(weighted-sum)기반의 방법으로는 다양한 주파수 변화를 포괄하기가 어렵고, 특히 고주파 성분을 효과적으로 보전할 수 없다. 이런 문제를 해결하기 위해서 본 논문에서는 영상의 국부 영역의 주파수 특성에 기반을 둔 deinterlacing 방법을 제안한다. 제안 방법에서는 우선 영상을 에지 영역과 평탄 영역으로 구분하였다. 그런 다음, 각 영역에 대해 신경 회로망을 할당하였다. 또한 각 영역에 대해서 저주파 성분과 고주파 성분으로 모듈화된 신경 회로망을 사용하여 각 영역 안에서의 주파수 특성의 변화에 잘 반응할 수 있게 하였다. 모의 실험에서 제안 알고리즘은 단일 신경 회로망의 경우나 기존의 다른 알고리즘들보다 개선된 성능을 보여주었다
-
본 논문에서는 입력영상의 휘도 신호에 Neyman-pearson Test를 이용하여 descramble error를 효과적으로 보정하는 기법을 제안한다. 아날로그 회로의 오차와 noise 의 영향으로 scramble 된 라인의 오프셋 값을 정확히 보상하지 못할 경우에 발생하는 descramble error를 scrambler/ descrambler 의 기기별 차이에 관계없이, 또한 scrambler 와 descrambler로부터 어떠한 정보 없이 descramble 시에 발생한 error 의 offset 값과 scramble 된 라인을 검출하여 보상하는 방법을 논하였다.
-
C. elegans often used to study of function of gene, but it is difficult for human observation to distinguish the mutants of C. elegans. To solve this problem, the system, which can be classified automatically using the computer vision, is studying now. In the previous works , they described the auto-tracking system and the egg-laying timing modeling, which are used to automated-classily system. In this paper, we use three kinds of features, which are related to movement , size and posture of the worm, and each feature is described mathematically and normalized. In experimental result, we validated the features for the hierarchical clustering, And we used the Calinski and Harabasz's method to find the appropriate cluster number.
-
This paper proposes a multilevel vector error diffusion for fast and accurate color reproduction. Proposed method considered both hue angle and Euclidean distance during the multilevel vector error diffusion procedure to improve time complexity and output image quality In the error diffusion process, it can be determined whether error is diffused or not by comparing the vector norm and lightness value between original vector and error corrected vector of neighborhood pixels. For adaptive selection of output patch, this paper computes chroma value of error corrected vector and compares the hue angle between error corrected input vector and 64 primary color vectors.
-
CCD Camera System으로 capture 한 image를 표준 display장치로 재현할 때 capture 할 당시의 원 피사체의 모습을 그대로 재현하여야만 한다. 그러나 일반 consumer 용 camera system의 CCD channel spectral sensitivity 특성이 인간의 spectral sensitivity(1(λ), m(λ), 5(λ)) 특성과 일치하지 않고, linear transform의 관계도 성립하지 않음으로써 capturing시 근본적인 color error가 발생하게 된다. 기존의 CCD Camera System 에서는 CCD sensor 의 color 정보와 display 장치의 color 정보와의 단순한 산술적인 관계로 color를 재구성하는 방법을 사용하고 있어 원 피사체의 color 를 그대로 재현할 수가 없다. 본 논문에서 제시하는 알고리즘은 CCD 의 channel spectral sensitivity특성 과 CIE-color matching function과의 관계를 고려하여 color를 재구성함으로써 color error를 줄이도록 하였다 제시된 알고리즘의 color error를 검증하기 위하여 물체의 고유반사율을 알고 있는 AGFA IT8.7-2 test chart(283 spectra), Dupont Paint Chips(120 spectra), Mcbeth Color Checker(64 spectra) 및 Natural Objects(170 spectra) 등 다양한 objects spectra(637 spectra) [1][2]를 이용하여 기존 방법의 알고리즘과 비교하여 보았다.
-
색 재현 범위(Color Gamut)가 기존의 표준신호(예 sRGB, Rec. 709)대비 상이한 Laser 디스플레이 장치에서 Gamut Matching Algorithm을 이용하여 표준 컬러의 재현을 가능하게 하고, CRT 대비 광범위한 Laser Color Gamut 의 모든 색 영역을 표현 할 수 있다. 이 방법은 일정한 휘도 및 hue 에서 표준입력과 출력장치의 색 재현 범위에 따라 주어진 입력신호의 Chroma를 늘이거나, 줄임으로써 출력장치의 전 색 재현 범위를 사용할 수 있게 된다.
-
This paper proposes the method that design CLUT(color look-up table) simultaneously processing gamut mapping and color space conversion using only LUT without complex computation. After we construct LUT composed of scanner gamut and printer gamut, we extend L
$\^$ */a$\^$ */b$\^$ */ points based on input L$\^$ */a$\^$ */b$\^$ */ to include input scanner L$\^$ */a$\^$ */b$\^$ */ Input RGB image of scanner is converted into CIEL$\^$ */a$\^$ */b$\^$ */ using regression (unction. CIELAB values of scanner are convened into CMY values including gamut mapping processing without additional gamut mapping using the proposed CLUT. In the experiments, the proposed method resulted in the similar color difference, but reduced the complexity computation compared with processing gamut mapping and color space conversion respectively -
This paper proposes a non-contact color inspection system for plasma display panel (PDP). The red, green, and blue test pattern images are acquired by using the area color CCD camera at the various distance from the PDP. The RGB values are obtained from the region of interest (ROI) which are extracted by applying the image processing to the test pattern image. Finally, the CIE xy and u'v' chromaticity coordinates of the test pattern images according to the distance are acquired from the RGB color coordinates.
-
This paper proposes an algorithm that can reduce the estimation error of surface spectral-reflectance(SR) when using a conventional 3-band RGB camera. In the proposed method, the estimation error is reduced by using adaptive principle components (PCs) for each color region. To build an adaptive set of PCs, n SR populations are organized for n PC sets using the Lloyd quantizer design algorithm. The Macbeth Color Checker is utilized for the initial representative SR values for 1485 Munsell color chips as the total color population, then the Munsell chips arc divided into subsets with a set of corresponding adaptive PCs organized for each subset.
-
Image segmentation is very important technique as preprocessing. It is used for various applications such as object recognition, computer vision, object based image compression. In this paper, a method which segments the multidimensional image using a hierarchical histogram approach, is proposed. The hierarchical histogram approach is a method that decomposes the multi-dimensional situation into multi levels of 1 dimensional situations. It has the advantage of the rapid and easy calculation of the histogram, and at the same time because the histogram is applied at each level and not as a whole, it is possible to have more detailed partitioning of the situation.
-
본 논문에서는 컬러 NTGST (noise-tolerant generalized symmetry transform)를 기초로 하여 부분적인 조명 변화뿐 아니라 그림자 및 잡음이 있는 환경에서도 효과적으로 코너만을 검출할 수 있는 코너 검출자를 제안하였다. 제안한 코너 검출자는 잡음에 둔감한 NTGST를 기초로 하여 코너에 가까울수록, 두 직선 에지가 이루는 각이 작을수록 큰 값이 코너에 누적되도록 하여 코너의 정확한 위치를 검출할 수 있도록 하였다 특히 조명 변화에 둔감한 HSI 색 공간에서 색상 (hue) 성분을 강조하고 채도 (saturation) 및 휘도 (intensity) 성분을 보조적인 정보로 활용함으로써 부분적인 조명 및 그림자의 영향을 줄일 수 있도록 가중조합 벡터 미분 연산자 (weighted combination of vector gradient vector operator)를 제안 적용하여 그림자로 인한 거짓 경계선 및 거짓 코너를 제거할 수 있도록 하였다. 실험을 통하여 제안한 코너 검출 방법이 잡음 및 조명 변화에 둔감하게 효과적으로 코너를 검출함을 확인하였다.
-
본 논문에서는 새로운 색역폭(color gamut) 매핑 방법을 이용하여 디지털 TV 디스플레이 장치의 화질을 개선하는 방법을 제안하였다. 기존에 실시간 적응이 어렵던 색역폭 매핑 방법을 실시간으로 처리하기 위한 하드웨어 구조를 제안하였으며 이를 통하여 수 나노 초 단위의 처리 속도가 필요한 디지털 TV 의 디스플레이 장치에 성공적으로 적용이 가능하였다. 또한 제안된 하드웨어 구조는 필요에 따라 색역폭 매핑 해상도의 조절이 가능하여 해상도 및 하드웨어 구현 비용을 적절히 조절할 수 있는 장점이 있다.
-
In this paper, an automated line-defect detection method for TFT-LCD panel is presented. A DFB(Directional Filter Bank) and line-projection method are used to find line-defect which is one of the major defects occurred in TFT-LCD panel. The experimental results show that the proposed algorithm gave promising results for applying automated inspection technique for TFT-LCD panel.
-
In this paper. we proposed a hardware(H/W) structure which can compress the video and embed the watermark in real time operation and implemented it into a FPGA platform using VHDL(VHSIC Hardware Description Language). All the image processing element to process both compression and reconstruction in a FPGA were considered each of them was mapped into H/W with the efficient structure for FPGA. The global operations of the designed H/W consists of the image compression with the watermarking and the reconstruction, and the watermarking operation is concurrently operated with the image compression. The implemented H/W used the 59%(12943) LAB(Logic Array Block) and 9%(28352) ESB(Embedded System Block) in the APEX20KC EP20K600CB652-7 FPGA chip of ALTERA, and stably operated in the 70㎒ clock frequency over. So we verified the real time operation, 60 fields/sec(30 frames/sec).
-
In this Paper, we propose a new watermarking algorithm for 1-bit image authentication using block operation. Observing 3
${\times}$ 3 block patterns, we find the regions to watermark, We describe a specific scheme how to generate data to embed and find pixels most probably invisible under modifications. We also show the experimental results of proposed algorithm. -
내용을 기반으로 하는 영상검색에 있어 색상과 물체의 특징은 중요한 요소로서, 지금까지의 검색 기법들은 이들을 중심으로 연구가 진행되어 왔으며, 이들을 추출하기 위해서는 color 영상에서의 배경과 물체의 분리는 선행되어야 할 중요한 과제이다. color 영상에서 물체를 분리 하고자 하는 여러 가지 시도가 있었으나, 대부분 clustering 에 준하고 있으며, 처리시간이나 결과에 있어서 그다지 좋은 효과를 내지 못하는 것도 사실이다. 따라서, 영상검색을 위한 물체의 분리 기법으로서는 적합하지 않다. 본 논문에서는 물체가 영상의 중심에 주로 위치한다는 점에 착안한 방법을 응용하여 영상의 외곽에 존재하는 색상뿐만 아니라 명암까지 분석하여, 배경을 구성하는 화소들의 색상 및 명암과 동일하지 않은 색상들로 이루어진 부분을 물체로 판단, 추출하는 기법에 대해 설명하고, edge를 추출해낸 영상의 정보와 합성하여 최적의 물체를 찾아 검색을 하는 기법에 대하여 기술하였다.
-
This paper has been studied a Adaptive feature-factors based fingerprints recognition in many biometrics. we study preprocessing and matching method of fingerprints image in various circumstances by using optical fingerprint input device. The Fingerprint Recognition Technology had many development until now. But, There is yet many point which the accuracy improves with operation speed in the side. First of all we study fingerprint classification to reduce existing preprocessing step and then extract a Feature-factors with direction information in fingerprint image. Also in the paper, we consider minimization of noise for effective fingerprint recognition system.
-
This paper presents a H/W module that executes a fragile watermarking algorithm. The module inputs sequentially quantized DCT values, encodes watermark and then outputs watermarked DCT coefficients. A fragile and invisible watermarking algorithm is adopted, modified and enhanced here to reduce H/W size and image degradation. The module can be directly inserted between DCT quantizer and VLC encoder in wide spread JPEG/MPEG encoder. The module is expected to be used for real-time authentication purpose in DVR(Digital Video Recorder) or digital cameras.
-
Steganography based on Just Noticeable Difference(JND) has been used for natural images. However, it has been recognized to have defects for the non-natural images such as scanned text images, cartoons, etc. In this paper, an alternative method is proposed to improve this problem. A new scheme is designed specially for the non-natural images. Instead of JND, Noise Visibility Function(NVF) is used. NVF value and edge strength value of each pixel ate combined to decide the embedding data capacity and the visibility of data embedded images have been improved specially for the non-natural images.
-
In this paper, a novel watermarking technique is proposed to authenticate the owner-ship of copyright for the digital contents. Using the 2-level DWT(Discrete Wavelet Transform) we divide a specific frequency band into detailed blocks and apply PIM(picture information measure). After the complexity is calculated, the watermark is embedded in only on high complexity areas. Conventional watermarking technique damages to the original image, because it does not consider the feature of the whole area or a specific frequency band. Easily affected by noise and compression, it is difficult to extract the watermark. However, the proposed watermarking technique, considering the complexity of input image, does not damage to the original image Simulation result show that the proposed technique has the robustness of JPEG compression, noise and filtering such as a general signal processing
-
Digital watermarking is technique, which owner's information is inserted in digital image, with intention to protecting a copyright of digital image. In watermarking for copyright and authentication, watermark shouldn't be distorted or disappeared after general image processes like a compression and filtering. In this paper, we present a new digital image watermarking algorithm which combines the discrete wavelet transform (DWT) and the singular value decomposition (SVD). Simulation results show that the newly proposed algorithm is not only robust nevertheless variable attacks like noise, filtering and JPEG compression but also secure in application.
-
내용 기반 영상검색에서 다중 특징을 사용하여 영상을 검색하는 기존의 방법들은 영상에서 특징간의 상관관계를 고려하지 않고 각 특징을 개별적으로 추출하여 검색에 사용한다. 따라서 특징간의 최적의 가중치를 찾아야 하는 문제가 있다. 이 논문에서는 내용기반 영상검색을 위해 색과 질감 특징을 효과적으로 표현할 수 있는 새로운 특징 벡터인 CCE (channel color energy)를 제안한다. 실험을 통하여 제안하는 방법이 정규 가중거리 비교 방법에 비해 우수한 성능을 보이는 것을 확인하였다.
-
본 논문은 디지털 컨텐츠의 지적 재산권 보호를 위해 활발히 연구가 진행되고 있는 디지털 워터마킹 기술의 응용분야로서 CAD 프로그램 상에서 도안된 건축설계도면에 워터마크를 은닉하는 기법을 제안한다. 워터마크 은닉에 필요한 컴퓨터로 설계된 건축도면 정보의 추출과 CAD데이터의 특성에 맞는 워터마크 은닉알고리즘에 대해 연구하여 워터마크를 은닉하고 추출하는 실험을 하였다. 실험결과 은닉된 워터마크는 비가시성을 만족하였으며, format 변환, cropping등에도 워터마크는 추출됨을 확인하였다.
-
본 논문은 인간의 Perception을 기준으로 인간이 구분할 수 있는 다양한 Display들의 Color Gamut 체적들을 정량적으로 평가하는 방법을 제안하였다. 기존의 Color Gamut의 크기를 구하는 방법은 CIE-u'v' 좌표계에서 R, G, B Primaries의 좌표에 해당하는 꼭지점으로 이루어진 삼각형의 넓이를 구함으로써 표현할 수 있는 Color의 개수를 구하였다 그러나 이 방법은 CIE-UCS Chart 자체가 2 Dimension이고, Non-Uniform Color Space이므로 정확하게 구했다고 할 수 없다. 이를 해결하기 위하여 본 논문에서는 Uniform Color Space 인 CIE-L/sup */a/sup */b/sup */ 좌표계에서 3 차원 공간에서 Color의 개수를 구함으로써, 구분할 수 있는 Color Gamut의 체적을 인간의 Perception을 기준으로 평가하는 정량적인 기법에 대해 논하였고, 이를 4종류의 다양한 Display Type들에 적용, 그 결과를 비교하였다.
-
Due to the increasing of multimedia data quantity, database searching based on image becomes important. For this scheme, MPEG-7 gives a good solution to efficient data searching. MPEG-7 uses Descriptors which are color, texture, and shape to extract features from images. It is obvious that using more than one Descriptor causes more accurate data searching result than using just one. In this paper, selecting a composite of MPEG-7 visual Descriptor using KL-Expansion is proposed.
-
이미지에 포함되어 있는 텍스트들은 이미지의 내용을 함축적이며 구체적으로 표현하는 정보를 갖고 있다. 본 논문에서는 이러한 정보를 정확히 추출하기 위해서 색 변화 특징을 이용한 텍스트 영역 추출 방법을 제안한다. 관찰에 의하면 이미지 내의 텍스트들은 주변 배경과의 색 변화가 존재하며, 이러한 색 변화를 3차원 RGB공간에서 표현한다면, 명도이미지에서의 밝기 변화에서 표현하기 어려운 영역들을 강조시킬 수 있으며, 조명 변화에도 민감하지 않은 결과를 만들어 낼 수 있다. 색 변화 정도는 3차원 RBG 공간에서의 색 분산(Variance)으로 측정한다 처리 과정으로서 우선 수평 및 수직 방향의 분산 이미지를 구하는데, 텍스트 영역은 두 방향의 분산 값이 모두 높은 특징이 있다. 다음으로 두 결과의 논리적 AND 연산을 수행하여 불필요한 잡영들을 제거한 후 연결요소를 분석, 검증하여 영역을 최종 확정한다. 다양한 종류의 자연이미지로 제안한 방법을 검증한 결과 밝기 변화 또는 색 연속성 특징들을 이용한 방법에서 찾기 어려운 텍스트 영역들을 찾을 수 있는 것을 확인할 수 있었다.
-
본 논문에서는 동영상 내 얼굴요약을 통하여 동영상의 접근성을 향상시키고자 하는 방법을 제안한다. 얼굴요약이란 동영상에 등장한 각 사람들을 한 장씩의 얼굴영상으로 요약하는 것을 말한다. 제안하는 얼굴요약 방법은 크게 얼굴그룹생성과 대표얼굴선정의 두 과정으로 이루어진다. 동영상에서의 얼굴그룹이란 한 사람의 얼굴영상들의 집합을 의미한다. 본 논문에서는 살색화소의 시공간에서의 연속성(spatio-temporal connectivity)및 얼굴검출기법을 이용하여 얼굴영상들을 사람에 따라 그룹화 한다. 대표얼굴이란 얼굴그룹에서 그 사람을 알아보는데 가장 적당한 얼굴영상이다. 본 논문에서는 크고 정면인 얼굴을 대표얼굴로 선정하는 방법을 제안한다. 실험결과에서는 제안한 기법을 이용하여 등장인물의 등퇴장이 빈번하게 발생할 경우에도 동영상을 얼굴 영상들로 요약할 수 있음을 보인다
-
In MPEG-21 Multimedia Framework, Digital Item (DI) is the minimum unit fur processing and delivering the multimedia contents. So how to process, manipulate and represent DI is a very important problem in the standpoint of interoperability for each terminal and provide., and Digital Item Processing (DIP) regarding this issue. This paper suggests technologies which are concerning how DIP should interact with other parts of MPEG-21 (Digital Item Adaptation (DIA), Intellectual Property Management and Protection (IPMP), etc.). For this concept, this paper uses the video summary contents which can describe the hierarchical structures of original multimedia contents. In MPEG-21 environment, the usage of this summary video is very useful delivery and consumption way in view of network burden, efficient accessing to contents.
-
In many image-coding applications such as web browsing, image databases, and telemedicine, it is needed that only a region of interest(ROI) is transmitted and then reconstructed first before the whole image is transmitted and reconstructed. The Maxshift method has been used as a standard one in this research about ROI coding in JPEG2000. However Maxshift method can process only one ROI, this paper suggests an improved Maxshift method which can process Multiple ROI haying the priority order. In this method, the ROI coefficient which has the high priority order can be moved to upward two bit plane in order to process multiple ROI.
-
This paper suggests an algorithm which can retrieval images using correlations between the region classification of spatial image and the wavelet transform even though the images are rotated in a
${\pm}$ 90 degree arc. Owing to this proposed method, it was confirmed from experiments that the search about the whole image is not processed and only a few amount of informations are saved by using the mathematical statistics from the block map and transformed band which is resulted from region classification, and by performing the image search based on these, the improvement of search speed and the efficient search can be done. -
In this paper, we propose image retrieval method more accurate and efficient than the conventional one. First of ail, we perform a shot detection and key frame extraction from the DC image constructed by DCT DC coefficients in the compressed video stream that is video compression standard such as MPEG[I][2]. We get principal axis applying PCA(Principal Component Analysis) to key frames for obtaining indexing information, and divide a domain. Video retrieval uses indexing information of high dimension. We apply KD-Trees(K Dimensional-Trees)[3] which shows efficient retrieval in data set of high dimension to video retrieval method. The proposed method can represent property of images more efficiently and property of domains more accurately using KD-Trees.
-
Security of digital images attracts much attention recently, and many image encryption methods have been proposed. This paper proposed an image encryption methodology to hide the image information. The target data of it is the result from quantization in the wavelet domain. This method encrypts only part of the image data rather than the whole data of the original image. For ciphering the quantization index we use a novel image encryption Algorithm called BRIE(Bit Recirculation Image Encryption). which was proposed by J. C. Yen and J. I. Guo in 1999. According to a chaotic binary sequence generated by BRIE, the block which is produced by quantization index is cyclically shifted in the right or left direction. Finally, simulation results are included to demonstrate its effectiveness.
-
In this study, respiratory motion is modeled by a 2-Dimensional linear expanding-shrinking movement. According to the introduced model, respiratory motion imposes phase error, non-uniform sampling and amplitude modulation distortions on the acquired MRI data. When the motion parameters are known or can be estimated, a reconstruction algorithm based on superposition method was used to removed the MRI artifact. For the purpose of estimating unknown motion parameters, we applied the spectrum shift method to find the respiratory fluctuation function, the x directional expansion coefficient and its center, and also we used the minimum energy method to find the y directional expansion coefficient and its center. The effectiveness of this presented method is shown by Computer simulations.
-
Since degraded region of input image can cause false minutiae which lead to decrease identification performance, use minutiae belong to only good quality to ensure true minutiae. This paper suggests image quality measuring method with respect to local and global orientation of ridges. In order to verify a suggested method, PDFs of quality indices derived by local and global feature are computed and then, classifying each image block using Bayesian decision theory.
-
Knowledge-based numeric open caption recognition is proposed that can recognize numeric captions generated by character generator (CG) and automatically superimpose a modified caption using the recognized text only when a valid numeric caption appears in the aimed specific region of a live sportscast scene produced by other broadcasting stations. in the proposed method, mesh features are extracted from an enhanced binary image as feature vectors, then a valuable information is recovered from a numeric image by perceiving the character using a multiplayer perceptron (MLP) network. The result is verified using knowledge-based hie set designed for a more stable and reliable output and then the modified information is displayed on a screen by CG. MLB Eye Caption based on the proposed algorithm has already been used for regular Major League Base-ball (MLB) programs broadcast five over a Korean nationwide TV network and has produced a favorable response from Korean viewer.
-
This paper Proposes a wavelet-based video compression method to improve compressed images using modification of wavelet coefficients. In conventional wavelet-based compression methods, bigger coefficients are transmitted early according to the significance of the coefficients. In this reason, when some coefficients which have more significance but are not bigger are not transmitted, image degradation occurs. The Proposed method considered two human visual characteristics. First, human eyes are more sensitive to the change of middle frequency which represents abrupt change of brightness than that of high frequency which expresses fine region. Second, human eyes are more dull to color component than luminance respectively. By adjusting the coefficients of wavelet transformed signals and allocating more bits for compression to the luminance signal, higher compression could be achieved.
-
본 논문은 확률적 확산 기법 및 확률모델을 이용하여 스테레오 영상간의 대응점을 추정하고, 영상의 배경으로부터 객체를 추출해 내는 연구를 다루고 있다. 스테레오 영상의 정합 및 객체 추출을 위하여 시차, 세그먼트, 라인, 및 오클루젼 필드를 Markov random field 모델로 정의하고, 확률적 에너지 최소화 방법을 이용하여 최적의 시차 필드 및 객체추출을 수행한다. 본 논문에서는 우선 이러한 다양한 필드간의 MRF 모델링 기법을 제안하고, 각 필드에 대한 에너지 함수를 정의한다. 그리고, 확률적 확산 기법을 이용하여 각 필드에 대하여 정의된 에너지 함수를 최소화함으로써, 최적의 시차필드 및 객체추출 결과를 구한다.
-
Gait is defined as "a manor of walking". It can used as a biometric measure to recognize known persons. Gait is an idiosyncratic feature determined by an individual's weight, stride length, and posture combined with characteristic motion. but its feature extracted from images varies with the viewpoint. In this paper, we propose a gait recognition method using a planer homography, which is robust for viewpoint variation. We represent an individual as key-silhouettes. And we endow key-silhouettes with weight calculated using the characteristic of PCA. Experimental result shows that proposed method is robust for viewpoint variation as images synthesised same viewpoint.
-
This paper presents a three-dimensional (3D) head pose estimation algorithm using the stereo image. Given a pair of stereo image, we automatically extract several important facial feature points using the disparity map, the gabor filter and the canny edge detector. To detect the facial feature region , we propose a region dividing method using the disparity map. On the indoor head & shoulder stereo image, a face region has a larger disparity than a background. So we separate a face region from a background by a divergence of disparity. To estimate 3D head pose, we propose a 2D-3D Error Compensated-SVD (EC-SVD) algorithm. We estimate the 3D coordinates of the facial features using the correspondence of a stereo image. We can estimate the head pose of an input image using Error Compensated-SVD (EC-SVD) method. Experimental results show that the proposed method is capable of estimating pose accurately.
-
본 논문에서는 분할 영상 좌보계 (split image coordinate: SIC)를 제안하여 3차원 영상의 주요 특징 중의 하나인 유, 무한 소실점을 그 위치의 무한성이나 카메라의 보정과 관계없이 정확하게 자동 추출하였다. 제안한 방법에서는 가우시안 구 (Gaussian sphere) 기반의 기존 방법들과는 달리 영상 공간을 누적 공간으로 활용함으로써 카메라 보정이나 영상의 사전정보가 없어도 원 영상의 정보 손실 없이 소실점을 추출할 수 있고, 영상을 무한대까지 확장한 후 분할하여 재정의 함으로써 유, 무한 소실점을 모두 추출할 수 있도록 하였다. 정확한 소실점의 검출을 위하여 직선 검출 과정에서는 방향성 마스크 (mask)를 사용하였으며, 직선들의 군집화 (clustering) 과정에서는 기울기 히스토그램 방법과 수평/수직 군집화 방법을 적응적으로 적용하였다. 제안한 방법을 합성 영상 및 건축물 (man-made environment) 영상에 적용시켜 유, 무한 소실점들을 효과적이고 정확하게 찾을 수 있음을 확인하였다.
-
양안 입체 TV 에서는 3 차원 카메라의 시점거리에 따라 눈의 편안함과 3 차원 효과 사이에 대차 관계가 존재한다. 일반적으로 카메라 사이의 거리가 인간의 동공 사이의 거리인 65㎜ 일 때 최적의 효과를 낸다고 한다. 그러나 일반적인 방송용 화질의 상용 카메라는 렌즈 크기가 크기 때문에 이 거리를 맞춘 3 차원 카메라를 제작하기는 매우 어렵다. 그래서 보기 편한 양안입체 영상을 제공하기 위해서는 스테레오 카메라에서 얻은 영상을 조작하여 원하는 가상 시점에서의 영상으로 만들어 줄 필요가 있다. 본 논문에서는 먼저 적응적 다중 창틀 정합을 이용한 계층적 변이 추정을 사용하여 변이 지도를 추출하고, 이것을 이용하여 가상 시점에서의 영상을 합성했다. 다양한 스테레오 영상을 이용한 실험을 통해 제안된 기법의 타당성을 확인하였다.
-
Recently several methods have been developed for the virtual space construction. Generally, most of the methods are geometric-based rendering technic, but they are difficult to construct real-time rendering because of large data. In this paper, we present a three dimension image-based rendering method that enable a constant speed of real-time rendering regardless of object complexity in virtual space. The Proposed method shows good performance for the virtual space construction with high complexity.
-
This paper proposes an adaptive regularized noise smoothing algorithm for range image using the area decreasing flow method, which can preserve meaningful edges during the smoothing process. Although the area decreasing flow method can easily smooth Gaussian noise, it has two problems; ⅰ) it is not easy to remove impulsive noise from observed range data, and ⅱ) it is also difficult to remove noise near edge when the adaptive regularization is used. In the paper, therefore, the second smoothness constraint is addtionally incorporated into the existing regularization algorithm, which minimizes the difference between the median filtered data and the estimated data. As a result, the Proposed algorithm can effectively remove the noise of dense range data with edge preserving.
-
This paper describes a method of stereo image composition for mixed reality without camera calibration or complicate tracking algorithm. The proposed system tracks the panel which has blob makers, and composes virtual objects naturally using the method of texture mapping which is often used in geological computer graphics mapping when we do mapping 2D computer graphic data or man-made 2D images. The proposed algorithm makes it possible for us to compose virtual data even in the case that the panel is bent. For composing 3D object, the system uses depth information obtained from stereo image so that we do not need cumbersome procedure of camera calibration.
-
This paper proposes efficient system for multiview images using backward quadtree disparity estimation. Previous quadtree method usually divides current image. In this work, backward quadtree divides reference image. So, it does not need to code quadtree data. For backward quadtree, quadtree information map is generated. By using this map, adaptive dividing is possible. And, conventional bi-directional matching method is used with backward quadtree. These methods increase subject and object quality of decoded test images. For multiview images, panorama synthesizing method was used. Panorama image and right-most image are used for reference image for intermediate view images coding.
-
A practical method of adaptive rate allocation to source and channel codings for an independent loss channel is proposed for Internet video. It is based on the observations that the values of residual loss probabilities at the optimal code rates for different packet loss probabilities are closely clustered to the average residual loss probability for a transmission frame size n in RS(n,k) code and for a total bit rate R. These observations aye then exploited to find the code rate for maximum PSNR. Simulation results demonstrate that the proposed method achieves a near-optimal bit-rate allocation in the joint source-channel coding of H.263 and RS(n,k) codings.
-
This paper presents compression rate improvement for SPIHT algorithm though redundancy bit removing. Proposed SPIHT algorithm uses a method to select of optimized threshold from feature of wavelet transform coefficients and removes sign bit if coefficient of LL area. Experimental results show that the proposed algorithm achieves more improvement bit rate and more fast progressive transmission with low bit rate.
-
많은 고속 정화소 움직임 추정 알고리즘이 개발됨에 따라, 최근에는 10개의 탐색점만으로 정화소 움직임벡터를 찾을 수 있게 되었다. 반면에, 반화소 움직임 추정에서는 정화소 움직임 벡터주변의 8 개의 반화소 탐색점을 검색해야 한다 그러므로 반화소 움직임 추정 알고리즘의 계산량을 줄일 필요성이 생기게 되었다 본 논문에서는 directional search 와 SAD 함수의 선형 모델링을 이용한 고속 반화소 움직임 추정 알고리즘을 제안한다 제안된 알고리즘은 PSNR 열화 없이 2.21 개의 탐색만으로도 움직임 벡터를 찾을 수 있게 해준다 특히, 조절 가능한 파라미터를 이용하면. 약간의 PSNR 감소와 함께 0.34개의 탐색만으로 움직임 벡터를 추정을 할 수 있게 해준다.
-
본 논문은 가장 최근의 동영상 국제표준인 H.264 비디오 코덱을 사용하여 QCIF 영상을 초당 10 프레임 정도의 속도로 실시간 부호화하는 것을 목적으로, 부호화 시 필요한 연산의 약 80%-90%를 차지하는 움직임 추정을 고속으로 처리할 수 있는 알고리즘을 개발하는 것을 내용으로 하고 있다. 제안하는 고속 움직임 추정 알고리즘은 MPEG겨 등의 고속 움직임 추정에 사용되었던 기존의 알고리즘을 다중 프레임 레퍼런스 등 새로운 특징을 갖는 H.264 코덱에 적합한 형태로 개선하고, 움직임 추정의 정밀도가 1/4 화소 단위로 향상됨으로써 늘어난 부화소단위 움직임 추정의 상대적 부담을 함께 고려하면서, 모드 선택과정과 효과적으로 결합함으로써 보다 향상된 성능을 나타내고 있다. 모의실험 결과, 기존의 공식 JVT-AVC 레퍼런스 소프트웨어인 JM (Joint Model) 에 구현되어 있는 고속 움직임 추정 알고리즘에 비해서 최대 80%, 평균적으로 60%의 속도개선 효과가 있음이 입증되어, 최근 JM 의 새로운 고속 움직임 추정 알고리즘으로 채택된 JVT-F0l7 알고리즘에 본 논문에서 제안하는 레퍼런스 프레임 탐색 제한 알고리즘을 결합시킴으로써 추가적으로 약 45%의 속도 개선을 얻을 수 있음을 확인하였다.
-
본 논문에서는 MPEG-2, MPEG-4, H.263 등에서 블록정합을 위해 사용되는 움직임 추정(Motion Estimation) 기법에서 적응적 탐색 범위를 기존의 알고리듬에 적용시킴으로써 계산량을 줄이고 화질도 개선하는 방법을 제안한다 제안된 알고리듬은 먼저 이웃한 움직임 벡터(Motion Vector)의 위치를 이용하여 예상된 움직임 벡터를 찾고 이 예상된 움직임 벡터의 X, Y 값의 크기를 작은 값, 중간 값, 큰 값, 세 가지로 분류해서 탐색범위를 적응적으로 변화시켜 움직임 벡터가 있을 확률이 큰 범위를 집중적으로 찾는다 그리고 각 분류에서 작은 값일 때는 전역 탐색을 적용하고 큰 값일 때는 기존의 알고리듬을 적용시키고 중간 값 일 때는 3단계탐색 기법을 적용시켜 더 적합한 움직임 벡터를 찾도록 하였다. 그리고 작은 값 일 때 구해진 움직임 벡터의 SAD(Sum of Absolute Difference) 값과 이웃한 움직임 벡터의 SAD값을 비교해 국소점에 빠졌다고 판단이 되면 다시 탐색 범위를 조정해서 움직임 벡터를 구함으로써 국소점에 빠지는 경우를 줄였다.
-
본 논문에서는 최소 계승 선형 예측 방식의 에지 방향성을 이용하여 공간영역에서의 다양한 움직임 벡터 예측기를 적응적으로 설정하는 방식을 제안하고자 한다. 적응 움직임 예측 방식은 동영상 움직임 벡터가 국부 통계적인 특성의 돌연한 변화로 특징지어진다는 것을 바탕으로 예측기를 움직임 벡터의 통계적인 특성에 따라 전환하는 방식이다 본 논문에서 사용된 최소 계승 예측 방식은 움직임 벡터의 다양한 통계적 특성을 이용하여 국부적으로 움직임 벡터 예측 계수를 최적화하지만 최적화 과정에서 매우 큰 계산량을 갖게 됨으로 실제적으로 적용하기가 어려웠다. 그러므로 본 논문에서는 최소 계승 예측 방식을 에지 방향성의 관점에서 재해석하여 적응적으로 움직임 벡터 예측기를 개선하므로 계산량을 줄이면서 일정한 성능을 유지함을 확인 할 수 있었다.
-
본 논문은 Polynomial 변환을 이용하여 2차원 Discrete Cosine Transform (2D-DCT)의 계산을 1차원 DCT로 변환하여 계산하는 알고리즘을 개발한다. 기존의 일반적인 알고리즘인 row-column이 N×M의 2D-DCT에서 3/2NMlog₂(NM)-2NM+N+M의 합과 1/2NMlog₂(NM)의 곱셈이 필요한데 비하여 본 논문에서 제시한 알고리즘은 3/2NMlog₂M +NMlog₂N-M-N/2+2의 합과 1/2NMlog₂M의 곱셈 수를 필요로 한다. 기존의 polynomial 변환에 의한 2D DCT는 Euler 공식을 적용하였기 때문에 복소 연산이 필요하지만 본 논문에서 제시한 polynomial 변환은 DCT의 modular 규칙을 이용하여 2D DCT를 ID DCT의 합으로 직접 변환하므로 복소 연산이 필요하지 않다. 또한 본 논문에서 제시한 알고리즘은 각 차원에서 데이터 크기가 다른 임의 크기의 2차원 데이터 변환에도 적용할 수 있다.
-
In this paper, we propose a dynamic-based compression system by creating mosaic background and transmitting the change information. A dynamic mosaic of the background is progressively integrated in a single image using the camera motion information. For the camera motion estimation, we calculate affine motion parameters for each frame sequentially with respect to its previous frame. The camera motion is robustly estimated on the background by discriminating between background and foreground regions. The modified block-based motion estimation is used to separate the back-ground region.
-
본 논문에서는 디지털 멀티미디어 방송 및 양방향 인터넷 방송 등에서 효율적인 객체기반 방송 서비스를 제공하기 위한 비선형 비디오 편집 시스템을 구현하였다. 구현된 시스템은 실시간으로 카메라를 통해 입력되는 영상 데이터에 대해 자동으로 움직이는 객체를 추출하는 자동분할과 HDD(hard Disk) 등에 저장되어 있는 동영상을 사용자의 조력에 의해 분할하는 반자동분할 기능을 제공한다. 그리고 추출된 객체를 저장매체에 저장되어 있는 그래픽 및 실사 배경영상과 합성하고 MPEG으로 부호화 할 수 있다. 또한 정보 유출을 원치 않는 객체에 대한 은닉 기능을 가지고 있다. 따라서 구현된 시스템은 비디오 정보제공자가 편리하게 객체를 분할하고 편집할 수 있으며 비디오 정보를 단기간에 효율적으로 비디오 정보 사용자에게 공급할 수 있는 기능을 제공한다.
-
최근에 표준화된 H.264 의 인트라 예측은 I-프레임을 압축하는데 사용된다. 최대의 코딩효율을 위해서 부호화기는 모든 인트라 예측 모드를 반복적으로 찾는다. 그러나 이것은 H.264 의 부호화기 복잡도를 매우 크게 하는 단점이 있다. 모든 경우의 모드중에 영상에 따라서는 특히 그 발생 가능성이 높거나 낮은 경우의 모드가 발생한다. 본 논문에서는 에지맵을 이용하여 H.264 의 인트라 예측 모드를 선별적으로 선택하는 방법을 제안한다.
-
본 논문에서는 HDTV(High Definition TV) 방송수신을 위한 DSP(Digital Signal Processor)기반의 HD급 비디오/오디오 디코더 시스템을 개발하고 그 성능을 확인하였다. DSP 플랫폼은 TI(Texas Instrument)사의 TMS320C6415를 대상으로 하였으며 TI의 DSP RTOS인 DSP/ BIOS를 이용하여 방송스트림인 TS(Transport Stream)을 분리하기 위한 TS Demuxer, MPEG-2 비디오 디코더 및 AC-3 오디오디코더 알고리즘을 통합하였으며, 각각의 알고리즘은 대상 DSP플랫폼인 TMS320C64x에 맞게 고정소수점 구조화 및 최적화를 실시하였다. 테스트를 위한 시스템은 스트리밍을 위한 호스트 PC와 PCI(Peripheral Component Interconnect)버스를 통해 연결된 DSP보드로 구성하였으며 실제 HDTV당송용 스트림과 SD(Standard Definition)급 스트림을 이용하여 성능을 확인하였다.
-
For applications such as video surveillance and human computer interface, we propose an efficiently integrated method to detect and track faces. Various visual cues are combined to the algorithm: motion, skin color, global appearance and facial pattern detection. The ICA (Independent Component Analysis)-SVM (Support Vector Machine based pattern detection is performed on the candidate region extracted by motion, color and global appearance information. Simultaneous execution of detection and short-term tracking also increases the rate and accuracy of detection. Experimental results show that our detection rate is 91% with very few false alarms running at about 4 frames per second for 640 by 480 pixel images on a Pentium IV 1㎓.
-
워터쉐드 알고리즘에 의해 과분할 된 영상은 이후 영상의 이해 및 분석 작업의 편의성을 위하여 영역 병합 작업이 필요하다. 본 논문에서는 유사한 색상을 갖는 영역의 경계선을 보다 잘 유지할 수 있도록 통합 비유사도를 정의하고, 이를 이용한 영역 병합 방법을 제안한다. 통합 비유사도는 영역의 색상 정보, 인접한 두 영역 사이의 평균 그래디언트 값 정보, 두 영역 사이의 인접한 픽셀 수 정보를 이용하여 정의된다. 영역 병합과정에서는 영역 면적의 크기와 영역간 통합 비유사도를 고려한 3 단계 영역 병합 방법을 수행한다. 자연 영상에 대한 실험 결과 제안한 방법이 기존의 방법보다 경계선 정보를 보다 잘 유지하고 사람이 느끼기에 보다 정확한 영역 병합 결과를 나타냄을 확인하였다.
-
We propose a knowledge-based algorithm for extracting an object boundary from low-quality image like the forward looking infrared image. With the multi-classes training data set, the global shape is modeled by multispace KL(MKL)[1] and curvature model. And the objective function for fitting the deformable boundary template represented by the shape model to true boundary in an input image is formulated by Bales rule. Simulation results show that our method has more accurateness in case of multi-classes training set and performs better in the sense of computation cost than point distribution model(PDM)[2]. It works well in distortion under the noise, pose variation and some kinds of occlusions.
-
Video segmentation is an essential part in region-based video coding and any other fields of the video processing. Among lots of methods proposed so far, the watershed method in which the region growing is performed for the gradient image can produce well-partitioned regions globally without any influence on local noise and extracts accurate boundaries. But, it generates a great number of small regions, which we call over segmentation problem. Therefore we proposes image segmentation improvement by selective application structuring element of mathematical morphology.
-
본 논문에서는 연속영상에서 잡음과 객체가 잘 분할되지 않는 환경 내에 있는 객체를 자동으로 분할하는 차영상 기반 알고리즘을 제안하였다. 기존의 차영상 기반의 단일 임계간을 이용한 방식에는 잡음에 크게 영향을 받고 배경과 객체가 비슷한 밝기 값을 가지는 경우 잘 추출되지 않는 많은 문제점이 있다. 본 논문에서는 이러한 문제점을 해결하고자 임계값을 설정하는 영역을 축소하여 잡음간섭의 최소화를 구성하였고 축소된 영역 내의 윤곽선정보를 이용하여 배경 밝기 값의 유사함에서 나오는 간섭을 최소화함으로써 정밀한 객체를 추출할 수 있었다.
-
자동으로 분할된 영상에서 각각의 영역들은 동질의 특징을 가지는 성분들로 구성되어 있다. 그러나 대부분의 경우 하나의 영역만으로는 특정한 혹은 의미 있는 오브젝트를 정확히 표현 할 수 없다. 이 중에서 하나 이상의 영역 즉 비슷한 특징을 갖는 몇몇 영역들의 집합이 사용자에게 있어서 의미 있는 오브젝트를 구성한다고 볼 수 있다 이를 전제로 본 논문에서는 분할된 영상 내에 존재하는 기저 영역들의 모멘트 추출을 기반으로 하는 객체 매칭 기법을 제안한다. 제안된 매칭 방법에서는 자동 영상 분할된 각 영역들로부터 모멘트를 추출하고 이 정보를 이용하여 조합된 영역에 대한 모멘트를 계산하게 되고, 다시 이들 조합된 영역의 모멘트를 이용하여 그 영역의 쉐입(shape) 특징 벡터를 추출한다. 이를 통하여 사용자가 찾고자 하는 영역과 분할영상내의 모든 영역의 조합에 대해서 초기에 추출된 정보만을 이용하여 매칭할 수 있도록 하였다.
-
본 논문에서는 모델에 기반한 2차원 영상인식 알고리즘 중에 하나인 일반화된 허프변환(Generalized Hough Transform)에 대하여 색상정보까지 포함할 수 있도록 기존의 알고리즘을 확장하는 방법을 제시하였고, 이에 의한 실험결과를 간단히 고찰하였다. 기존의 일반화된 허프변환은 대상물의 윤곽선 정보에 기반을 두었기 때문에, 윤곽선 정보가 일치하면 대상물의 색상이나 명암분포가 달라도 동일한 대상물로 인식할 가능성이 있다. 따라서, 일반화된 허프변환을 확장하여 대상물의 모델링과 인식과정에 색상정보(chromatic information)를 포함한다면 2D 영상인식시 컬러정보를 활용할 수 있는 장점이 있다. 여기에서는 실제로 모델링 과정과 인식과정에서 색상정보를 반영하기 위한 간략한 방법과, 이에 따른 실험결과를 제시하였다. 간단한 2D 위치변환이 존재하는 실험에서 윤곽선의 모양이 거의 일치하더라도 색상이 다른 대상물이 존재할 경우에 이를 올바로 구분할 수 있었다.
-
본 논문에서는 도로 주변의 나무와 건물, 그리고 옆 차선의 차량 등에 의한 그림자의 영향을 최소화하며 차선을 검출할 수 있는 방법을 제안하였다 우선 Hough transform을 수행하는 데 있어서 계산 시간을 줄이기 위하여 에지 영상에서 수평 투영을 통하여 vanishing line을 검출하였으며, vanishing line 아래 부분에서만 Hough transform을 수행하였다. 그리고 차선 검출을 위하여 Hough 평면에서 θ을 16등분하여 rough한 차선을 검출하였으며, 도로 형태에 대한 사전 지식을 이용하여 차선 검출을 시도하였다. 도로 주변상황이 다른 두 종류의 연속 영상들에 의한 실험 결과, 도로형태에 대하여 가정한 사전 지식과 유사한 영상들에 대하여 차선을 정확하게 검출하였다.
-
An adaptive active contour algorithm which shows stable object tracking performance under the moving or deformable environments, is proposed. In order to cope with local deformation of the object, an energy map is generated from the difference of the consecutive images and a new energy function based on the energy map is presented. The algorithm is evaluated on a set of artificial and real images to verify the efficiencies and test results show the stable tracking performance for the moving objects.
-
Stereo matching is an important technique in the are of computer vision. There are already many theorems to find disparity map using stereo images. Usually, disparity is searched by using block matching. However block matching result in blocking effects caused by using fixed size window for computing pixel correlations. This paper suggests an efficient method to remove the blocking effect in stereo matching procedures.
-
This paper presents a three-dimensional (3D) head pose estimation algorithm for robust face recognition. Given a 3D input image, we automatically extract several important 3D facial feature points based on the facial geometry. To estimate 3D head pose accurately, we propose an Error Compensated-SVD (EC-SVD) algorithm. We estimate the initial 3D head pose of an input image using Singular Value Decomposition (SVD) method, and then perform a Pose refinement procedure in the normalized face space to compensate for the error for each axis. Experimental results show that the proposed method is capable of estimating pose accurately, therefore suitable for 3D face recognition.
-
This paper describes a method of performance enhancement using Flatness Mesure(FM) for the Gaussian Mixture Model(GMM) face recognition systems. Using this measure we discard the frames having low information before training and test. As the result, the performance increases about 9% in the lower mixtures and calculation burden is decreased. As well, the recognition error rate is decreased under the illumination change surroundings. We use the 2D DCT coefficients lot face feature vectors and experiments are carried out on the Olivetti Research Laboratory (ORL) face database.
-
얼굴인식의 전처리 단계는 주위의 배경으로부터 얼굴 영상을 분리하여 분석해야 한다. 이러한 전처리 단계는 환경적 요인으로 인해 많은 어려움을 가지고 있다. 또한, 개인별 특징의 차이, 얼굴의 기울어짐과 회전각도 및 영상내의 얼굴 크기 등으로 인해 어려움이 존재한다. 원영상을 입력받아 피부색을 통해 얼굴영역을 검출해 내어 사람의 표정변화에 가장 강인한 코 부분을 추출하여 워터쉐이드 변환을 하여 각 개인마다 다르게 가지고 있는 코의 패턴의 데이터를 저장하여 얼굴 인식에 이용할 수 있는 인자 값으로 이용한다. 따라서, 본 논문에서는 얼굴인식의 특징값을 코의 패턴을 이용하여 인식함으로써 다른 논문에서 제시하고 있는 눈의 특징이나 얼굴 각의 특징의 단점을 극복하여 보다 정화한 얼굴 인식을 할 수 있는 전처리 방법을 제시한다.
-
This paper proposes a pose-invariant face recognition method using cylindrical model and stereo camera. We divided this paper into two parts. One is single input image case, the other is stereo input image case. In single input image case, we normalized a face's yaw pose using cylindrical model, and in stereo input image case, we normalized a face's pitch pose using cylindrical model with estimated object's pitch pose by stereo geometry. Also, since we have advantage that we can utilize two images acquired at the same time, we can increase overall recognition rate by decision-level fusion. By experiment, we confirmed that recognition rate could be increased using our methods.
-
In this paper, we take some features for face recognition out of face image, using a simple type of templates. We use the extracted features to do Adaboost learning for face recognition. Using a carefully-chosen feature among these features, we can make a weak face classifier for face recognition. And doing Adaboost learning on and on with those chosen several weak classifiers, we can get a strong face classifier. By using Adaboost Loaming, we can choose particular features which is not easily subject to changes in illumination and facial expression about several images of one person, and construct face recognition system. Therefore, the face classifier bulit like the above way has robustness in both facial expression and illumination variation, and it finally gives capability of recognizing face fast due to the simple feature.
-
In this paper, our proposed system uses the regional Gabor wavelet and Neural Network to implement face recognition similar to human face recognition system, because the Gator wavelet expresses visual recognition system of human mathematically and the regional Neural Network is robust to white noise and partial illumination. This system consists of two stages of building database and recognizing face. One is composed by using the supervised learning of Neural Network. At this time, the Neural Network is applied to the upper and the lower part of face images respectively. The Backpropagation algorithm is used to learn Neural Network. Another consists of calibration of slope of face image, measurement of illumination variant using deviation with average face image and similarity comparison using Euclidean distance measure.
-
본 논문에서는 얼굴 인식 분야에서 사용되는 PCA/LDA 알고리즘을 대신하기 위해 DCT/LDA 알고리즘을 제안하였다. PCA/LDA를 이용한 얼굴 인식의 경우 PCA 를 이용하여 얼굴 영상을 적은 수의 특징 값으로 표현한 다음 LDA를 수행한다. 그러나 PCA는 트레이닝 과정의 계산량이 많고 트레이닝 셋이 변할 때마다 기저 벡터가 변화한다. PCA/LDA의 단점을 개선하기 위해 계산량이 적고 기저 벡터가 일정한 DCT의 계수를 사용한다. DCT/LDA를 사용할 경우 특징 값을 빠르게 추출하면서 PCP/LDA와 유사한 성능을 얻을 수 있다. 실험을 통하여 포즈 변화와 조명 변화가 있는 얼굴 데이터 셋에서 최고 97.8%의 인식률을 보였다.
-
This paper proposes a face identification algorithm, robust on lighting condition and complex background. The proposed method estimates facial area under bad light condition by expanding face color boundaries and then finds a lip using the templates for lips. Then the eyes are found using their topological relationship with the long and short axes of lip area. The experimental results have shown that the proposed algorithm is robust on lighting conditions and complex background.
-
This paper focused on the possibility of face recognition using Flexible let Point Setting method in Gabor Filter Based Face Recognition. Gabor Filter is very sensible to the Texture variation. Therefore, any little change in the face expression or rotation of posture make recognition rate down significantly. A suggested solution for this problem is the Flexible Jet Point Setting. A significant effect of this method is that the number of Jet Point has been reduced from over 150 to under 30 even though the change of recognition rate between two methods is neglectable, Furthermore a set of feature values which results from a set of Gabor filtering became insensible to face variation such as expression, rotation, and light effect. Retinex Algorithm which has been developed by NASA are used as pre-processing.
-
This paper focuses on the study of the robustness of face authentication methods under illumination changes. Four different face authentication methods are tried. These methods are as follows; Principal Component Analysis, Gaussian Mixture Models, 1-Dimensional Hidden Markov Models, 2-Dimensional Hidden Markov Models. Experiment results involving an artificial illumination change to face images are compared with each others. Face feature vector extraction method based on the 2-Dimensional Discrete Cosine Transform is used. Experiments to evaluate the above four different face authentication methods are carried out on the Olivetti Research Laboratory(ORL) face database. For the pseudo 2D HMM, the best EER (Equal Error Rate) performance is observed.
-
General-purpose MPEG-2 video transcoders must be able to achieve any conversion between 18 ATSC (Advanced television system committee) video formats for DTV (digital television), e.g., scan format, size format, and frame rate format conversion. Especially, scan format conversion is hard to implement because frame rate and size format conversion often happen together. This paper proposes a fast motion estimation(ME) algorithm for MPEG-2 video transcoding supporting scan format conversion. Firstly, we extract and compose a set of candidate motion vectors (MV's) from the input bit-stream to comply with the re-encoding format. Secondly, the best MV is chosen among several candidate MV's by using a weighted median selector. Simulation results show that the proposed ME algorithm reduces significantly transcoding complexity with a minor PSNR degradation.
-
In this paper, we propose efficient motion vector refinement algorithm for frame-rate reduction transcoding. The proposed algorithm is to set the search range for motion refinement based on the incoming motion vector. The algorithm calculates the importance of motion vector of the skipped frame and then selects two motion vector to set search range. Through this process, we determine the accuracy of incoming motion vector and set the search range lot refinement adaptively by means of the accuracy. In experiments, we show efficiency of our algorithm to reduce the search points for refinement.
-
MPEG-2로 부호화된 비트열은 가변길이 부호화(variable length coding)방식을 사용하기 때문에 에러에 매우 민감하다. 망(network)을 통해 발생된 에러는 시간적, 공간적으로 전파되는 현상이 발생하기 때문에 고품질의 영상을 추구하는 MPEG-2 에서는 심각한 화질열화를 일으키게 한다. 이에 따른 에러 정정 및 은닉 기법이 MPEG-2 복호기 측에서 연구되어야 하는데, 기존의 제안된 에러은닉 기법들은 셀손실이나 비트에러를 기반으로 매크로 블록 주위의 데이터를 이용하였으나 MPEG-2 비트열의 구조상 슬라이스 단위에러에 대한 발생빈도가 더 자주 일어나고 에러에 대한 영향도 심각하다. 본 논문에서는 기존에 나와있는 에러은닉 기법과 달리 슬라이스 단위 에러발생 시 BMA(boundaruy matching algorithm)방식과 중간 값(median), 평균값(average)방식으로 구현한 에러은닉 기법을 통해 주관적 화질측면이나 수치적인 PSNR 실험 데이터로 좀 더 향상된 성능을 나타낼 수 있었다.
-
본 논문은 MDC의 전송 중 발생한 에러를 검출하고, 그 에러를 정정하는 알고리즘을 제안한다. 이 알고리즘은 기존의 MDC 와 같이 약간의 redundancy를 가지는 두 개의 sub-bitstream 을 생성하는데, 한쪽 sub-bitstream에 에러가 발생하였을 때, 다른 한쪽의 sub-bitstream을 이용하여, 발생한 비트 에러를 정정한다. 제안된 알고리즘에 대한 BER-SNR실험은 Generalized Gaussian source를 임의적으로 발생시켜서 결과를 얻어내었다. sub-bitstream에서 에러가 발생하였을 때 우리가 제안한 알고리즘은 BER<10/sup -3/에서 기존 알고리즘보다 약 12㏈ 높은 성능을 얻을 수 있었다.
-
The rate control is very important to solve the difficulties arising from bit-rate on transmission through channel and to improve video quality. It is very important to point out that the amount of output bit obtained the encoding process using rate controller brings many problems on the transmission of channels and furthermore output bitstream decoded affects directly on the visual quality of displayed subject. In this paper, the effective rate control algorithm by rate-distortion modeling using MPEG-4 encoder is proposed. The proposed rate control has applied different weighting by VOP prediction type and even in the same VOP prediction type, the predicted reference allocates more bit. Through these bit allocation the minimization of distortion can be achieved preventing propagation of quantization error The amount of saved bitstream obtained by the proposed algorithm in this thesis is allocated to I-VOP using region of interest(ROI) selective enhancement on the next GOV encoding process and this process brought the improvement of visual quality.
-
Terrestrial DMB(Digital Multimedia Broad-casting) system that is now under standardization in Korea offers multimedia broadcasting services at mobile environment and is based on Eureka-147 DAB(Digital Audio Broadcasting) for transmission method. Also DMB provides the error protection method of convolution coding. In this paper, we study on the effective error resilience coding of MPEG-4 video stream over DMB system. In our algorithm, the first, we partition the MPEG-4 data using the MPEG-4 data partitioning method, and then controls the convolution coding rate according to the importance of the partitioned data. From our simulation result, we show that our algorithm is proper for terrestrial DMB services.
-
본 논문에서는 비트율 제어 (rate-control)와 혼잡 제어(congestion-control) 사이의 관계를 고려하여 비디오데이터의 전송량 변화에 따른 화질 증감의 관계를 조사하고, 전송 대역폭의 변화에 대한 화질 열화를 최소화하기 위한 비디오 데이터 전송량의 변화 조건을 제안하고자 한다. 비디오 데이터를 전송하는 경우에 혼잡 제어는 현 채널 상에서 가용 전송 대역폭(Available Transmission Bandwidth)을 예측하고, 비트율 제어는 예측한 전송 대역폭을 비디오 부호화기의 전송 비트율에 적응시킨다. AIMD 기반의 혼잡 제어 기법은 비디오 데이터의 목표 비트율 (target bit rate)을 변화시키게 되고 이러한 결과는 비디오 화질의 잦은 변동으로 인해 나쁜 영향을 준다. 이러한 문제를 해결하기 위해 QP, SNR, 비트량 사이의 관계를 이용한 적응적인 메커니즘을 제안하고자 한다
-
최근 표준화가 완성된 H.264 는 가변 블록 움직임 보상, 복수 참조 영상, 그리고 1/4 화소 움직임 벡터 정확도를 지원하고 있다. 그러나 이러한 새로운 부호화기술은 부호화 효율 향상의 주된 요인이면서, 동시에 높은 복잡도의 요인이기도 하다 따라서 H.264 비디오 표준의 실제 응용 확대를 위해서는 이러한 기술의 속도향상이 필수적이다. [1]에서 제안한 고속 모드 결정법은 조기에 모드 결정을 할 수 있기 때문에, 움직임 벡터 탐색과 비트율-왜곡치 (Rate-Distortion cost) 계산 과정을 효율적으로 생략할 수 있는 방법이다. 하지만 [1]에서 제안된 측정치 r은 주변 블록의 정보를 이용하지 않기 때문에 모드 결정 에러를 좀 더 효과적으로 줄이지 못했다. 본 논문에서는 주변 블록의 정보를 이용하여 [1]의 방법을 개선시킨 것으로 실험 결과 큰 부호화 손실 없이 계산 량 감소에 있어 매우 높은 효율을 제공함을 확인하였다.
-
This paper is studied the high speed processing moving picture encodec to compress and encode a moving picture by real time. This is used the new motion vector search algorithm with smallest search point in H.263 encodec, and is applied the integer DCT for the encodec by converting a moving picture. The integer DCT behaves DCT by the addition operation of the integer using WHT and a integer lifting than conventional DCT that needs the multiplication operation of a floating point number. Therefore, the integer DCT can reduce the operation amount than basis DCT with having an equal PSNR because the multiplication operation of a floating point number does not need.
-
This paper describes an efficient thresholding method for the binarization of a grey-level letter image. This method determines the adaptive threshold for letter image binarization by introducing the readjusting parameter, based on the global variance of the input image. Experimental results show that the proposed binarization method outperforms on the various letter images with a texture or noise when compared to the other methods.
-
본 논문에서는 움직임이 존재하는 부분의 사선 방향 보간 성능을 개선하여 기존의 움직임 적응형 3 차원 순차 주사화 알고리즘 기법을 개선한 순차 주사화 방법을 제안하였다. 움직임 적응형 3 차원 순차 주사화를 위하여 밝기 형태 패턴(brightness profile pattern)을 이용하여 필드간의 움직임 정보를 좀 더 정확하게 추출할 수 있었으며 움직임이 있는 부분의 경우 에지의 방향 정보를 이용하여 사선 방향 보간을 수행함으로써 전체적인 순차 주사 변환 화질을 개선할 수 있었다. 제안된 알고리즘을 하드웨어로 구현하여 다양한 동영상에 대해서 성공적으로 적용됨을 확인하였다.
-
본 논문에서는 MPEG 압축 도메인 상에서 카메라 움직임 정보를 추출하는 효과적인 방법을 제안한다. 카메라 움직임 정보는 동영상에서의 주요 장면과 프레임간의 관계를 기술할 수 있는 실마리를 제공한다. 본 논문에서는 MPEG Video의 모션벡터를 이용하여 카메라 움직임 정보를 추출한다. 카메라 움직임에 따라 모션벡터는 특징적으로 분포하는 특성이 있다. 본 논문에서는 이러한 특징들을 이용하여 MPEG 모션벡터의 방향성과 크기를 이용하여 각 모션벡터끼리 교차점과 평행성분을 구한다. 그리고 이것을 이용하여 같은 교차점과 평행성분끼리 모션벡터 Clustering 을 수행한다 본 논문에서는 클러스터링 된 모션벡터를 Fuzzy inference rule을 이용하여 카메라 움직임이 Zoom, Pan, Tilt 인지 여부를 판단한다. 실험은 전통적인 방법 중에 하나인 Affine Model 방법과 비교하며 본 논문의 방법이 어느정도 우수함을 입증한다.
-
We presents a new algorithm for tracking person in video sequence that integrates the meanshift iteration procedure into the particle filtering. Utilizing the nice property of convergence to the modes in the meanshift iteration we show that only a few sample points are sufficient, while in general the particle filtering requires a large number of sample points. Multi-parts of a person is tracked independently of each other based on the color Then, the similarity against the reference model color and the geometric constraints between multi-parts are reflected as the sample weights. Also presented is the computer simulation results, which show successful tracking even for complex background clutter.
-
In this paper, we propose an algorithm to extract rectangular object area such 3s Data Matrix two-dimensional barcode using edge tracing-based linear feature detection. Hough transform is usually employed to detect lines of edge map. However, it requires parametric image space, and does not find the location of end points of the detected lines. Our algorithm detects end points of the detected lines using edge tracing and extracts object area using its shape information.
-
본 논문에서는 입력 영상의 컬러 정보를 이용함으로써 조명 변화나 얼굴의 자세 변화에 둔감하게 얼굴 정보를 고속 검출하는 알고리듬을 제안하였다 계산복잡도가 작으면서도, 조명의 변화에 민감하지 않은 특성을 가진 NCC (normalized color component) 좌표계에서 정의한 살색에 기반하여 얼굴 후보 영역을 검출하고, 검출된 얼굴 후보 영역 내에서의 눈의 검출에도 색상 분포 특성을 이용함으로써 얼굴의 숙임(nod), 돌림(shake), 기울임(tilt)등에 의한 자세 변화에 대해서도 둔감하게 두 눈의 위치를 고속으로 찾도록 하였다. 특히 집중자(concentrator)를 제안 적용하여 유동적인 눈썹의 영향을 줄이고 눈안의 중심 위치를 찾도록 가중치 눈지도(eye map)를 도입하였다. 제안된 알고리듬이 조명 변화나 얼굴의 다양한 자세 변화가 있는 영상에서 얼굴 후보 영역과 두 눈의 위치를 효과적으로 검출함을 실험을 통해 확인하였다.
-
기존의 객체 추출 및 추적 기법은 외형 변화가 없는 객체를 대상으로 하거나 배경이 고정된 영상만을 고려하였다 본 논문에서는 영역의 색상과 움직임 정보, 그리고 인접한 영역의 상관 관계를 고려한 Markov Random Field (MRF) 모델을 제안한다. MRF 모델은 영상의 시간적 공간적 상관성을 기반으로 최적의 레이블 셋을 계산함으로써 보다 정확하게 객체를 추출 및 추적할 수 있다. 또한, 블록 기반 움직임 추출 알고리즘인 Diamond Search (DS)를 분할된 영역에 적용하여 빠르게 영역의 움직임과 전역 움직임을 추정하였다. 실험 결과 제안한 방법이 객체의 외형 변화와 카메라 움직임이 있는 동영상에서 빠른 속도로 정확하게 객체를 추출 및 추적하는 것을 확인하였다.
-
In this paper, we propose the method Model based Non-Rigid Moving Object Tracking. Motion based method becomes difficult to predict precisely when motion gets larger, so that we can solve such difficultly with regarding the moving object as a model. In the model based method, it should be concerned about setting initial model and updating its model in each frame. We used SNAKE in a way to set the initial model, and also proposed a modified SNAKE to handle the previous SNAKE problems. Moreover, with the elliptical setting, we made the initializing process automatically which is highly subject to change in measuring the performance of SNAKE. We used the Hausdorff distance to identify models in each frame. Through our experiments, our Proposed algorithm does effective work in Non-Rigid Moving Object Tracking.
-
This paper introduces a new local feature extraction method and image matching method for the localization and classification of targets. Proposed method is based on the block-by-block projection associated with directional pattern of blocks. Each pattern has its own eigen-vertors called as CEBs(Classified Eigen-Blocks). Also proposed block-based image matching method is robust to translation and occlusion. Performance of proposed feature extraction and matching method is verified by the face localization and FLIR-vehicle-image classification test.
-
The system for the real time face detection is described in this paper. For face verification, support vector machine (SVM) was utilized. Although SVM performs quit well, SVM has a drawback that the computational cost is high because all pixels in a mask are used as an input feature vector of SVM. To resolve this drawback, a method to reduce the dimension of feature vectors using the integer DCT was proposed. Also for the real time face detection applications, low-complexity methods for face candidate detection in a gray image were used. As a result, the accurate face detection was performed in real time.
-
In this paper, we present a DirectShow-based retrieval and playback subsystem of DVR(Digital Video Recorder), which supports real-time playback of stored video data and synchronized playback among several video channel data. The effectiveness of out proposed design is verified through experiments with a DVR system implementing the proposed design.
-
This paper presents the moving object detection and tracking algorithm using edge information base on human perceptual system The human visual system recognizes shapes and objects easily and rapidly. It's believed that perceptual organization plays on important role in human perception. It presents edge model(GCS) base on extracted feature by perceptual organization principal and extract edge information by definition of the edge model. Through such human perception system I have introduced the technique in which the computers would recognize the moving object from the edge information just like humans would recognize the moving object precisely.
-
This paper suggests user interface method with wearable computer by means of detecting gaze under HMD, head mounted display, environment. System is derived as follows; firstly, calibrate a camera in HMD, which determines geometrical relationship between monitor and captured image. Second, detect the center of pupil using ellipse fitting algorithm and represent a gazing position on the computer screen. If user blinks or stares at a certain position for a while, message is sent to wearable computer. Experimental results show ellipse fitting is robust against glint effects, and detecting error was 6.5%, and 4.25% in vertical and horizontal direction, respectively.
-
We present an efficient algorithm for skew correction of business card images obtained by a PDA camera. The proposed method is composed of four parts: block adaptive binarization (BAB), stripe generation, skew angle calculation, and image rotation. In the BAB, an input image is binarized block by block so as to lessen the effects of irregular illumination and shadows over the input image. In the stripe generation, character string clusters are generated merging character strings and their inter-spaces, and then only clusters useful for skew angle calculation are output as stripes. In the skew angle calculation, the direction angles of the stripes are calculated using their central moments and then the skew angle of the input image is determined averaging the direction angles. In the image rotation, the input image is rotated by the skew angle. Experimental results shows that the proposed method yields correction rates of 97% for business card images.
-
본 논문에서는 고정소수점 DSP로 구현한 실시간 MP3 오디오 부호화기에 사용되는 초월함수용 하드웨어 가속기 구조를 제안한다. 구현된 하드웨어 가속기는 MP3 부호화 성능을 저하시키는 초월함수 연산오차에 강인하도록 설계되었다. 제안된 가속기의 연산오차는 Q1.23 고정소수점 출력에서 2비트, 즉 2/sup -21/ 까지의 연산오차를 가진다. LAME 부호화기[5]심리음향 모델의 SMR 오차는 테이블 보간법[4]을 사용할 경우에 비해 4dB이상 향상되었으며, 연산량은 총 4 MIPS 감소하였다. 제안한 하드웨어 가속기는 Verilog HDL로 기술되었으며, SYNOPSYS에서 0.18㎛ CMOS 표준 셀 라이브러리 공정으로 합성되었다. 합성 면적은 7514 게이트이며 초월함수 연산에 대한 동작속도는 3 사이클이다.
-
본 논문은 FM 라디오 방송중의 오디오 신호를 블록단위로 음악 및 음성을 검출하는 알고리즘에 대한 것으로, 이를 기반으로 방송중의 노래(가요, 팝, 클래식‥‥)만을 자동으로 인식하여 녹음하는 알고리즘을 개발한다. 본 논문에서는 기존에 제안되었던 것[1-4]과 같이 단지 음악과 음성을 구분함과 동시에 음악구간의 논리적 조합으로 이루어진 노래를 자동으로 인식하여 녹음하는 것을 알고리즘의 최종 목표로 한다. 알고리즘의 접근 역시 기존의 음소단위의 모델링을 거치는 GMM 기반의 접근이 아니기 때문에 모델링에 대한 훈련과정이 필요 없고, 시간영역에서의 오디오신호가 가지고 있는 직관적인 특징을 분석함으로써 비교적 적은 연산으로 실시간 구현이 가능하다.
-
최근 게임, 멀티미디어 콘텐츠, 가상현실 둥을 제공하는 멀티미디어 장치에서 2 개의 스피커나 헤드폰을 이용하여 3 차원 입체 음향효과를 내고자 하는 가상 입체음향 기법에 관한 연구가 많이 이루어지고 있다 가상 입체음향 기법 중 다채널 입체음향을 이용하여 입체음향효과를 가진 2 채널 출력을 구성하는 방식의 대표적인 것으로는 입체음향 정위효과를 내는 HRTF(Head Related Transfer Function)이 있다. 그러나 이 방법은 전달함수와 입력 신호의 컨볼루션(Convolution)방법을 이용함으로써 계산량이 복잡하여 실시간 구현에 많은 제약을 주고 있다. 본 논문에서는 다채널 입력으로 현재의 DVD, HDTV 등에서 사용되는 Dolby-Digital 복호화기를 사용하여 입체음향 시스템을 구현할 경우 가상입체음향 신호처리에 사용되는 HRTF 계수를 MDCT 계수로 구성하여 이를 통한 가상입체음향 신호처리방식의 계산량 감소방법에 대하여 설명하고 있다.
-
Objective quality measurement schemes that incorporate properties of the human auditory system. The basilar membrane (BM) acts as a spectrum analyzer, spatially decomposing the signal into frequency components. Filterbanks were used to complementing the linearity of BM. Each filterbank is an implementation or the Equivalent rectangular Bandwidth (ERB), gammachirp function. This filterbank is level-dependent asymmetric compensation filters. And for the validation of the auditory model, we calculate the calculated perceived difference(CPD).
-
In this paper, we present our experiences in designing and implementing a CX23880 based multichannel video/audio capture device. We try to clarify differences between CX2388x family and 878A, the previous version of Cx2388x, and what one needs to be careful about in developing device drivers for CX2388x based video/audio devices. Our work is expected to help one who will need to develop Cx2388x based video/audio device later.
-
Divine bell of king Songdok(3.663m of the height, 2.227m of the diameter, 18,900kg of the weight, 7.7-21.5mm of the thickness), known as the bell of Emille which has been molded in 771 year to the illustrious memory of King Songdok for 34 years is one of culture heritages in the world. Even though the appearance of bell is very beautiful, also the sound of bell was appeared miraculous characteristics of shaking the sky, earth and human. The bell of Emille caused by discontinuous sound in maintaining continuous, strongly emotional sound and moving the mind of human etc, is appeared the 'Macnorlee' phenomenon which having the discontinuous sound in maintaining continuous. So far, it has reasoned out the phenomenon of the bell of Emille. but it was first proved a realized a baby-boiling sound about the bell of Emille according to the comparison and analysis. In this study of bell, we proposed improvement and device of the wooden parts beating the bell why a baby-boiling sound was not heard well as before.
-
Thoracic sound has been widely known as a good method to examine thoracic disease. But, it's difficult to diagnose with correct data according to patient's thoracic position from same patient who has thoracic disease. Therefore, it is necessary to normalize the data for lung sound objectively In this paper, we'd like to detect a useful data for medical examination by applying PCA(Principal Component Analysis) to thoracic sound data and then present a objective data about lung and heart sound for thoracic disease.
-
본 논문에서는 FPGA를 기반으로 하는 DFT 연산알고리즘을 적용한 다채널 위상 및 HDR(Harmonic Distortion Ratio) 측정 시스템을 설계하였다. DFT 연산 알고리즘은 많은 연산량이 요구되는데, 기존에는 고가의 DSP 프로세서를 사용하여 소프트웨어적으로 처리하였지만, FPGA를 기반으로 하는 전용의 하드웨어로 구현할 경우 DSP의 연산량에 대한 부담을 감소시킬 수 있다. DFT 연산 알고리즘은 전용 ASIC으로 구현 시 경제성을 고려하기 위해서 곱셈기 공유 구조를 적용하고, 효과적인 시스템 Integration울 위해서 범용인터페이스 방식을 채택하고 이렇게 설계한 시스템을 실제 다채널 톤 신호를 입력으로 하는 동작 시험을 통하여 검증하였다.
-
In this paper we propose effective speech recognizer through recognition experiments for three feature parameters(PCA, ICA and MFCC) using SVM(Support Vector Machine) classifier In general, SVM is classification method which classify two class set by finding voluntary nonlinear boundary in vector space and possesses high classification performance under few training data number. In this paper we compare recognition result for each feature parameter and propose ICA feature as the most effective parameter
-
PC용 멀티미디어 스피커는 일반 오디오 스피커에 비해 공간상의 제약을 많이 받기 때문에 최적의 설치가 어렵고 따라서 제 성능을 발휘하기 어렵다 본 논문에서는 설치 장소 및 위치에 구애받지 않고 쾌적한 음악감상을 할 수 있는 PC용 무방향성 스피커 시스템을 설계 및 구현하였으며 성능평가에 대해 연구하였다.
-
본 논문에서는 DC 억압능력이 없거나 부족한 코드에 만족할 만한 DC 억압능력을 갖도록 하기 위한 멀티모드코드 방식을 제안한다. 제안한 멀티모드코드는 데이터열의 다중화를 위해 Pseudo Scrambling Technique를 사용하며, 다중화 된 데이터열의 변조를 위해 DC-free RLL(d, k) Code를 사용하는 특징을 가진다. 제안한 방법에서는 Sync 코드워드의 패리티를 다중화 정보로 사용하여 입력데이터를 2개의 데이터 열로 다중화하고, 2개로 다중화 된 데이터 열에 대해 DC-free RLL(d, k) Code를 사용하여 코드워드로 변환하며, 코드워드로 변환된 2 개의 코드워드 열에 대해 DC 성분이 적은 코드워드 열 하나를 선택하여 변조 스트림으로 출력한다. 본 논문에서는 Sync 코드워드의 패리티를 다중화 정보로 사용하여 별도의 Redundancy를 부가하지 않고 DC 억압성능을 향상시킬 수 있었다.
-
본 논문에서는 적은 계산량을 갖는 Fast Kalman/LMS 복합 구조 등화기를 제안한다. HDTV (High Definition Television)의 채널은 긴 지연을 가지는 다중경로가 존재하기 때문에 등화기에 많은 수의 탭이 필요하다. 그러나 실제로 다중경로에 영향을 받는 심볼은 몇 개의 탭에 의해서만 발생한다 본 논문에서는 훈련기간 초기에 Fast Kalman 알고리즘을 이용하여 MSE(Mean Squared Error) 값이 특정 임계치 이하가 될 때까지 빠르게 수렴을 시키고, 심볼들에 영향을 주지 않는 탭을 제외한 나머지 탭만을 LMS (Least Mean Squre) 알고리즘으로 갱신시킴으로써 계산량을 줄이는 새로운 방법을 제안한다. 시뮬레이션 결과 제안한 방법이 기존의 Fast Kalman/LMS 복합 구조에 비해 적은 계산량으로 비슷한 수렴 속도와 MSE를 갖는 것을 보여준다.
-
본 논문에서는 광 디스크의 기록 밀도 증가에 따른 신호품질의 열화나 노이즈가 심한 환경에서 DPLL(Digital Phase Locked Loop)의 성능을 개선하기 위한 FD(Frequency Detector)와 PD(Phase Detector) 알고리즘을 제안한다. 제안된 PD 알고리즘은 노이즈에 의해 왜곡되어 RLL 조건을 위배하는 입력신호, 즉 RLL 조건에 의해 결정되는 최소 런 길이보다 주기가 작은 신호에 의해 발생하는 위상오차를 위상오차 보정 시 사용하지 않도록 설계하여 잘못된 정보에 의한 위상오차 보정이 일어나지 않도록 하였다 제안된 FD 알고리즘은 주파수를 추적하기 위해 삽입되는 신호인 Sync 신호의 symmetry 특성을 이용하여 샘플패턴을 검출하도록 하여 기존의 주파수 오차 보정 알고리즘보다 향상된 주파수 추적 성능을 가지도록 하였다.
-
Quantizers for digital coding systems are usually optimized with respect to a model of the probability density function of the random variable to be quantized. Thus a mismatch of the quantizer relative to the actual statistics of the random variable may be unavoidable. This paper presents the results of an experimental investigation of mismatched quantizers. For the modeling of the source statistics, various types of the Weibull distribution are used, and the optimization of the quantizer is carried with respect to the minimum mean-square error (mse) criterion. The goal of this paper is to find an estimate formula for the mismatched quantizer on Weibull sources.
-
이 논문에서는 라플라스 밀도함수에 대한 최적 홑양자기 지지역은 양자점의 개수와 로그선형 관계가 있음을 증명한다. 그리고, 극상한값을 유도하여 최적 지지역의 로그선형 증가가 어떤 상수값을 초과하지 않음을 증명한다. 이 결과들로부터, 학계에 경험적으로 알려져 왔던 최적 지지역의 로그선형 증가를 증명한다.
-
This parer proposes a power-line phase measurement algorithm which is based on the recursive implementation of sliding-DFT. Usage of the single DFT coefficient in the conventional sliding-DFT based power-line phase measurement brings a significant error propagation when implemented in hardware with finite word-length arithmetic operations. The proposed algorithm utilizes all the N-point DFT coefficients in the recursion. Performance degradation caused by the finite word- length implementation of the algorithm is analyzed and verified with computer simulations. The robustness of the proposed phase measurement algorithm against the erroneous implementation is also confirmed by the performance analysis and simulation.
-
With the development of digital signal processor(DSP), digital pulse compressor (DPC) is commonly used in radar systems. A DPC is implemented by using finite impulse response(FIR) filter algorithm in time domain or fast Fourier transform(FFT) algorithm in frequency domain. This paper compares the computation complexity tot these two methods and calculates boundary Fm filter taps that determine which of the two methods is better based on computation amount. Also, it shows that the boundary FIR filter taps for DSP, ADSP21060, and those for computation complexity have similar characteristic.
-
In an active noise control(ANC) system using the Filtered-X least mean square(LMS) algorithm, the online secondary path modeling method by exploiting a random noise generator is applied. This method is suitable for secondary path modeling. However, it is increased the residual error of the ANC system. In this paper, we presents an ANC system improved online secondary path modeling method which is modified Kuo and Zhang model that is the secondary path estimation by the additive noise. In addition, our proposed model is used that additive noise is transformed into the signal multiplied reference signal by gain control parameter and delayed.
-
본 논문은 LMS 적응 필터의 수렴성능의 향상을 위한 새로운 적응신호처리 기법을 제안한다. 기존의 LMS 알고리즘의 문제점으로는 수렴특성이 입력 벡터의 자기 상관행렬의 고유치 분포에 영향을 받는다는 점이다. 본 논문은 두 선행처리 기법, 즉, 직교 변환에 의한 선행처리 기법과 split filter 구조 필터링 기법을 결합하여 보다 개선된 수렴특성을 갖는 적응신호처리 기법을 제안한다.
-
In this paper, a variable bandwidth filter(VBF) is realized with the purpose of the decomposition of speech signals with time-varying instantaneous of frequencies. The proposed VBF can extract AM-FM components of a speech signal whose time-frequency representations(TFRs) are not overlapped in time-frequency domain
-
In this paper, we proposed speech feature vector extractor for embedded system using TMS 320C31 DSP chip. For this extractor, we used algorithm using cepstrum coefficient based on LPC(Linear Predictive Coding) that is reliable algorithm to be is widely used for speech recognition. This system extract the speech feature vector in real time, so is used the mobile system, such as cellular phones, PDA, electronic note, and so on, implemented speech recognition.
-
Accurate speech region detection and automatic syllable segmentation is important part of speech recognition system. In automatic speech recognition system, they are needed for the purpose of accurate recognition and less computational complexity, In this paper, we Propose improved syllable segmentation method using ramp edge detection method and residual signal Peak energy. These methods were used to ensure accuracy and robustness for endpoint detection and syllable segmentation system. They have almost invariant response to various background noise levels. As experimental results, we obtained the rate of 90.7% accuracy in syllable segmentation in a condition of accurate endpoint detection environments.
-
In this paper we used Support Vector Machines(SVMs) recently proposed as the loaming method, one of Artificial Neural Network, to divide continuous speech into phonemes, an initial, medial, and final sound, and then, performed continuous speech recognition from it. Decision boundary of phoneme is determined by algorithm with maximum frequency in a short interval. Recognition process is performed by Continuous Hidden Markov Model(CHMM), and we compared it with another phoneme divided by eye-measurement. From experiment we confirmed that the method, SVMs, we proposed is more effective in an initial sound than Gaussian Mixture Models(GMMs).
-
본 논문에서는 비동기식 3 세대 이동통신망인 WCDMA의 표준 음성 부호화기인 AMR(Adaptive Multi-Rate)[1]과 VoIP(Voice over Internet Protocol) 응용분야에 최근 널리 활용되고 있는 ITU-T 8kbit/s 0.729A[2]의 효율적인 연동을 위한 상호부호화(transcoding) 알고리듬을 제안한다. AMR은 통신 채널 환경에 따라 4.75kbit/s부터 12.2kbit/s까지 가변 하여 통화품질을 보장한다. 따라서, 제안된 상호부호화 알고리듬은 순방향 8 모드, 역방향 8모드를 합하여 총 16모드를 지원한다. 제안된 알고리듬의 성능 평가를 위해 지연 추정, 연산량 측정과 주/객관적 음질평가를 수행한 결과, 제안한 알고리듬은 기존의 tandem보다 최소 5㎳의 짧은 지연, 평균 50.2%의 적은 연산량으로 우수한 음질의 복호화 음성 신호를 제공함을 확인하였다.
-
In this paper, a transcoding algorithm for the Selectable Mode Vocoder (SMV) and the G.723.1 speech coder via direct parameter transformation is proposed. In contrast to the conventional tandem transcoding algorithm, the proposed algorithm converts the parameters of one coder to the Other Without going through the decoding md encoding process. The proposed algorithm is composed of four parts: the parameter decoding, line spectral pair (LSP) conversion, pitch period conversion, excitation conversion and rate selection. The evaluation results show that the proposed algorithm achieves equivalent speech quality to that of tandem transcoding with reduced computational complexity and delay.
-
In speech communication systems where two different speech codecs are interoperated, transcoding algorithm is a good approach because of its low complexity and improved synthesized speech quality. This paper proposes an efficient method to further improve the performance of transcoding algorithms as well as to reduce the complexity. In the conventional transcoding algorithms. a post-filter and a perceptual weighting filter should be operated sequentially because both decoding and encoding processes are needed. This results in the redundancy of the processing in terms of complexity and perceptual quality. Using the fact that their filter structures are similar, we replaced the two filters with one. The proposed algorithm requires 72.8% lower complexity than the conventional transcoding algorithm when we compare only the complexity of the filtering processes. The results of both objective and subjective tests verify that the proposed algorithm has slightly better quality than the conventional one.
-
본 논문에서는 G.729A 와 SMV 음성 부호화기를 위한 새로운 파라미터 직접 변환 방식의 상호 부호화 알고리즘을 제안한다. 상호 부호화를 위하여 부가적인 복호화, 부호화 과정을 거쳐야하는 기존의 tandem 방식과 달리 제안된 파라미터 직접 변환 방식에서는 양 음성부호화기에서 공통적으로 사용하는 파라미터들이 직접 변환된다. SMV에서 G.729A로의 상호 부호화에서는 LSP 변환, 피치 지연 변환, 낮은 전송률에서의 상호 부호화 둥의 알고리즘을 제안하고, G.729A에서 SMV로의 상호 부호화에서는 LSP 변환, 피치 지연 변환, 전송률 결정 등의 알고리즘을 제안한다. 제안된 알고리즘을 다양한 방법으로 평가해본 결과 기존의 tandem 방식과 비교하여 계산량과 지연 시간을 줄이면서도 동등한 음질 또는 향상된 음질을 구현함을 확인할 수 있었다.
-
디지털 방송의 발달과 인터넷의 사용증가로 인해 멀티미디어 데이터가 기하급수적으로 증가하고 있다. 본 논문에서는 디지털 데이터의 쟁점 중 하나인 불법복제로부터 저작권을 보호하기 위한 비디오 워터마킹 방법을 제안한다. 하드디스크를 내장한 디지털 방송 수신기에 복사 방지를 위한 복사제어 정보를 장면단위로 영상의 복잡도와 움직임 벡터의 크기를 고려하여 워터마크의 형태로 삽입한다. 즉, 복잡한 장면에 대해서는 강도를 강하게 삽입하고 단순한 장면에 대해서는 강도를 약하게 삽입함으로써 워터마크의 비가시성과 강인성을 동시에 만족할 수 있다.
-
In this paper. we present a new speech recognition system using DSP chip. DSP chip used TMS320c6711 of TI. We designed hardware system including acoustic model, word list and code book in flash memory. The word candidates are recognized based on CV, VCCV, and VC units HMM. This system can be applied to various electric & electronic devices: home automation, robotics etc.
-
In this paper, we present a method which can minimize distortion from desired signal in thoracic sound signal processing. We firstly chose the proper wavelet mother function to reduce noise components. Secondly, we chose a clean thoracic sound, then added Gaussian noise and 3 step(10, 15, 20db) uniform noise to it. Finally, the various wavelet functions are applied for noise cancellation. To evaluate the efficiency of this study, we computed SNR and RSE value. Then we found the optimal mother wavelet function for thoracic sound.
-
Communication between speech networks employing different speech codecs requires interoperability. The cascade connection of two different codecs, called tandem coding, not only degrades speech quality, but also produces high computational loads. These Problems can be solved by using the transcoding algorithm. This paper presents an effective algorithm for transcoding from G.729A to EVRC and its simulation results.
-
인간과 인공생명체(Artificial Life Systems)가 서로 커뮤니케이션을 진행하기 위하여 인공생명체는 자신이 의도한 바를 음성, 표정, 행동 등 다양한 방식을 통하여 표현할 수 있어야 한다. 특히 자신의 좋아함과 싫음 등 자율적인 감정을 표현할 수 있는 것은 인공생명체가 더욱 지능적이고 실제 생명체의 특성을 가지게 되는 중요한 전제조건이기도 하다. 위에서 언급한 인공생명체의 감정표현 특성을 구현하기 위하여 본 논문에서는 음성 속에 감정을 포함시키는 방법을 제안한다. 먼저 인간의 감정표현 음성데이터를 실제로 구축하고 이러한 음성데이터에서 감정을 표현하는데 사용되는 에너지, 지속시간, 피치(pitch) 등 특징을 추출한 후, 일반적인 음성에 위 과정에서 추출한 감정표현 특징을 적용하였으며 부가적인 주파수대역 필터링을 통해 기쁨, 슬픔, 화남, 두려움, 혐오, 놀람 등 6가지 감정을 표현할 수 있게 하였다. 감정표현을 위한 음성처리 알고리즘은 현재 음성합성에서 가장 널리 사용되고 있는 TD-PSOLA[1] 방법을 사용하였다.
-
This paper describes visual tracking procedure of the underwater mobile robot for nuclear reactor vessel inspection, which is required to find the foreign objects such as loose parts. The yellowish underwater robot body tend to present a big contrast to boron solute cold water of nuclear reactor vessel, tinged with indigo by Cerenkov effect. In this paper, we have found and tracked the positions of underwater mobile robot using the two color informations, yellow and indigo. The center coordinates extraction procedures is as follows. The first step is to segment the underwater robot body to cold water with indigo background. From the RGB color components of the entire monitoring image taken with the color CCD camera, we have selected the red color component. In the selected red image, we extracted the positions of the underwater mobile robot using the following process sequences: binarization labelling, and centroid extraction techniques. In the experiment carried out at the Youngkwang unit 5 nuclear reactor vessel, we have tracked the center positions of the underwater robot submerged near the cold leg and the hot leg way, which is fathomed to 10m deep in depth.
-
Three-dimensional face recognition algorithm using curvature information representing characteristics of surface form is suggested. The experiment showed more than 90 percent of recognition for the noses which had definite change value of data, and contained much information about surface curvature. Recognition ratio using a contour taken from the remaining part other than the eyes, noses, mouths which are the main components of faces showed the important role, which could be used as the important index information in the three-dimensional face recognition.
-
This paper has been studied to implement MQ encoder in JPEG2000 on FPGA. In the JPEG2000 architecture, Each of coding passes collects contextual information about the bit-plane data. An MQ coder uses contextual information and its internal state to decode a compressed bit-stream. This paper draws up JPEG2000 Standard Part 1: FCD 15444-1 It is simulated with Modelsim and tested with JBIG2 data.
-
본 논문에서는 MPEG-7 서술자들을 이용하여 효과적인 샷 경계 검출을 수행하는 방법에 대하여 제안한다. 기존의 샷 경계를 분석하는 방법은 기본적으로 각 프레임의 특징을 추출하여 거리 비교를 통하여 샷을 검출한다. 그러나 이러한 샷 검출은 각 프레임에서의 한가지 특징만을 이용하여 샷 경계를 찾기 때문에 샷의 변화와 프레임에 대한 특징 값의 변화가 일치하지 않는 경우 문제점이 발생된다 이러한 문제점을 해결하기 위하여 MPEG-7 표준을 통하여 그 성능이 증명된 다양한 특징들을 동시에 이용하여 정확한 샷 경계를 추출하는 방법을 제안한다. 실험결과 제안한 방법은 급격한 샷 변화와 점진적인 샷 변화를 동시에 검출하고 플레쉬와 같은 비디오의 순간적인 변화에 강인하였다.
-
In this paper, we propose a visual inspection algorithm to detect can print-errors by using multi-camera and image valuing algorithm. The features of the algorithm are to use four cameras that are arranged with 90
$^{\circ}$ between each other and to adopt a synthesized image model which represents whole surface of a can. Using the model, detection process is straight forward, namely it is comparing a partial region of the can to a specific region of the model where is previously marked. -
This paper is research to control method between wireless LCD TV and Set-Top-Box. Audio and Video signal control of wireless LCD TV through Set-Top-Box, usually two systems fairly be away, there is weakness that must go to set-top-box for operation. In this paper design and manufacture to solve this weakness.
-
This paper has expressed human's motion data into orthogonal parameters in low dimension, and created new motion data through this. We have reconstructed a new model consisting of orthogonal parameters from dividing human body data into three parts - hand, leg, and body to make new motions. Mixing these parts of body from different motions has leaded to new good motion data. It will be possible to use this motion editing not only for Animation Technology, but also for a three dimensional gesture recognition skill.
-
In this paper, an image vector quantization method is proposed not only to improve the compression ratio but also to reduce the computation cost. The proposed method could save the computation cost of codebook generation and encoding by using the modified LBG algorithm of Partial Search Partial Distortion (PSPD) in wavelet domain, by which the code book was constructed together with the partial codebook search, the partial code vector elements, and the interruption criterion. We have designed and implemented the vector quantizer to verify the improvement in reducing compression ratio in encoding processing and reducing the computation cost.
-
본 논문에서는 손목이나 손바닥 아래에 부착된 PC카메라와 두 개의 광원을 이용한 데이터 글러브 구현 방법을 제안한다 기존의 데이터 글러브 방식은 글러브를 손에 착용하여야 하는 단점이 있으며 영상처리 기반의 HCI 방법 또한 공간상에 고정된 카메라를 이용함으로써 웨어러블 컴퓨팅이나 모바일 환경하에서는 사용할 수 없다. 이 문제를 해결하기 위해 본 논문은 착용 가능한 한대의 카메라와 두 개의 평행 광을 사용하여 손 모양을 입력하는 방법을 제안하였다. 또한 손 영상을 제외한 배경영상을 이용하여 손의 변위를 얻어낼 수 있는 방법을 제안한다. 제안된 방법을 구현한 "BareHand 1.0"과 테스트 결과에 대해서도 논하였다.
-
The correspondence problem for stereo image matching plays an important role in expanding view points as multi view video applications become more popular. The conventional disparity estimation algorithms have limitation to find exact disparities because they consider not image features but similiar intensity points. Thus we propose an efficient disparity estimation algorithm considering features of stereo image pairs. As simulation results, our proposed method confirms better intermediate views than the existing block-matching methods.
-
본 논문은 영상내의 중요한 특징인 에지와 영역을 동시에 고려한 상호 보완적인 영상분할 기법을 제안한다. 에지 또는 영역에 기반한 기법은 서로 상반된 관점의 접근방식으로 에지의 국부적인 특성 또는 영역의 전 역적인 특성에 기반을 두고 있는 반면에. 제안한 하이브리드 기법은 에지 및 영역의 순차적 확장을 통해 이 두 가지 특성을 동시에 고려하고 있다 에지는 에지 검출기로부터 얻은 그래디언트의 임계값을 통해 확장해가며 영역은 Watershed 변환으로부터 얻은 초기분할의 영역간 유사성 및 경계선 길이를 이용해서 확장해 간다. 실험에서, 에지와 영역의 상호작용을 고려하지 알은 개별적인 기법들과 비교함으로써 제안한 알고리즘의 효과성을 확인할 수 있었다.
-
The Wavelet Transform providing both of the frequency and time information of an image is proved to be very much effective for the compression of images, and recently lot of studies on coding algorithms for images decomposed by the wavelet transform together with the multiresolution theory are going on. This paper proposes a Quadtree decompositon method of image compression applied to the images decomposed by wavelet transform by using the correlations between pixels .Since the coefficients obtained by the wavelet transform have high correlations between scales, the Quadtree method can reduce the data quantity effectively The experimental image with 256
${\times}$ 256 size was used to compare the Performances of the existing and the proposed compression methods. -
In this paper, a method for face recognition based on the wavelet packet decomposition is proposed. In the proposed method, the input image is decomposed by the 2-level wavelet packet transformation and then the face areas are defined by the Integral Projection technique applied to each of the 1-level subband images, HL and LH. After the defined face areas are divided into three areas, called top, bottom, and border, the mean and the variance of the three areas of the approximation image are computed, and the variance of the single predetermined face area for the rest of 15 detail images, from which the feature vectors of statistical measure are extracted. In this paper we use the wavelet packet decomposition, a generalization of the classical wavelet decomposition, to obtain its richer signal analysis features such as discontinuity in higher derivatives, self-similarity, etc. And we have shown that even with very simple statistical features such as mean values and variance we can make an excellent basis for face classification, if an appropriate probability distance is used.
-
In this paper, the embedded zero-tree wavelet image compression method using multi- threshold is proposed, which can reduce the scanning and symbol redundancy of the existing embedded zero-tree wavelet (EZW) method and enable more efficient coding. In the proposed scheme, a multi-threshold is constructed with the maximum absolute values from each subband decomposed by the wavelet transforms of the input image data. The multi-threshold values are compared with the threshold value T
$_1$ in each pass in Successive Approximation Quantization (SAQ) to select the significant subbands, which are only used for the subsequent coding processes, therefore, can reduce the coding redundancy in the existing EZW. By the experimental results, it is verified that the proposed multi-threshold EZW method shows superior performances to the existing EZW method. -
The Wavelet Transform has been applied in mathematics and computer sciences. Numerous studies have proven its advantages in image processing and data compression, and have made it a basic encoding technique in data compression standards like JPEG2000 and MPEG-4. Software implementations of the Discrete Wavelet Transform (DWT) appears to be the performance bottleneck in real-time systems in terms of performance. And hardware implementations are not flexible. Therefore, FPGA implementations of the DWT has been a topic of recent research. The goal of this thesis is to investigate of FPGA implementations of the DWT Processor for image compression applications. The DWT processor design is based on the Lifting Based Wavelet Transform Scheme, which is a fast implementation of the DWT The design uses various techniques. The DWT Processor was simulated and implemented in a FLEX FPGA platform of Altera
-
We propose ROI(region of interest) image coding application to still image using PSBS(partial significant bitplane shift)method combined with human face region detecting system. PSBS is an encoding algorithm for ROI image coding in JPEG2000, and takes advantages of both generic scaling based method and maximum shift method defined in JPEG2000. The Powerful advantages of PSBS are able to adjusting image quality in ROI and background flexibly, and support arbitrarily shaped ROI coding without coding the shape. In this letter, we show how to compress an image for human face region using PSBS method combined with human face region detecting system, and propose its application.
-
Theoretical analysis of the depth measurement system with the use of a single camera and a rotating mirror has hem done. A camera in front of a rotating mirror acquires a sequence of reflected images, from which depth information is extracted. For an object pint at a longer distance, the corresponding pixel in the sequence of images moves at a higher speed. In this paper, the principle d the depth measurement-based on the relation of the pixel movement speed and the depth of objects have been investigated. Also, necessary mathematics to implement the technique is derived and presented. The factors affecting the measurement precision have been studied Analysis shows that the measurement m increases with the increase of depth. The rotational angle of the mirror between two image-takings also affects the measurement precision. Experimental results using the real camera-mirror setup are reported.
-
This paper deals with face detection and recognition using ellipsodal information and wavelet packet analysis. We proposed two methods. First, Face detection method uses general ellipsodal information of human face contour and we find eye position on wavelet transformed face images A novel method for recognition of views of human faces under roughly constant illumination is presented. Second, The proposed Face recognition scheme is based on the analysis of a wavelet packet decomposition of the face images. Each face image is first located and then, described by a subset of band filtered images containing wavelet coefficients. From these wavelet coefficients, which characterize the face texture, the Euclidian distance can be used in order to classify the face feature vectors into person classes. Experimental results are presented using images from the FERET and the MIT FACES databases. The efficiency of the proposed approach is analyzed according to the FERET evaluation procedure and by comparing our results with those obtained using the well-known Eigenfaces method. The proposed system achieved an rate of 97%(MIT data), 95.8%(FERET databace)
-
Generally, skin color information has been widely used at the face region extraction step of the face region recognition process. But many experimental results show that they are very sensitive to the given threshold range which is used to extract the face regions at the input image. In this paper, we propose a face region extraction algorithm based on an adaptive range decision for skin color. First we extract the pixels which are regarded as the candidate skin color pixels by using the given range for skin color extraction. Then, the ratio between the total pixels and the extracted pixels is calculated. According to the ratio, we adaptively decide the range of the skin color and extract face region. From the experiment results for the various images, the proposed algorithm shows more accurate results than the conventional algorithm.
-
This paper presents a real-time PCB (Printed Circuit Board) vision inspection system. This system can detect the OPEN and SHORT of the PCB which of the line width is 150
$\mu\textrm{m}$ . Our PCB inspection system is based on the referential method. Since the size of the captured PCB image is very large, the image is divided into 512${\times}$ 512 images to apply the accurate alignment efficiently. To correct the misalignment between the reference image and the inspection image, pattern matching is performed. In order to implement the proposed algorithm in real-time, we use the SIMD instruction and the double buffering structures. Our experiential results show the effectiveness of the developed inspection algorithm. -
The spatial resolution of multispectral images can be improved by merging them with higher resolution image data. A fundamental problem frequently occurred in existing fusion processes, is the distortion of spectral information. This paper presents a spatially adaptive image fusion algorithm which produces visually natural images and retains the quality of local spectral information as well. High frequency information of the high resolution image to be inserted to the resampled multispectral images is controlled by adaptive gains to incorporate the difference of local spectral characteristics between the high and the low resolution images into the fusion. Each gain is estimated to minimize the l
$_2$ -norm of the error between the original and the estimated pixel values defined in a spatially adaptive window of which the weight are proportional to the spectral correlation measurements of the corresponding regions. This method is applied to a set of co-registered Landsat7 ETM+ panchromatic and multispectral image data. -
본 논문에서는 디스플레이 장치의 색 재현에 있어서 인간의 시각 특성에 의해 얻어진 Munsell 계의 등색상 및 등채도 궤적을 고려한 색 재현 방법을 제시하였다. 이 방법에서는 먼저 TV 신호 상에서 등위상의 색에 대한 궤적과 인간의 시각 특성에 의해 얻어진 Munsell 계의 등색상 궤적을 비교 분석하였다. 그리고 비표준 디스플레이의 색 재현 영역이 표준 디스플레이의 것과 다를 때도 W표준 신호와 동일한 색상을 갖는 색 좌표를 Munsell 계의 등색상 궤적상에서 구하여 이 색이 재현될 수 있도록 하였다 따라서 표준 디스플레이와 다른 색재현 영역을 가지는 일반 디스플레이에서도 표준의 것과 같은 느낌을 가지는 등색상 재현이 가능하다. 색 재현 성능을 평가를 위해 Macbeth colorchecker colors의 18 종류의 컬러를 사용한 결과. 색 재현 오차 ΔE'/sub uv/가 기존 방법의 오차보다 작아짐을 확인하였다. 또한, 주관적인 평가에서도 보다 자연스런 색 재현이 되고 있음을 확인하였다.
-
A new transform coder for arbitrarily shaped image segments is proposed. In the encoder, a block-based DCT is applied to the resulting image block after shifting pixels within the image segment to block border and padding the mean value of the pixels to empty region. For reducing the transmission bit rate, the transform coefficients located in padded region are truncated and only the remaining transform coefficients are transmitted to the decoder. In the decoder, the transform coefficients truncated in the encoder are recovered using received transform coefficients and a block-based inverse DCT is performed.
-
The purpose of this paper is to investigate two major feature extraction techniques based on generic modular face recognition system. Detailed algorithms are described for principal component analysis (PCA) and independent component analysis (ICA). PCA and ICA ate statistical techniques for feature extraction and their incorporation into a face recognition system requires numerous design decisions. We explicitly state the design decisions by introducing a modular-based face recognition system since some of these decision are not documented in the literature. We explored different implementations of each module, and evaluate the statistical feature extraction algorithms based on the FERET performance evaluation protocol (the de facto standard method for evaluating face recognition algorithms). In this paper, we perform two experiments. In the first experiment, we report performance results on the FERET database based on PCA. In the second experiment, we examine performance variations based on ICA feature extraction algorithm. The experimental results are reported using four different categories of image sets including front, lighting, and duplicate images.
-
본 논문에서는 효과적으로 블록 크기를 변화시키는 움직임 예측에 대하여 제시하고 있다 블록안의 움직임의 정도에 따라 블록 크기를 채택하는 방식으로, 임의의 프레임에서의 블록의 수는 정확한 움직임을 나타내기 위해 변화된다. 이것은 움직임과 보충적인 데이터사이의 비트할당이 가변적이 되고, 프레임에 기초한 전체적인 비트율 역시 변화하게 된다. 특히, 본 논문은 동적 블록 크기 방법의 대표적인 쿼드 트리(quad fee) 방법의 단점을 보완하는 방향에서 연구되었으며, 성능 향상을 위한 새로운 방법도 아울러 덧붙여져 있다. 즉, 보통 사용하는 쿼드 트리 방식의 분할 대신에 각각의 쿼드 부분의 프레임 차를 이용하여 가장 큰 블록의 동질성 테스트를 실시하여 분할한다. 또한, 분할과 재결합 방식을 함께 적용하여 불필요한 블록의 개수가 많아지는 것을 방지하여, 큰 계산량 감소와 높은 이미지 질을 달성하도록 하였다. 자연히, 계산량은 기존 방법보다 약 20-70% 정도 감소했으며, 이미지 질도 크게 향상되는 결과를 가져오게 되었다
-
With the increasing use of multimedia technologies, image compression requires higher performance as well as new features such as embedded Tossy to lossless coding, various progressive order, error resilience and region-of-interest coding. In the specific area of still image encoding, a new standard, the JPEG2000, has been currently developed. This paper presents a new compression scheme based on JPEG2000. In the proposed scheme, gray coding is applied to the wavelet coefficient. Since gray coding produces an image whose bit plane is will clustered. The proposed method improves compression efficiency of the JPEG2000.
-
A fast pattern classification algorithm with Cellular Parallel Processing Network-based dynamic programming is proposed. The Cellular Parallel Processing Networks is an analog parallel processing architecture and the dynamic programming is an efficient computation algorithm for optimization problem. Combining merits of these two technologies, fast Pattern classification with optimization is formed. On such CPPN-based dynamic programming, if exemplars and test patterns are presented as the goals and the start positions, respectively, the optimal paths from test patterns to their closest exemplars are found. Such paths are utilized as aggregating keys for the classification. The pattern classification is performed well regardless of degree of the nonlinearity in class borders.
-
In transmitting compressed video bit-stream over Internet, packet loss causes error propagation in both spatial and temporal domain, which in turn leads to severe degradation in image qualify In this paper, a new approach for the recovery of lost or erroneous Motion Vector(MV)s by clustering the movements of neighboring blocks by their homogeneity is proposed. MVs of neighboring blocks are clustered according to ALA(Average Linkage Algorithm) clustering and a representative value for each cluster is determined to obtain the candidate MV set. By computing the distortion of the candidates, a MV with the minimum distortion is selected. Experimental results show that the proposed algorithm exhibits better performance in many cases than existing methods.
-
In manufacture of printed circuit boards, one important issue is precisely to measure the three-dimensional shape of the solder paste silk-screened prior to direct surface mounting of chips. This paper presents the 3D shape reconstruction of solder paste using the optical triangulation method based on structured light or slit beam and the measurement algorithm for height, volume. area, and coplanarity on component pads from the 3D range image. Futhermore, statistical process control function is incorporated for process capability analysis.
-
This paper describes the design, implementation and results of a unified non-rigid image registration method for the purposes of 3D shape reconstruction from serial section images. The proposed method uses active contour-based segmentation and compensation of radial distortion. Experimental results show that multiple images can be segmented and reconstructed by active single contour as well as intra- and inter-section registration.
-
요즘 어린이 교재들은 예전에 비한다면 급속도의 발전을 이루고 있어서, 앞으로도 다양한 컨셉과 아이디어로 계속 발전될 경향이다. 하지만 현재까지의 보통 낱말카드나 그래픽들은 2D로 이루어져 있어서 현실감이 떨어지는 교육이 되는 경우가 많다. 그렇다고 현실감을 주기 위해 어린이들이 갖고 놀도록 커다란 3D 의 장난감들을 갖게 된다면 이들이 차지하는 공간은 너무나 많아진다. 사실 아이들이 있는 가정들을 보면 공간의 부족 때문에 갖고 있던 교재나 장난감들을 버리기도 하는 것이 요즘 현실이기 때문이다. 본 논문은 이런 문제점들을 보완하기 위해 AR(Augmented Reality)Toolkit[l]을 응용한 어린이 교재를 제안한다 공간절약형으로 정육면체 패턴을 만들어 공간절약도 되고, 이 패턴(pattern) 위에서 3 차원 영상도 보고 패턴을 교체해 가면서 다양한 재미도 느낄 수 있는 교재를 구현해 보고자 한다.
-
움직이는 물체의 자동 분할은 컴퓨터 비젼의 여러 응용분야에서 중요한 문제로 대두되고 있다. 본 논문에서는 감시 시스템에서 에지와 적응적 임계값을 이용한 효과적인 자동 움직임 분할 방법을 제안하였다. 먼저 연속 영상에서 현재 영상과 배경 영상과의 차를 얻어서 그 히스토그램을 만든다. 이 때 앞에서 얻은 히스토그램은 영상 잡음의 평균이 0 인 가우시안 분포를 가진다고 가정한다. 그리고, 이 히스토그램을 이용하여 영상잡음의 분산을 찾는다 이 분산 값을 이용하여 적응적 임계값과 움직임 영역창을 결정한다. 적응적 임계값에 의한 결과 영상에서 움직이는 물체를 분할하기 위해 본 논문에서는 움직임 영역창을 이용하는 방법을 제안하였다. 이 움직임 영역창에 의해 더욱 효과적인 움직임 분할이 이루어진다. 또, 잡음의 제거를 위해 수학적 모폴로지(mathematical morphology)와 화소의 연결성이 이용된다.
-
J2ME service technology has advantage that can embody independent and, more soft system in DICOM 3.0 and medicine reflex administration server, client′s OS that is medical treatment reflex standard in radio Internet. Also, intranet that do web based spread, and develop by system that can alternate existent client-server structure rapidly. Specialty, possibility of improvement is much because is connecting being limited in internet environment that medical equipment and information system of various kinds of machine are wire in medical institution and so on. Because do medical treatment reflex transmission module development applying DICOM technology and filtering techniques of "m-PACS" In this research, existence, by interlock in radio usable Mobile reflex conversion system design and embody. That is, patient′s information which is stored to various systems to be transmited and can give big help in medical examination and treatment to reflex client without being wooed doctor′s interpretation result and so on in place through environment to be radish tentacle bar see.
-
This paper focuses on lossless medical image compression methods for medical images that operate on two-dimensional(2D) reversible integer wavelet transform. We offer an application of the Set Partitioning in Hierarchical Trees(SPIHT) algorithm [1][3][9] to medical images, using a 2D wavelet decomposition and a 2D spatial dependence tree. The wavelet decomposition is accomplished with integer wavelet filters implemented with the lifting method, where careful scaling and truncations keep the integer precision small and the transform unitary. We have tested our encoder on medical images using different integer filters. Results show that our algorithm with certain filters performs as well and sometimes better in lossless coding than previous coding systems using 2D integer wavelet transforms on medical images.
-
주위 광원에 화이트 밸런스 된 카메라로 촬영한 피사체의 RGB신호를 D/sub 65/ 광원하의 표준 디스플레이 상에서 느끼는 자극치 L₁M₁S₁값과, 실제 촬영 장소에서 눈이 충분히 주위 조건에 색순응 된 후 피사체에 대해서 느끼는 자극치 L₂M₂S₂값은 다르게 느껴진다. 이는 LMS 시세포의 파장별 감도특성과 카메라의 RGB 칼라 필터의 파장별 감도특성이 다르기 때문이다. 또한 주위 광원의 종류와 밝기에 따른 물리적인 자극 변화에 대해서 카메라의 경우는 RGB 각 채널의 이득이 선형적 변화를 가진다. 그리고 눈의 경우는 LMS 시세포의 감도가 비선형적 특성을 가지기 때문에 색감의 차이를 발생시킨다. 본 논문에서는 촬영시의 주위 조건에서 원 피사체를 직접 볼 때 느끼는 색감을 표준 시환경인 D/sub 65/ 광원하에서 화이트밸런스가 D/sub 65/인 디스플레이를 통해 피사체 이미지를 볼 경우에 동일한 색감을 느끼도록 하는 알고리즘을 제안한다. 제안된 알고리즘을 이용하여 표준 조건하에서 디스플레이 하였을 때 촬영 조건에서의 등색감을 재현할 수 있다.
-
When viewing images, the relative luminance of the surround has a profound impact on the apparent contrast of the image. The dark surround causes the image elements to appear lighter than those viewed in an illuminated surround. For this reason, it is worthwhile to briefly review the general results of brightness sealing under a various viewing condition. Two of the most often cited parers on the topic of brightness scaling are Stevens-stevens and Bartleson-Breneman's function. There are, however, significant differences between the perceptual functions for simple-field and complex-field viewing. In this paper, we research the relationship between Steven's power law and Bartleson-Breneman's function. We present an appropriate brightness perception function due to TV system viewing conditions. Highlight luminance peak and absolute brightness threshold value in various adaptation levels are obtained from the proposed brightness function . Also, the luminance value of black level to produce the same contrast ratio with variety of display highlight luminance peak is obtained from the proposed brightness function.
-
In this paper, we propose a new stereoscopic video conversion methodology that converts two-dimensional (2-D) MPEG-4 video to stereoscopic video. In MPEG-4, each Image is composed of background object and primary object. In the first step of the conversion methodology, the camera motion type is determined for stereo Image generation. In the second step, the object-based stereo image generation is carried out. The background object makes use of a current image and a delayed image for its stereo image generation. On the other hand, the primary object uses a current image and its horizontally-shifted version to avoid the possible vertical parallax that could happen. Furthermore, URFA(Uncovered Region Filling Algorithm) is applied in the uncovered region which might be created after the stereo image generation of a primary object. In our experiment, show MPEG-4 test video and its stereoscopic video based upon out proposed methodology and analyze Its results.
-
In this paper, we present a digital image authentication using semi-fragile watermarking techniques. The algorithm is robust to innocuous manipulations while detecting malicious manipulations. Specifically, the proposed method is designed for the purpose of the real time authentication of an image frame captured from a digital camera due to its easy H/W implementation, security and visible verification. To achieve the semi-fragile characteristics that survive a certain amount of compression, we employ the invariant property of DCT coefficients' quantization proposed by Lin and Chang [1]. The binary watermark bits are generated by exclusive ORing the binary logo with pseudo random binary sequences. Then watermark bits are embedded into the LSBs of pre-quantized DCT coefficients in the medium frequency range. Verification is carried out easily due to visually recognizable pattern of the logo extracted by exclusive ORing the LSBs of the embedded DCT coefficient with pseudo random number seeded by a secret key. By the experiment results, this method is not only robust to JPEG compression but also it detects powerfully alterations of the original image, such as the tempering of images.
-
In this paper, we present a new filter to adjust formant information. Spectral envelope in speech analysis shows information about characteristics of speech and formant information determines speech timbre. So, if formant position is adjusted, we can verify adjusted speech timbre. A presented filter is to adjust this formant. This filter is composed of triangular filters. Using this filter we could locate the formant frequency at target position.
-
To improve performance of sentence speech recognition systems, we need to consider perplexity of language model and the number of words of dictionary for increasing vocabulary size. In this paper, we propose a language model of VCCV units for sentence speech recognition. For this, we choose VCCV units as a processing units of language model and compare it with clauses and morphemes. Clauses and morphemes have many vocabulary and high perplexity. But VCCV units have small lexicon size and limited vocabulary. An advantage of VCCV units is low perplexity. This paper made language model using bigram about given text. We calculated perplexity of each language processing unit. The perplexity of VCCV units is lower than morpheme and clause.
-
음성합성은 합성방식에 따라 파형부호화법, 신호원부호화법, 혼성부호화법으로 분류할 수 있다. 특히 고음질 합성을 위해서는 파형부호화를 이용한 합성방식이 적합하다 하지만 파형부호화를 이용한 합성법은 여기 성분과 여파기 성분을 분리하지 않고 처리하기 때문에 음절단위나 음소단위의 합성기법으로는 바람직하지 못하다. 따라서 파형부호화법을 규칙에 의한 합성에 적용되도록 음원피치를 변경시키기 위한 피치 변경법이 필요하게 된다. 본 논문에서는 스펙트럼 왜곡을 최소화하기 위해 서브 선형근사에 의하여 스펙트럼 평탄화 시킨 후 스펙트럼 스케일링을 이용하여 피치를 변경하는 방법에 대하여 제안하였다. 기존 방법인 LPC법, Cepstrum법과 비교하여 어느 정도의 우수성을 보이는지 평가하였고 평가방법은 각각의 평탄화 된 신호의 분산을 구하여 평탄화의 정도를 측정하였다. 이때 평탄화 된 신호는 최고점이 영이 되도록 정규화 시키고 평균이 영인 분산을 계산하였다. 제안한 방법의 성능을 평가하기 위해 스펙트럼 왜곡율을 측정하여 본 결과 평균 스펙트럼 왜곡율은 평균 2.12% 이하로 유지되었으며 실험결과 제안한 방법이 기존의 방법보다 우수함을 보여주었다.
-
A uniformly sampled digital pulse-width modulation adopting a pre-compensation filter scheme for applications in high-resolution digital-to-analog data conversion is described. It is shown that linearization of the intrinsic distortion resulting in uniformly sampled pulse-width modulation can be achieved by using a non-integer delay digital filter embedded within a noise shaping re-quantizer.
-
In this research, our goal is to realize Korean Distribute TTS system with server/client function in wireless network. The speech databases and some routines of TTS system is stuck with the server which has strong functions and we made Korean speech databases and accomplished research about DB which is suitable for distributed TTS. We designed a terminal has the minimum setting which operate this TTS and designed proper protocol so we will check action of Distributed TTS.
-
In this paper, we propose a Korean speech understanding model using dictionary and thesaurus. The proposed model search the dictionary for the same word with in input text. If it is not in the dictionary, the proposed model search the high level words in the high level word dictionary based on the thesaurus. We compare the probability of sentence understanding model with threshold probability, and we'll get the speech understanding rate. We evaluated the performance of the sentence speech understanding system by applying twenty questions game. As the experiment results, we got sentence speech understanding accuracy of 79.8%. In this case probability of high level word is 0.9 and threshold probability is 0.38.
-
In this paper, we examine the acoustic characteristics of Korean vowels on pitch alteration utterance. The prosody is known as an indicator of acoustic characteristics of emotions. Also, speech is acoustically differenced according to the emotional variation and environmental variation, although speaker utters the same speech. We analyzed the spectral envelopes and formants from the voiced regions as data points on the speech waveform.
-
본 논문에서는 한국전자통신연구원에서 제공된 대어휘 음성DB를 이용하여 HM-Net(Hidden Markov Network) 음성인식 시스템의 성능평가를 수행하였다. 음향모델 작성은 음성인식에서 널리 사용되고 있는 통계적인 모델링 방법인 HMM(Hidden Markov Model)을 개량한 HM-Net을 도입하였다 HM-Net은 PDT-SSS 알고리즘에 의해 문맥방향과 시간방향의 상태분할을 수행하여 생성되는데, 특히 문맥방향 상태분할의 경우 학습 음성데이터에 출현하지 않는 문맥정보를 효과적으로 표현하기 위해 음소결정트리를 채용하고 있으며, 시간방향 상태분할의 경우 학습 음성데이터에서 각 음소별 지속시간 정보를 효과적으로 표현하기 위한 상태분할을 수행한다. 이러한 상태분할을 수행하여 파라미터를 공유하게 되며 최적인 모델 네트워크를 작성하게 된다. 대어휘 음성데이터를 이용하여 음향모델을 작성하고 인식실험을 수행한 결과, 100명의 100단어와 60문장에 대해 평균 97.5%, 96.7%의 인식률을 보였다.
-
화자인식은 음성의 특성을 이용해서 화자의 신원을 확인하는 기술이다. 이러한 기술은 등록된 화자집단 중 화자를 식별하는 화자식별(speaker Identification)과 지금 발성한 화자만을 비교하여 확인하는 화자확인(speaker verification)이 있다. 이러한 화자인식은 음성에 내재되어 있는 화자정보를 추출하여 개인을 확인하는 기술로 전화망을 통한 서비스가 확산되어 가고 있는 현대사회에 가장 효과적인 기술 중 하나이다. 또한 PDA를 이용한 증건거래 시스템 등 현대사회에서는 실시간으로 화자인식이 이루어져야 한다. 본 논문에서는 이와 같이 실시간 화자인식을 위한 처리시간 단축에 관하여 연구하였다. 처리시간 단축을 위하여 우선 피치주기 단위로 음성 파형을 분해한 다음 분해된 피치 단위에 윈도우 함수를 곱해서 단구간 신호의 열로 만들고 분해된 단위를 조절하는 PSOLA 합성방식을 이용하여 인식 시스템의 전처리단을 재구성하였다. 이와 같은 방식으로 제안한 인식시스템의 처리시간, 인식률을 기존의 화자인식 시스템과 비교하였다.
-
In this paper, we propose the computation reduction methods of LSP(Line spectrum pairs) transformation that is mainly used in CELP vocoders. In order to decrease the computational time in real root method the characteristic of four proposed algorithms is as the following. First, scheme to reduce the LSP transformation time uses met scale. Developed the second scheme is the control of searching order by the distribution characteristic of LSP parameters. Third, scheme to reduce the LSP transformation time uses voice characteristics. Developed the fourth scheme is the control of searching interval and order by the distribution characteristic of LSP parameters. As a result of searching time, computational amount, transformed LSP parameters, SNR, MOS test, waveform of synthesized speech, speech, spectrogram analysis, searching time reduced about 37.5%, 46.21%, 46.3%, 51.29% in average, computational amount is reduced about 44.76%, 49.44%, 47.03%, 57.40%. But the transformed LSP parameters of the proposed methods were the same as those of real root method.
-
In this paper, the Classification of Energy Labeling has been Proposed. Energy Parameters of input signal which is extracted from each phoneme is labelled. And groups of labelling according to detected energies of input signals are detected. Next, DTW processes in a selected group of labeling. This leads to DTW processing faster than a previous algorithm. In this Method, because an accurate detection of parameters is necessary on the assumption in steps of a detection of speeching duration and a detection of energy parameters, variable windows which are decided by pitch period is used. Extract algorithms don't search for exact frame energy, because 256 frame window-sizes is fixed. For this reason, a new energy extraction method has been proposed. A pitch period is detected firstly; next window scale is decided between 200 frames and 300 frames. The proposed method make it possible to cancel an influence of windows.
-
In this paper, we Propose a wavelet based adaptive algorithm which improves the convergence speed and reduces computational complexity using the fast running FIR filtering efficiently. We compared the performance of the proposed algorithm with time and frequence domain adaptive algorithm using computer simulation of adaptive noise canceler based on synthesis speech.
-
This paper studied the pattern recognition algorithm and feature parameters for emotion recognition. In this paper, KNN algorithm was used as the pattern matching technique for comparison, and also VQ and GMM were used lot speaker and context independent recognition. The speech parameters used as the feature are pitch, energy, MFCC and their first and second derivatives. Experimental results showed that emotion recognizer using MFCC and their derivatives as a feature showed better performance than that using the Pitch and energy Parameters. For pattern recognition algorithm, GMM based emotion recognizer was superior to KNN and VQ based recognizer
-
This paper presents a new structure of MPEG-4 AAC encoder. The proposed encoder directly shapes quantization noise distribution according to the energy distribution curve and thereafter performs adjustment of the offset level of the noise distribution to meet the given bit rate. The direct noise shaping and the bit rate matching scheme of the proposed encoder algorithm significantly alleviate the problem of conventional encoder's processing burden related with the employment of the precise psychoacoustic model and iteration intensive quantizer. The encoder algorithm is implemented on ARM processor with fixed-feint arithmetic operations. The audio quality of the implemented system is observed comparable to those of commercially available encoders, white the complexity of the implementation is drastically reduced in comparison to the conventional encoder systems.
-
The modified discrete cosine transform (MDCT) and its inverse transform (IMDCT) are employed in subband/transform coding schemes as the analysis/synthesis filter bank based on time domain aliasing cancellation (TDAC). And they are the most computational intensive operations in layer III of the MPEG audio coding standard. In this paper, we propose a new efficient algorithm for the MDCT/IMDCT computation. It is based on the MDCT/IMDCT computation algorithm using the discrete cosine transforms (DCTs), and it employs two discrete cosine transform of type II(DCT-II) to compute the MDCT/IMDCT. In addition to, it takes advantage of ability in calculating the MDCT/IMDCT computation, where the length of a data block is divisible by 4. The proposed algorithm in this paper requires less calculation complexity than the existing methods. Also, it can be implemented by the parallel structure,, and its structure is particularly suitable for VLSI realization.
-
CELP계열의 부호화기인 G.723.1 5.3kbps ACELP를 기반으로 하여 음질을 유지하면서 전송률을 낮출 수 있는 새로운 부호화 방법을 제안한다. 본 논문에서 적용한 부호화 방법은 음성 합성시 파라미터로 사용되는 지속시간 변경에 의해 CELP형 보코더의 전송률을 감소하고자 한다. 먼저 음성을 보코더 입력단에 입력하기 전 지속시간을 FFT 변환 특성을 이용해 음색의 변경 없이 지속시간을 줄임으써 계산시간을 줄이고 진폭과 위상 각각 1/2ⁿ배의 interpolation과 Decimation을 수행하여 부호화한다. 이렇게 부호화된 데이터는 G.723.1 복호화를 거치고, 다시 FFT point의 1/2ⁿ배 point로 IFFT과정을 수행함으로써 스팩트럼의 변경 없이 지속시간을 변경하여 원 음성을 합성하게 된다. G.723.1 보코더를 통과한 후 파형을 복원 실험한 결과 기존의 5.3kbps ACELP보다 46%정도 감소하였다.
-
능동소음제어 시스템에서 많이 사용되어 온 적응 알고리듬은 filtered-X LMS (FXLMS) 알고리듬으로, 이 알고리듬에서의 수렴속도는 필터링 된 신호에 의해서 좌우되기 때문에 FXLMS 적용시 실제 수렴성능이 저하되거나 수렴이 안 되는 경우도 발생할 수 있다. 본 논문의 목적은 변환영역에서 능동소음제어 시스템의 2차 경로 모델링을 행함으로써 전체 능동소음제어 시스템 동작의 수렴성능을 향상시키려는 것이다