• 제목/요약/키워드: audio database

검색결과 75건 처리시간 0.02초

시청각 화자식별에서 신뢰성 기반 정보 통합 방법의 성능 향상 (Improvement of Reliability based Information Integration in Audio-visual Person Identification)

  • ;김진영;홍준희
    • 대한음성학회지:말소리
    • /
    • 제62호
    • /
    • pp.149-161
    • /
    • 2007
  • In this paper we proposed a modified reliability function for improving bimodal speaker identification(BSI) performance. The convectional reliability function, used by N. Fox[1], is extended by introducing an optimization factor. We evaluated the proposed method in BSI domain. A BSI system was implemented based on GMM and it was tested using VidTIMIT database. Through speaker identification experiments we verified the usefulness of our proposed method. The experiments showed the improved performance, i.e., the reduction of error rate by 39%.

  • PDF

Scheduling Computational Loads in Single Level Tree Network

  • ;;김형중
    • 한국정보통신설비학회:학술대회논문집
    • /
    • 한국정보통신설비학회 2009년도 정보통신설비 학술대회
    • /
    • pp.131-135
    • /
    • 2009
  • This paper is the introduction of our work on distributed load scheduling in single-level tree network. In this paper, we derive a new calculation model in single-level tree network and show a closed-form formulation of the time for computation system. There are so many examples of the application of this technology such as distributed database, biology computation on genus, grid computing, numerical computing, video and audio signal processing, etc.

  • PDF

분산 버퍼 구조의 실시간 오디오 믹서의 구현 (An Implementation of Real-time Audio Mixer on the Distributed Buffer Structure)

  • 임진영;송동호
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1995년도 제4회 멀티미디어 산업기술 학술대회 논문집
    • /
    • pp.169-172
    • /
    • 1995
  • 멀티미디어 응용프로그램 환경에서 실시간 오디오 믹싱 기능은 자주 요구되는 지원 사항중에 하나이다. 지금까지는 단일 시스템에서의 여러가지 스트림 조합에 대한 믹싱이 일반적 인 방법이나 분산 응용프로그램이 일반화됨에 따라 분산스트림에 대한 데이타 믹싱이 필요하게 되었다. 이러한 요구를 충족시킬 수 있는 방법으로써 분산 버퍼들로부터 스트림을 억세스하여 믹싱 모듈의 내부 버퍼를 통한 실시간 오디오 믹싱을 연구해 보았다.

  • PDF

모션데이터베이스를 이용한 로봇공연시스템 개발 (Development of a Robot Performance System Employing a Motion Database)

  • 서현곤;김지환
    • 한국컴퓨터정보학회논문지
    • /
    • 제19권12호
    • /
    • pp.21-29
    • /
    • 2014
  • 본 논문에서는 효율적인 로봇공연시스템(RPS:Robot Performance System)을 제안한다. 본 논문에서 제안하는 로봇공연시스템은 외부 음향재생장치의 도움 없이 휴머노이드 로봇 몸체에 개발한 사운드보드를 삽입하여 음향을 재생하고 공연에 필요한 음원을 사운드보드내의 외부기억장치에 기억할 수 있도록 하드웨어를 개발하였다. 또한 공연 기획 시나리오 생성 전문 소프트웨어인 RPPDP(Robot Performance Planning Development Program)를 개발하였는데, RPPDP를 이용하면 기존에 개발된 로봇의 기본동작, 응용동작 및 특별한 상황에 적용되는 동작 등을 모션데이터베이스에서 검색하여 사용할 수 있어서, 적은 비용과 짧은 시간으로 누구나 쉽게 로봇공연을 기획할 수 있도록 하였다.

Emotion Recognition of Low Resource (Sindhi) Language Using Machine Learning

  • Ahmed, Tanveer;Memon, Sajjad Ali;Hussain, Saqib;Tanwani, Amer;Sadat, Ahmed
    • International Journal of Computer Science & Network Security
    • /
    • 제21권8호
    • /
    • pp.369-376
    • /
    • 2021
  • One of the most active areas of research in the field of affective computing and signal processing is emotion recognition. This paper proposes emotion recognition of low-resource (Sindhi) language. This work's uniqueness is that it examines the emotions of languages for which there is currently no publicly accessible dataset. The proposed effort has provided a dataset named MAVDESS (Mehran Audio-Visual Dataset Mehran Audio-Visual Database of Emotional Speech in Sindhi) for the academic community of a significant Sindhi language that is mainly spoken in Pakistan; however, no generic data for such languages is accessible in machine learning except few. Furthermore, the analysis of various emotions of Sindhi language in MAVDESS has been carried out to annotate the emotions using line features such as pitch, volume, and base, as well as toolkits such as OpenSmile, Scikit-Learn, and some important classification schemes such as LR, SVC, DT, and KNN, which will be further classified and computed to the machine via Python language for training a machine. Meanwhile, the dataset can be accessed in future via https://doi.org/10.5281/zenodo.5213073.

MPEG 시스템 스트림상에서 오디오 정보를 이용한 장면 경계 검출 방법 (A Scene Boundary Detection Scheme using Audio Information in MPEG System Stream)

  • 김재홍;낭종호;박수용
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권8호
    • /
    • pp.864-876
    • /
    • 2000
  • 본 논문에서는 일반적인 영화를 인코딩한 MPEG 형식의 비디오 데이타에 대해 장면과 장면 사이의 경계점에서 나타나는 여러 오디오 특성을 이용하는 새로운 장면 경계 검출 방법을 제안하고 실험을 통해서 그 유용성을 보인다. 일반적인 영상에서 장면 경계 지점에서는 영상의 내용이 크게 바뀜에 따라 오디오 정보도 같이 변화한다는 특성이 있으며, 본 논문에서는 이러한 장면경계에서의 오디오 정보 변화를 각각 급진변화(Radical Change), 점진변화(Gradual Change), 미세변화(Micro Change)로 분류하였으며, 각 변화의 특성을 분석하고 이를 검출하는 알고리즘을 제안하였다. 급진변화는 장면과 장면의 경계점에서 오디오가 음량의 급격한 증감이 발생하고 음색 또한 급격히 달라지는 형태를 취하고 있으며, 점진변화는 긴 시간에 걸쳐서 음량 및 음색이 달라지는 형태를, 미세변화는 음량의 변화없이 일부 음색과 주파수 분포가 달라지는 특성을 가지고 있다. 본 논문에서는 이러한 특성을 토대로 시간축을 따라 진행하는 윈도우를 설정하여 이 윈도우 내에서의 오디오 변화를 추적함으로써 위의 세 가지 형태의 장면 경계를 추출하는 방법을 제안한다. 다양한 영화를 통한 실험에서 실제 샘플로 사용된 영화들에서 가장 많은 부분을 차지하는 급진변화에 대하여 본 논문에서 제안한 방법이 높은 검출율을 얻을 수 있음을 알 수 있었다. 본 논문에서 제안한 오디오 정보를 이용한 장면 경계 검출 방법은 비디오 정보를 이용한 장면 경계 검출과 같이 병행하여 사용함으로써 MPEG 형식의 영상정보에 대한 데이타 베이스 구축에 유용하게 사용될수 있을 것이다.관 주위에 많았다.findings suggest that compounds 6 and 11 are modulating various elements of the host immune response.%로서, carbofuran 단독투여와 carbofuran과 PB 또는 3-MC 투여사이에 대사산물의 종류는 같았으나 생성율에는 큰 차이가 있었다. 이와 같은 결과는 쥐에 carbofuran 투여 후 PB나 3-MC를 투여함으로써 carbofuran의 대사가 빠르게 이루어지고, 주 대사산물 중3-hydroxycarbofuran보다 독성 이 낮은 3-ketocarbofuran으로의 대사가 빠르게 이루어지기 때문에 carbofuran의 독성이 경감되어 쥐가 생존할 수 있는 것으로 판단된다.시장젓갈${\lrcorner}$에는 글루타민산, leucine, alanine, lysine의 4종류, ${\ulcorner}$반찬젓갈${\lrcorner}$에는 글루타민산, leucine, alanine의 3종류, ${\ulcorner}$일본병조림젓갈${\lrcorner}$은 글루타민산이 현저하게 많다.회하였다.ollowed fro all Sullungtang samples from Hanwoo. The results showed that the overall quality of Sullungtang significantly decreased as the parity increased for Hanwoo cows. The Sullungtang

  • PDF

ABRN:주문형 멀티미디어 데이터 베이스 서비스 시스템을 위한 버퍼 교체 알고리즘 (ABRN:An Adaptive Buffer Replacement for On-Demand Multimedia Database Service Systems)

  • 정광철;박웅규
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1669-1679
    • /
    • 1996
  • In this paper, we address the problem of how to replace huffers in multimedia database systems with time-varying skewed data access. The access pattern in the multimedia database system to support audio-on-demand and video-on-demand services is generally skewed with a few popular objects. In addition the access pattem of the skewed objects has a time-varying property. In such situations, our analysis indicates that conventional LRU(least Recently Used) and LFU(Least Frequently Used) schemes for buffer replacement algorithm(ABRN:Adaptive Buffer Replacement using Neural suited. We propose a new buffer replacement algorithm(ABRN:Adaptive Buffer Replacement using Neural Networks)using a neural network for multimedia database systems with time-varying skewed data access. The major role of our neural network classifies multimedia objects into two classes:a hot set frequently accessed with great popularity and a cold set randomly accessed with low populsrity. For the classification, the inter-arrival time values of sample objects are employed to train the neural network.Our algorithm partitions buffers into two regions to combine the best roperties of LRU and LFU.One region, which contains the 핫셋 objects, is managed by LFU replacement and the other region , which contains the cold set objects , is managed by LRUreplacement.We performed simulation experiments in an actual environment with time-varying skewed data accsee to compare our algorithm to LRU, LFU, and LRU-k which is a variation of LRU. Simulation resuults indicate that our proposed algorthm provides better performance as compared to the other algorithms. Good performance of the neural network-based replacement scheme means that this new approach can be also suited as an alternative to the existing page replacement and prefetching algorithms in virtual memory systems.

  • PDF

Emotion Recognition in Arabic Speech from Saudi Dialect Corpus Using Machine Learning and Deep Learning Algorithms

  • Hanaa Alamri;Hanan S. Alshanbari
    • International Journal of Computer Science & Network Security
    • /
    • 제23권8호
    • /
    • pp.9-16
    • /
    • 2023
  • Speech can actively elicit feelings and attitudes by using words. It is important for researchers to identify the emotional content contained in speech signals as well as the sort of emotion that resulted from the speech that was made. In this study, we studied the emotion recognition system using a database in Arabic, especially in the Saudi dialect, the database is from a YouTube channel called Telfaz11, The four emotions that were examined were anger, happiness, sadness, and neutral. In our experiments, we extracted features from audio signals, such as Mel Frequency Cepstral Coefficient (MFCC) and Zero-Crossing Rate (ZCR), then we classified emotions using many classification algorithms such as machine learning algorithms (Support Vector Machine (SVM) and K-Nearest Neighbor (KNN)) and deep learning algorithms such as (Convolution Neural Network (CNN) and Long Short-Term Memory (LSTM)). Our Experiments showed that the MFCC feature extraction method and CNN model obtained the best accuracy result with 95%, proving the effectiveness of this classification system in recognizing Arabic spoken emotions.

정형외과 관절경 영상 저장 시스템의 설계 및 구현 (Design and Implementation of the Endoscope Image Store System in the Orthopedics)

  • 심갑식;정태영
    • 한국컴퓨터정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.8-15
    • /
    • 2002
  • 본 논문은 의료영상을 데이터베이스화 시켜 그것을 영구적으로 보관할 수 있는 시스템 개발이다. 즉, 정형외과의 관절경을 이용한 수술이나 진단 시 수집되는 영상 자료를 데이터베이스화하여 복수의 적용 업무나 응용프로그램이 데이터를 공유할 수 있도록 하며, 동일한 자료의 중복을 피하고 검색과 갱신이 효율적으로 되도록 데이터를 관리하는 시스템이다. 본 시스템은 다섯 가지 구성요소로 이루어져 있다. 즉, 내시경으로부터 영상자료를 받는 입력모듈, 입력받은 영상자료를 저장하는 모듈, 환자의 진료내역 및 영상자료를 저장하는 데이터베이스 설계 및 구현, 사용하기 편리한 인터페이스 설계 및 구현, 간단하고 편리한 데이터 검색을 위한 엔진 등이다. 시스템의 특징은 다음과 같다. DirectShow를 이용한 영상 캡쳐 프로그램은 어떤 영상 캡쳐 보드와 호환이 가능하다. 영상 캡쳐 알고리즘을 공용 모듈로 만들었기 때문에 인터넷상에서 비디오. 오디오 컨텐츠를 개발할 때 작업효율을 높일 수 있다.

  • PDF

Conjoined Audio Fingerprint based on Interhash and Intra hash Algorithms

  • Kim, Dae-Jin;Choi, Hong-Sub
    • International Journal of Contents
    • /
    • 제11권4호
    • /
    • pp.1-6
    • /
    • 2015
  • In practice, the most important performance parameters for music information retrieval (MIR) service are robustness of fingerprint in real noise environments and recognition accuracy when the obtained query clips are matched with the an entry in the database. To satisfy these conditions, we proposed a conjoined fingerprint algorithm for use in massive MIR service. The conjoined fingerprint scheme uses interhash and intrahash algorithms to produce a robust fingerprint scheme in real noise environments. Because the interhash and intrahash algorithms are masked in the predominant pitch estimation, a compact fingerprint can be produced through their relationship. Experimental performance comparison results showed that our algorithms were superior to existing algorithms, i.e., the sub-mask and Philips algorithms, in real noise environments.