• Title/Summary/Keyword: 데이터구간

Search Result 1,419, Processing Time 0.027 seconds

Background Music Identification in TV Broadcasting Program Algorithm using Audio Peak Detection (오디오 피크 검출을 적용한 TV 방송 프로그램 내 배경음악 식별 알고리즘)

  • Lee, Jung-Sung;Kim, Hyoung-Gook
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2013.06a
    • /
    • pp.34-35
    • /
    • 2013
  • 본 논문에서는 오디오 피크 검출을 적용한 TV 방송 프로그램내 배경음악 식별 알고리즘을 제안한다. 제안한 알고리즘은 음악 핑거프린트 추출 및 전송부, 음악구간 검출부, 음악 핑거프린트는 고속 매칭 및 정보전송부 세 부분으로 구성되어 있다. 음악 핑거프린트 추출 및 전송부에서는 음악 원음 오디오 데이터를 퓨리에 변환하여 스펙트럼 계수를 추출한다. 추출된 스펙트럼의 성분 중에서 일정한 문턱값 이상의 에너지를 가지는 값을 피크로 검출하고 검출된 피크를 이용하이 핑거프린트를 생성하고 데이터 베이스화한다. 음악구간 검출부에서는 입력된 방송 프로그램 오디오 데이터에 GMM(Gaussian Mixture Model)을 적용하여 음악과 음악 외 오디오 데이터를 분류한다. 음악 핑거프린트 고속 매칭 및 정보전송부에서는 음악구간이라고 인식된 쿼리 오디오 데이터를 음악 핑거프린트 추출 및 전송부와 동일한 과정을 통해 핑거프린트를 생성하고 데이터 베이스화된 음악 원음의 핑거프린트들과 비교하여 가장 유사한 음원의 정보를 TV의 화면에 자막으로 보여준다.

  • PDF

Voice Segment Reduction using Perceiver Model (Perceiver 모델을 이용한 사용자 음성 구간 축약)

  • Choi, Yeon-Ung;Lee, Jae-Jun;Han, Hyeon-Taek;Lee, Hae-Yeoun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.491-493
    • /
    • 2022
  • 최근 스마트 기기에서 오디오 데이터를 이용하는 응용 기술들이 증가하면서, 오디오 데이터에서 관심 있는 구간을 찾아내는 기술의 필요성이 증가하고 있다. 본 논문에서는 Perceiver 모델을 활용하여 오디오 데이터에서 사람의 음성 구간을 검출하고 축약하는 방법을 제안한다. Perceiver 모델은 복잡한 입력 데이터에 대하여 Self-attention을 기반으로 특징을 추출하면서 이전의 특징을 다음 입력으로 다시 학습하는 특징을 갖고 있어서 연속적인 데이터인 오디오에 효율적으로 적용할 수 있다. 외부 및 자체에서 수집한 음성과 비음성 데이터셋에 대하여 실험을 진행하였고, 10초 단위 세그먼트에서 대해서 92.4%의 검출 정확도를 달성하였다.

A Study on Gene Search Using Test for Interval Data (구간형 데이터 검정법을 이용한 유전자 탐색에 관한 연구)

  • Lee, Seong-Keon
    • Journal of the Korean Data Analysis Society
    • /
    • v.20 no.6
    • /
    • pp.2805-2812
    • /
    • 2018
  • The methylation score, expressed as a percentage of the methylation status data derived from the iterative sequencing process, has a value between 0 and 1. It is contrary to the assumption of normal distribution that simply applying the t-test to examine the difference in population-specific methylation scores in these data. In addition, since the result may vary depending on the number of repetitions of sequencing in the process of methylation score generation, a method that can analyze such errors is also necessary. In this paper, we introduce the symbolic data analysis and the interval K-S test method which convert observation data into interval data including uncertainty rather than one numerical data. In addition, it is possible to analyze the characteristics of methylation score by using Beta distribution without using normal distribution in the process of converting into interval data. For the data analysis, the nature of the proposed method was examined using sequencing data of actual patients and normal persons. While the t-test is only possible for the location test, it is found that the interval type K-S statistic can be used to test not only the location parameter but also the heterogeneity of the distribution function.

Empirical Impact Analysis of Sentence Length on Statistical Machine Translation (문장 길이가 한영 통계기반 기계번역에 미치는 영향 분석)

  • Cho, Hee-Young;Sou, Hyoung-Won;Kim, Jea-Hoon
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2007.06c
    • /
    • pp.199-203
    • /
    • 2007
  • 본 논문에서는 한영 통계기반 기계번역에서 한국어 문장 길이의 변화에 따른 번역 성능의 변화를 분석하고자 한다. 일반적으로 통계기반 기계번역은 정렬기법을 이용하는데 문장의 길이가 길수록 많은 변형(distortion)이 이루어진다. 특히 한국어와 영어처럼 어순이 매우 다를 경우, 문장 길이의 변화에 따라 그 변형이 더욱 심할 수 있다. 본 논문에서는 이러한 성질이 통계기반 기계번역에 어떠한 영향을 주는지를 실험적으로 살펴보고자 한다. 본 논문에서 비교적 잘 정렬된 203,310개의 문장을 학습데이터로 사용하였고, 세종 병렬 말뭉치로부터 89,309개의 문장을 추출하여 실험데이터로 사용하였다. 실험데이터는 한국어 문장의 길이에 따라 5구간($1{\sim}4,\;5{\sim}8,\;9{\sim}13,\;14{\sim}19,\;20{\sim}n$ 개)로 나뉘었다. 각 구간은 가능한 문장의 수가 비슷하도록 하였으며, 17,126, 18,507, 20,336, 17,884, 15,456개의 문장이 포함되었다. 데이터들은 모두 어절단위로 토큰을 나누었다. 본 논문에서는 한영 번역을 중심으로 평가되었다. 첫 번째 구간에서 가장 좋은 성능인 0.0621 BLEU를 보였으며, 마지막 구간에서 가장 좋지 않은 0.0251 BLEU를 보였다. 이는 문장의 길이가 길수록 변역 성능이 좋지 않음을 알 수 있었다. 문장이 길수록 구가 길어지고 구간의 수식이 복잡해지므로 번역의 성능은 점차 떨어진다. 이것을 볼 때, 구번역을 먼저 한 후, 다시 문장 번역을 한다면 좀 더 높은 기계번역의 성능을 기대할 수 있을 것이다.

  • PDF

Data Fusion Algorithm based on Inference for Anomaly Detection in the Next-Generation Intrusion Detection (차세대 침입탐지에서 이상탐지를 위한 추론 기반 데이터 융합 알고리즘)

  • Kim, Dong-Wook;Han, Myung-Mook
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.26 no.3
    • /
    • pp.233-238
    • /
    • 2016
  • In this paper, we propose the algorithms of processing the uncertainty data using data fusion for the next generation intrusion detection. In the next generation intrusion detection, a lot of data are collected by many of network sensors to discover knowledge from generating information in cyber space. It is necessary the data fusion process to extract knowledge from collected sensors data. In this paper, we have proposed method to represent the uncertainty data, by classifying where is a confidence interval in interval of uncertainty data through feature analysis of different data using inference method with Dempster-Shafer Evidence Theory. In this paper, we have implemented a detection experiment that is classified by the confidence interval using IRIS plant Data Set for anomaly detection of uncertainty data. As a result, we found that it is possible to classify data by confidence interval.

Nonlinear mappings of interval vectors by neural networks (신경회로망에 의한 구간 벡터의 비선형 사상)

  • 권기택;배철수
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.21 no.8
    • /
    • pp.2119-2132
    • /
    • 1996
  • This paper proposes four approaches for approximately realizing nonlinear mappling of interval vectors by neural networks. In the proposed approaches, training data for the learning of neural networks are the paris of interval input vectors and interval target output vectors. The first approach is a direct application of the standard BP (Back-Propagation) algorithm with a pre-processed training data. The second approach is an application of the two BP algorithms. The third approach is an extension of the BP algorithm to the case of interval input-output data. The last approach is an extension of the third approach to neural network with interval weights and interval biases. These approaches are compared with one another by computer simulations.

  • PDF

A Study on Determining Syllable Length of Connected Spoken Digits (연속 숫자음의 음절구간 검출)

  • 김득수
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06d
    • /
    • pp.76-79
    • /
    • 1998
  • 본 논문은 한국어 숫자를 연속적으로 또박또박 발음한 음성의 음절 구간 검출에 관한 내용이며 음절의 최소구간 및 스펙트럼 에너지를 이용하여 연속 음성에서 구간 검출 알고리즘을 제안한다. 숫자음 11개를 연속으로 발성하여 음절 구간을 검출하며 결정된 구간과 수작업으로 한 음절구간을 비교한다. 음절시작점인 경우에는 수작업시단과 동일하거나 항상 전방향이며 종단인 경우에는 92% 데이터가 $\pm$1 프레임내에 존재하며 제안된 알고리즘이 실용성이 있음을 보인다.

  • PDF

Performance Evaluation of Mobile IP Using NHRP for Supporting Mobility over ATM Networks (ATM 망에서 NHRP를 이용한 Mobile IP 이동성 지원 방안의 성능평가)

  • 이성탄;변태영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10c
    • /
    • pp.811-813
    • /
    • 2001
  • 본 논문에서는 기존의 IP 망에서 호스트의 이동성을 지원하기 위한 Mobile IP 개념을 ATM 망에 적용할 경우, Mobile IP망에서 Home Agent와 Foreign Agent 사이에 존재하는 Mobile-IP 터널링 구간을 기존의 LAN 기반의 IP 터널링 구간과 ATM 망에서의 단거리 터널링(short-cut tunneling) 구간으로 구분하여 관리하는 방안을 제안하였다. Short-cut 터널링을 설정하기 위하여 NHRP를 이용하였으며 Shot-cut 터널링을 이용함으로써 HA 와 FA 사이에 데이터 전달 지연을 기존의 IP 터널링에서의 데이터 전달 지연보다 줄일 수 있음을 시뮬레이션을 통해 확인하였다.

  • PDF

Approximation of Frequent Itemsets with Maximum Size by One-scan for Association Rule Mining Application (연관 규칙 탐사 응용을 위한 한 번 읽기에 의한 최대 크기 빈발항목 추정기법)

  • Han, Gab-Soo
    • The KIPS Transactions:PartD
    • /
    • v.15D no.4
    • /
    • pp.475-484
    • /
    • 2008
  • Nowadays, lots of data mining applications based on continuous and online real time are increasing by the rapid growth of the data processing technique. In order to do association rule mining in that application, we have to use new techniques to find the frequent itemsets. Most of the existing techniques to find the frequent itemsets should scan the total database repeatedly. But in the application based on the continuous and online real time, it is impossible to scan the total database repeatedly. We have to find the frequent itemsets with only one scan of the data interval for that kind of application. So in this paper we propose an approximation technique which finds the maximum size of the frequent itemsets and items included in the maximum size of the frequent itemsets for the processing of association rule mining.