• 제목/요약/키워드: Speaker clustering

검색결과 33건 처리시간 0.023초

문맥종속 화자인식을 위한 준비반복 벡터 양자기 설계 알고리즘 (A Semi-Noniterative VQ Design Algorithm for Text Dependent Speaker Recognition)

  • 임동철;이행세
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.67-72
    • /
    • 2003
  • 이 논문은 문맥 종속 화자인식에 사용될 벡터 앙자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 기준 화자를 제외한 모든 비기준 화자에 대해 비반복적 학습 방법을 사용하여, 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 이 제안된 준비반복 벡터 양자기 설계법은, 종래의 설계법이 모든 화자의 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 준비반복 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 단지 기준 화자에 대하여만 반복 학습을 수행하고 비기준 화자에 대하여는 반복 학습을 하지 않는다. 둘째, 설계된 비기준 화자의 양자 영역은 기준화자의 양자 영역을 원용하며, 양자점은 자신의 통계 분포에 대해 최적점으로 설정된다. 수치 실험은 화자 20명에 대하여 멜켑스트럼 12차 특징벡터를 사용하였고 코드북 크기를 2부터 32까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 코드북 크기가 적절하고 학습 데이터 길이가 충분한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 준비반복 벡터 양자기 설계법은, 설계에 필요한 학습 횟수가 획기적으로 줄면서 인식률은 보존되어, 새로운 대안이 될 것으로 사료된다.

문맥 독립 화자인식을 위한 공간 분할 벡터 양자기 설계 (A Classified Space VQ Design for Text-Independent Speaker Recognition)

  • 임동철;이행세
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.673-680
    • /
    • 2003
  • 이 논문은 문맥 독립 화자인식에 사용될 벡터 양자기의 설계법 개선에 관한 연구이다. 구체적으로 벡터 양자기 코드북 생성 과정에서 특징 벡터 공간을 분할하여, 양자기 설계 시 학습에 필요한 계산 복잡도를 획기적으로 줄이는 방법을 제안한다. 제안된 공간 분할 벡터 양자기 설계법은 저자가 제안한 문맥 종속 화자인식을 위한 준비반복 벡터 양자기 설계법의 벡터 공간에 대한 일반화이다. 공간 분할 벡터 양자기 설계법은 종래의 설계법이 코드북 생성에 반복적 학습 설계를 사용한다는 것과 대조를 이룬다. 또한 공간 분할 벡터 양자기 설계법의 특징은 다음과 같다. 첫째, 이 설계법은 특징 벡터 공간을 분할한 공간 분할 군집을 이용함으로써 반복 학습을 하지 않는다. 둘째, 설계된 각 양자 영역은 공간 분할 군집의 양자 영역을 원용하며, 양자점은 각각의 통계 분포에 대해 최적점으로 설정된다. 셋째, 공간 분할 군집은 특징 벡터 집합에 대해 표본 벡터 생성법(CSVQ1, 2), 특징 벡터 공간에 대해 균일 초격자 구조 생성법(CSYQ3)으로 형성하였다. 수치 실험은 화자 10명이 발성한 50개의 문장에 대해 문맥 독립 화자인식 실험으로 수행되었다. 특징계수는 12차 멜켑스트럼 벡터를 사용하였고 각각의 공간 분할 코드북 생성법에 대해 코드북 크기를 32부터 128까지 변화시키면서 기존의 벡터 양자기 인식법과 비교하였다. 제안된 방법은 표본 벡터 생성법을 사용한 경우 인식률 100%로 기존의 방법과 같은 결과를 보였다. 따라서 제안된 공간 분할 벡터 양자기 설계법은 설계에 필요한 계산량이 획기적으로 줄면서 인식률은 보존되어 문맥 독립 화자 인식에 새로운 대안이 되며 또한 특징 벡터 공간을 설정할 수 있는 다양한 응용에 적용이 가능할 것으로 사료된다.

Sub-Stream 기반의 Eigenvoice를 이용한 고속 화자적응 (Fast Speaker Adaptation Using Sub-Stream Based Eigenvoice)

  • 송화전;이종석;김형순
    • 대한음성학회지:말소리
    • /
    • 제55권
    • /
    • pp.93-102
    • /
    • 2005
  • In this paper, sub-stream based eigenvoice method is proposed to overcome the weak points of conventional eigenvoice and dimensional eigenvoice. In the proposed method, sub-streams are automatically constructed by the statistical clustering analysis that uses the correlation information between dimensions. To obtain the reliable distance matrix from covariance matrix for dividing into optimal sub-streams, MAP adaptation technique is employed to the covariance matrix of training data and the sample covariance of adaptation data. According to our experiments, the proposed method shows $41\%$ error rate reduction when the number of adaptation data is 50.

  • PDF

불특정 화자의 음성 인식을 위한 표준음 설정 방법에 관한 연구 (A Study on the Creation Rule of Reference Templates to Recognize Speech for Speaker-independent)

  • 김계국;안태옥;이순협;이종악
    • 대한전자공학회논문지
    • /
    • 제25권7호
    • /
    • pp.715-722
    • /
    • 1988
  • It is very important that we create reference templates to recognize speech of speeker-independent as convergence as possible vocal tract variation of each speaker. We used to clustering technique for this and creation rule of reference templates to be cluster centers is key point of thema. In this paper, we created reference tempaltes using the minimax for existance and MMS technique suggested in this study. Also, we created reference template until top 3 and compared to recognition result. When we create 3 reference templates recognition rate is 91.6% for minimax and recognition rate is 95.8% for MMS.

  • PDF

Korean Phoneme Recognition by Combining Self-Organizing Feature Map with K-means clustering algorithm

  • Jeon, Yong-Ku;Lee, Seong-Kwon;Yang, Jin-Woo;Lee, Hyung-Jun;Kim, Soon-Hyob
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 FIFTH WESTERN PACIFIC REGIONAL ACOUSTICS CONFERENCE SEOUL KOREA
    • /
    • pp.1046-1051
    • /
    • 1994
  • It is known that SOFM has the property of effectively creating topographically the organized map of various features on input signals, SOFM can effectively be applied to the recognition of Korean phonemes. However, is isn't guaranteed that the network is sufficiently learned in SOFM algorithm. In order to solve this problem, we propose the learning algorithm combined with the conventional K-means clustering algorithm in fine-tuning stage. To evaluate the proposed algorithm, we performed speaker dependent recognition experiment using six phoneme classes. Comparing the performances of the Kohonen's algorithm with a proposed algorithm, we prove that the proposed algorithm is better than the conventional SOFM algorithm.

  • PDF

Modified ISODATA 방법을 이용한 불특정화자 단독어 인식 (Speaker-Independent Isolated Word Recognition Using A Modified ISODATA Method)

  • 황우근;안태옥;이형준;김순협
    • 한국음향학회지
    • /
    • 제6권4호
    • /
    • pp.31-43
    • /
    • 1987
  • 본 논문은 불특정화자의 한국어 단독음인식에 관한 연구로써, 새로운 집단화 방법인 Modified-ISODATA 집단화 방법을 제안한다. 제안된 방법은 종래의 ISODATA 알고리즘에서 외부 고립점 처리 및 분리과정을 단순화 하여, 정확하고도 자동화된 집단의 중심점을 찾는 것을 목적으로 한다. 본 알고리즘을 적용한 결과, 10명의 남성 화자와 4명의 여성 화자가 발음한 11개의 숫자음에 대하여, 최근에 발표된 Modified K-means 방법보다 좋은 인식율을 나타내어, 보다 정확한 집단의 중심점을 찾아내었음을 입증해 보였다.

  • PDF

변형된 Dynamic Averaging 방법을 이용한 단독어인식 (Isolated Word Recognition using Modified Dynamic Averaging Method)

  • 정의봉;고영혁;이종악
    • 한국음향학회지
    • /
    • 제10권2호
    • /
    • pp.23-28
    • /
    • 1991
  • 본 논문을 특정화자에 대한 단독어 음성 인식에 대한 연구이다. 우리는 표준패턴으로서 변형된 dynamic linear averaging 방법을 이용한 DTW 음성 인식 시스템을 제안한다. 57개의 모든 도시명이 인식 대상 어휘로 선정되었고 12차 LPC cepstram 계수를 특징계수로 사용하였다. 이 논문은 표준패턴으로 변형된 dynamic linear averaging 방법을 이용하여 인식 실험을 한것 이외에도 같은 데이터 같은 조건상에서 causal 방법과 dynamic averaging방법, linear averaging방법, clustering 방법을 이용하여 실험하였다. 실험결과로 변형시킨 dynamic linear averaging 방법을 이용한 DTW 음성인식이 97.6%로 가장 좋은 인식율을 보였다.

  • PDF

한국어 번역 소설에서 인물명 명사구의 동일인물 공통참조 클러스터링 방법 (A Method for Clustering Noun Phrases into Coreferents for the Same Person in Novels Translated into Korean)

  • 박태근;김승훈
    • 한국멀티미디어학회논문지
    • /
    • 제20권3호
    • /
    • pp.533-542
    • /
    • 2017
  • Novels include various character names, depending on the genre and the spatio-temporal background of the novels and the nationality of characters. Besides, characters and their names in a novel are created by the author's pen and imagination. As a result, any proper noun dictionary cannot include all kinds of character names. In addition, the novels translated into Korean have character names consisting of two or more nouns (such as "Harry Potter"). In this paper, we propose a method to extract noun phrases for character names and to cluster the noun phrases into coreferents for the same character name. In the extraction of noun phrases, we utilize KKMA morpheme analyzer and CPFoAN character identification tool. In clustering the noun phrases into coreferents, we construct a directed graph with the character names extracted by CPFoAN and the extracted noun phrases, and then we create name sets for characters by traversing connected subgraphs in the directed graph. With four novels translated into Korean, we conduct a survey to evaluate the proposed method. The results show that the proposed method will be useful for speaker identification as well as for constructing the social network of characters.

비교사 토론 인덱싱을 위한 시청각 콘텐츠 분석 기반 클러스터링 (Audio-Visual Content Analysis Based Clustering for Unsupervised Debate Indexing)

  • 금지수;이현수
    • 한국음향학회지
    • /
    • 제27권5호
    • /
    • pp.244-251
    • /
    • 2008
  • 본 연구에서는 시청각 정보를 이용한 비교사 토론 인덱싱 방법을 제안한다. 제안하는 방법은 BIC (Bayesian Information Criterion)에 의한 음성 클러스터링 결과와 거리기반 함수에 의한 영상 클러스터링 결과를 결합한다. 시청각 정보의 결합은 음성 또는 영상 정보를 개별적으로 사용하여 클러스터링할 때 나타나는 문제점을 줄일 수 있고, 토론 데이터의 효과적인 내용 기반의 분석이 가능하다. 제안하는 방법의 성능 평가를 위해 서로 다른 5종류의 토론 데이터에 대해 음성, 영상 정보를 개별적으로 사용할 때와 두 가지 정보를 동시에 사용할 때의 성능 평가를 수행하였다. 실험 결과 음성과 영상 정보를 결합한 방법이 음성, 영상 정보를 개별적으로 사용할 때 보다 토론 인덱싱에 효과적임을 확인하였다.

가변어휘 핵심어 검출 성능 향상을 위한 비핵심어 모델 (Non-Keyword Model for the Improvement of Vocabulary Independent Keyword Spotting System)

  • 김민제;이정철
    • 한국음향학회지
    • /
    • 제25권7호
    • /
    • pp.319-324
    • /
    • 2006
  • 본 논문에서는 화자독립 가변어휘 핵심어 검출기의 성능을 개선하기 위하여 두 가지의 새로운 비핵심어 모델링 방법을 제안한다. 첫째는 K-means 알고리즘 기반 monophone 군집화 방법을 개선하기 위해 monophone을 state단위로 결정트리를 기반으로 군집화하여 비핵심어를 모델링하는 방법이다. 둘째는 single state multiple mixture 방법을 개선하기 위해 음절단위 multi-state multiple mixture 방법으로 모델링하는 방법이다. 실험에서 ETRI 표준 한국어 공통음성 단어 DB를 이용하여 트라이폰 모델을 훈련하였고, 훈련에 사용하지 않은 음성데이터를 이용하여 핵심어 검출closed 테스트를 수행하였다. 그리고 사무실 환경에서 4명의 화자가 각각 100문장씩 발성한 400문장의 음성데이터를 이용하여 100단어 핵심어 검출 open 테스트를 수행하였다. 실험 결과 결정트리기반 상태 군집화 방법이 기존의 K-means 알고리듬 기반 monophone clustering 방법보다 핵심어 검출 성능이 28%/29%(closed/open test) 향상되었다 그리고 음절단위 multi-state multiple mixture 방법이 비핵심어 전체를 single state 모델로 구성하는 방법보다 핵심어 검출 성능이 22%/2%(closed/open test) 향상됨으로써 본 논문에서 제안한 두 가지 알고리듬이 우수한 결과를 나타내었다