통합 검색 | Korea Science

Deep CNN 기반의 한국어 음소 인식 모델 연구 (Korean Phoneme Recognition Model with Deep CNN)

홍윤석;기경서;권가진
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2018년도 춘계학술발표대회
- /
- pp.398-401
- /
- 2018
본 연구에서는 심충 합성곱 신경망(Deep CNN)과 Connectionist Temporal Classification (CTC) 알고리즘을 사용하여 강제정렬 (force-alignment)이 이루어진 코퍼스 없이도 학습이 가능한 음소 인식 모델을 제안한다. 최근 해외에서는 순환 신경망(RNN)과 CTC 알고리즘을 사용한 딥 러닝 기반의 음소 인식 모델이 활발히 연구되고 있다. 하지만 한국어 음소 인식에는 HMM-GMM 이나 인공 신경망과 HMM 을 결합한 하이브리드 시스템이 주로 사용되어 왔으며, 이 방법 은 최근의 해외 연구 사례들보다 성능 개선의 여지가 적고 전문가가 제작한 강제정렬 코퍼스 없이는 학습이 불가능하다는 단점이 있다. 또한 RNN 은 학습 데이터가 많이 필요하고 학습이 까다롭다는 단점이 있어, 코퍼스가 부족하고 기반 연구가 활발하게 이루어지지 않은 한국어의 경우 사용에 제약이 있다. 이에 본 연구에서는 강제정렬 코퍼스를 필요로 하지 않는 CTC 알고리즘을 도입함과 동시에, RNN 에 비해 더 학습 속도가 빠르고 더 적은 데이터로도 학습이 가능한 합성곱 신경망(CNN)을 사용하여 딥 러닝 모델을 구축하여 한국어 음소 인식을 수행하여 보고자 하였다. 이 모델을 통해 본 연구에서는 한국어에 존재하는 49 가지의 음소를 추출하는 세 종류의 음소 인식기를 제작하였으며, 최종적으로 선정된 음소 인식 모델의 PER(phoneme Error Rate)은 9.44 로 나타났다. 선행 연구 사례와 간접적으로 비교하였을 때, 이 결과는 제안하는 모델이 기존 연구 사례와 대등하거나 조금 더 나은 성능을 보인다고 할 수 있다.
https://doi.org/10.3745/PKIPS.y2018m05a.398 인용 PDF

Hyperparameter experiments on end-to-end automatic speech recognition

Yang, Hyungwon;Nam, Hosung
- 말소리와 음성과학
- /
- 제13권1호
- /
- pp.45-51
- /
- 2021
End-to-end (E2E) automatic speech recognition (ASR) has achieved promising performance gains with the introduced self-attention network, Transformer. However, due to training time and the number of hyperparameters, finding the optimal hyperparameter set is computationally expensive. This paper investigates the impact of hyperparameters in the Transformer network to answer two questions: which hyperparameter plays a critical role in the task performance and training speed. The Transformer network for training has two encoder and decoder networks combined with Connectionist Temporal Classification (CTC). We have trained the model with Wall Street Journal (WSJ) SI-284 and tested on devl93 and eval92. Seventeen hyperparameters were selected from the ESPnet training configuration, and varying ranges of values were used for experiments. The result shows that "num blocks" and "linear units" hyperparameters in the encoder and decoder networks reduce Word Error Rate (WER) significantly. However, performance gain is more prominent when they are altered in the encoder network. Training duration also linearly increased as "num blocks" and "linear units" hyperparameters' values grow. Based on the experimental results, we collected the optimal values from each hyperparameter and reduced the WER up to 2.9/1.9 from dev93 and eval93 respectively.
https://doi.org/10.13064/KSSS.2021.13.1.045 인용 PDF KSCI

ON THE STRUCTURE AND LEARNING OF NEURAL-NETWORK-BASED FUZZY LOGIC CONTROL SYSTEMS

C.T. Lin;Lee, C.S. George
- 한국지능시스템학회:학술대회논문집
- /
- 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
- /
- pp.993-996
- /
- 1993
This paper addresses the structure and its associated learning algorithms of a feedforward multi-layered connectionist network, which has distributed learning abilities, for realizing the basic elements and functions of a traditional fuzzy logic controller. The proposed neural-network-based fuzzy logic control system (NN-FLCS) can be contrasted with the traditional fuzzy logic control system in their network structure and learning ability. An on-line supervised structure/parameter learning algorithm dynamic learning algorithm can find proper fuzzy logic rules, membership functions, and the size of output fuzzy partitions simultaneously. Next, a Reinforcement Neural-Network-Based Fuzzy Logic Control System (RNN-FLCS) is proposed which consists of two closely integrated Neural-Network-Based Fuzzy Logic Controllers (NN-FLCS) for solving various reinforcement learning problems in fuzzy logic systems. One NN-FLC functions as a fuzzy predictor and the other as a fuzzy controller. As ociated with the proposed RNN-FLCS is the reinforcement structure/parameter learning algorithm which dynamically determines the proper network size, connections, and parameters of the RNN-FLCS through an external reinforcement signal. Furthermore, learning can proceed even in the period without any external reinforcement feedback.
PDF

튜링의 인지과학: 튜링 탄생 백주년을 기념하는 메타수학 에세이 (Turing's Cognitive Science: A Metamathematical Essay for His Centennial)

현우식
- 인지과학
- /
- 제23권3호
- /
- pp.367-388
- /
- 2012
이 연구는 튜링의 탄생 백주년을 맞이하여 인지과학을 위한 그의 심대한 공헌을 고찰하기 위한 작업이다. 이 논문에서는 특히 튜링에게 가장 중요한 학문적 영향을 주었던 괴델의 시각을 통하여 튜링의 공헌과 입장이 논의된다. 이를 위하여 메타수학적 접근이 시도되며, (1) 튜링의 인지에 대한 수학적 분석, (2) 보편튜링기계, (3) 보편튜링기계의 한계, (4) 보편튜링기계의 한계를 넘는 모델로서의 오라클튜링기계, (5) 인지과학을 위한 튜링테스트가 논의된다. 이 연구에 의하면, 튜링의 공헌은 다음과 같이 정리될 수 있다. 첫째 튜링은 수리논리를 사용하여 마음과 물리적 세계의 새로운 가교를 발견했다. 둘째, 튜링은 마음의 작동에 대하여 새로운 형식적 분석을 제공했다. 셋째, 튜링은 자신의 튜링기계의 한계를 넘어서는 마음의 새로운 모델로서 오라틀 튜링기계와 연결주의적 신경망기계를 제시했다. 우리 인지과학자들은 튜링의 어깨 위에 서서 늘 새로운 튜링테스트를 기다리고 있게 될 것이다.
PDF

통합적 인지 모형의 가능성 (Toward a Possibility of the Unified Model of Cognition)

이영의
- 과학기술학연구
- /
- 제1권2호
- /
- pp.399-422
- /
- 2001
인지과학에서 최근 논의되고 있는 인지 이론들은 인지에 대한 적절한 모형을 제공하지 못하고 있다. 전통적인 인공지능 이론은 추리나 문제 해결과 같은 과제에는 적절한 것처럼 보이지만 문자와 음성 인식과 같은 패턴 인식 분야에서는 여전히 비효율적이다. 연결주의는 전통적인 인공지능 이론과는 정반대의 양상을 보이고 있다. 연결주의 체계는 패턴 인식에는 강하지만 추리에는 약하다. 한편 최근에 제시된 상황화 된 행동 이론은 전통적인 인공지능과 연결주의에서 기본적으로 전제되고 있는 표상의 개념을 부정하고 실제 세계에서 직접 유래되는 지각에 바탕을 둔 모형을 제시하지만 인간의 인지를 효과적으로 설명하고 있지 못하다. 인지 모형들이 갖고 있는 이러한 한계점들을 강조하여 나는 이 글에서 인공지능, 연결주의, 상황화된 행동 이론을 각각 좌뇌 모형, 우뇌 모형, 로봇 모형이라고 부르고 그러한 한계 상황을 벗어날 수 있는 방법으로서 모형들간의 양립가능성을 이용한 통합적 인지 모형의 구축을 모색한다.
PDF

가상 데이터와 융합 분류기에 기반한 얼굴인식 (Face Recognition based on Hybrid Classifiers with Virtual Samples)

류연식;오세영
- 전자공학회논문지CI
- /
- 제40권1호
- /
- pp.19-29
- /
- 2003
본 논문은 인위적으로 생성된 가상 학습 데이터와 융합 분류기를 이용한 얼굴인식 알고리즘을 제안한다. 특징공간에서의 최근접 특징 선택 방법과 연결주의 모델에 기반한 서로 다른 형태의 분류기를 융합하여 통합효과를 얻도록 하였다. 두 분류기는 모두 학습 데이터의 공간적인 분포에 따라 생성된 가상 학습데이터를 이용하여 학습되고 이용된다. 첫째로, 특징 공간에서의 각 정보(Angular Infnrmation) 를 이용하는 최근접특징각(the Nearest Feature Angle : NFA)을 이용하여 저장된 학습데이터와 가장 근접한 것을 찾고, 둘째로, 질의(Query) 얼굴 특징 정보를 정면얼굴 영상의 특징정보로 투영하여 얻은 정보에 기반한 분류기의 결과를 이용한다. 정면영상 특징정보로의 투영은 다층 신경망을 이용하여 정면 회상망(Frontal Recall Network)을 구현하였고, 이것을 여러 개 묶어 앙상블 네트웍으로 구성한 Ensemble 회상망(Ensemble Recall Network)을 사용하여 일반화 성능을 향상시켰다. 끝으로, 각 분류기의 결과에 따라 융합 분류기가 최종 결과를 선택하도록 하였다. 제안된 알고리즘을 6 종류의 서고 다른 학습/시험데이터 군에 적용하여 평균 96.33%의 인식률을 얻었다. 이것은 특징라인에 기반한 방법(the Nearest Feature Line) 평균 에러율의 61.2% 이며, 단일 분류기를 사용한 경우 보다 안정된 견과를 얻고 있다.
PDF KSCI

검색결과 46건 처리시간 0.027초

Deep CNN 기반의 한국어 음소 인식 모델 연구 (Korean Phoneme Recognition Model with Deep CNN)

Hyperparameter experiments on end-to-end automatic speech recognition

ON THE STRUCTURE AND LEARNING OF NEURAL-NETWORK-BASED FUZZY LOGIC CONTROL SYSTEMS

튜링의 인지과학: 튜링 탄생 백주년을 기념하는 메타수학 에세이 (Turing's Cognitive Science: A Metamathematical Essay for His Centennial)

통합적 인지 모형의 가능성 (Toward a Possibility of the Unified Model of Cognition)

가상 데이터와 융합 분류기에 기반한 얼굴인식 (Face Recognition based on Hybrid Classifiers with Virtual Samples)

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)