• 제목/요약/키워드: Voice classification

검색결과 150건 처리시간 0.03초

성문(聲紋)과 사상체질(四象體質)과의 상관성(相關性)에 관(關)한 연구(硏究) (A Study on the Correlation between Sound Spectrogram and Sasang Constitution)

  • 양승현;김달래
    • 사상체질의학회지
    • /
    • 제8권2호
    • /
    • pp.191-202
    • /
    • 1996
  • 사상의학(四象醫學)에 있어서 체질변증(體質辨證)은 매우 중요한 과제로서 많은 의가(醫家)들에 의해 연구되고 있으나 지금까지 객관적으로 인정된 방법은 없다고 하겠다. 본 연구는 성문(聲紋)과의 상관성(相關性)을 통하여 사상체질(四象體質) 변증(辨證)에 도움이 되고자 하였다. 태음인(太陰人) 26명, 소음인(少陰人) 25명, 소양인(少陽人) 15명의 음성(音聲)울 녹음하여 시간 측정을 하였고, 성문분석기로 음성의 기본주파수(基木周波數)를 분석하여 비교하였으며 결과는 다음과 같다. 1. 태음인, 소음인, 소양인의 측정된 문장 발음 속도는 유사한 경향을 보였다. 2. 기본주파수 빈도분포그래프와 정규분포 그래프에서 태음인의 중심값이 소음인과 소양인에 비해 낮게 나타났으며, 소음인과 소양인 사이의 중심값은 유사한 경향을 보였다. 3. 기본주파수 빈도분포 그래프와 정규분포 그래프에서 폭의 경우는 체질 간에 유사한 경향을 보였다. 4. 세 체질의 기본주파수 평균값의 경우 태음인은 소음인에 비해 낮게 나타나서 태음인과 소음인은 통계학적으로 유의적인 차이점이 인정되었으며, 이는 태음인의 저음 사용이 소음인에 비하여 많음을 의미 한다고 볼 수 있다. 따라서 성문의 기본주파수 분석을 통한 사상체질 분류검사방법은 사상체질의 객관화를 위한 하나의 보조적인 방법이 될 수 있다고 사료된다. 제언 및 문제점 1. 문장뿐만 아니라 실제 대화음성의 분석이 필요할 것으로 생각된다. 2. 좀 더 많은 자료의 수집 분석이 필요하며, 남성뿐만 아니라 여성과 연령별로의 분석도 연구되어야 한다고 생각된다. 3. 녹음시의 여러 변수, 예를 들연 녹음시의 잡음, 조사대상자의 긴장, 또는 감기나 기타 질병으로 인한 음성변화 등에 대한 문제점도 주의해야 할 것으로 생각된다. 4. 기본주파수이외의 다른 변수, 예를 들어 공명주파수나 음의 강도등을 이용한 체질과의 상관성에 관한 연구가 필요하다고 생각된다.

  • PDF

오피니언 마이닝을 이용한 지능형 VOC 분석시스템 (Intelligent VOC Analyzing System Using Opinion Mining)

  • 김유신;정승렬
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.113-125
    • /
    • 2013
  • 기업 경영에 있어서 고객의 소리(VOC)는 고객 만족도 향상 및 기업의사결정에 매우 중요한 정보이다. 이는 비단 기업뿐만 아니라 대고객, 대민원 업무를 처리하는 모든 조직에 있어서도 동일하다. 때문에 최근에는 기업뿐만 아니라 공공, 의료, 금융, 교육기관 등 거의 모든 조직이 VOC를 수집하여 활용하고 있다. 이러한 VOC는 방문, 전화, 우편, 인터넷게시판, SNS 등 다양한 채널을 통해 전달되지만, 막상 이를 제대로 활용하기는 쉽지 않다. 왜냐하면, 고객이 매우 감정적인 상태에서 고객의 주관적 의사를 음성 또는 문자로 표출하기 때문에 그 형식이나 내용이 정형화되어 있지 않고 저장하기도 어려우며 또한 저장하더라도 매우 방대한 분량의 비정형 데이터로 남기 때문이다. 본 연구는 이러한 비정형 VOC 데이터를 자동으로 분류하고 VOC의 유형과 극성을 판별할 수 있는 오피니언 마이닝 기반의 지능형 VOC 분석 시스템을 제안하였다. 또한 VOC 오피니언 분석의 기준이 되는 주제지향 감성사전 개발 프로세스와 각 단계를 구체적으로 제시하였다. 그리고 본 연구에서 제시한 시스템의 효용성을 검증하기 위하여 의료기관 홈페이지에서 수집한 4,300여건의 VOC 데이터를 이용하여 병원에 특화된 감성어휘와 감성극성값을 도출하여 감성사전을 구축하고 이를 통해 구현된 VOC분류 모형의 정확도를 비교하는 실험을 수행하였다. 그 결과 "칭찬, 친절함, 감사, 무사히, 잘해, 감동, 미소" 등의 어휘는 매우 높은 긍정 오피니언 값을 가지며, "퉁명, 뭡니까, 말하더군요, 무시하는" 등의 어휘들은 강한 부정의 극성값을 가지고 있음을 확인하였다. 또한 VOC의 오피니언 분류 임계값이 -0.50일 때 가장 높은 분류 예측정확도 77.8%를 검증함으로써 오피니언 마이닝 기반의 지능형 VOC 분석시스템의 유효성을 확인하였다. 그러므로 지능형 VOC 분석시스템을 통해 VOC의 실시간 자동 분류 및 대응 우선순위를 도출하여 고객 민원에 대해 신속히 대응한다면, VOC 전담 인력을 효율적으로 운용하면서도 고객 불만을 초기에 해소할 수 있는 긍정적 효과를 기대해 볼 수 있을 것이다. 또한 VOC 텍스트를 분석하고 활용할 수 있는 오피니언 마이닝 모형이라는 새로운 시도를 통해 향후 다양한 분석과 실용 프레임워크의 기틀을 제공할 수 있을 것으로 기대된다.

인공지능 프로세서 기술 동향 (AI Processor Technology Trends)

  • 권영수
    • 전자통신동향분석
    • /
    • 제33권5호
    • /
    • pp.121-134
    • /
    • 2018
  • The Von Neumann based architecture of the modern computer has dominated the computing industry for the past 50 years, sparking the digital revolution and propelling us into today's information age. Recent research focus and market trends have shown significant effort toward the advancement and application of artificial intelligence technologies. Although artificial intelligence has been studied for decades since the Turing machine was first introduced, the field has recently emerged into the spotlight thanks to remarkable milestones such as AlexNet-CNN and Alpha-Go, whose neural-network based deep learning methods have achieved a ground-breaking performance superior to existing recognition, classification, and decision algorithms. Unprecedented results in a wide variety of applications (drones, autonomous driving, robots, stock markets, computer vision, voice, and so on) have signaled the beginning of a golden age for artificial intelligence after 40 years of relative dormancy. Algorithmic research continues to progress at a breath-taking pace as evidenced by the rate of new neural networks being announced. However, traditional Von Neumann based architectures have proven to be inadequate in terms of computation power, and inherently inefficient in their processing of vastly parallel computations, which is a characteristic of deep neural networks. Consequently, global conglomerates such as Intel, Huawei, and Google, as well as large domestic corporations and fabless companies are developing dedicated semiconductor chips customized for artificial intelligence computations. The AI Processor Research Laboratory at ETRI is focusing on the research and development of super low-power AI processor chips. In this article, we present the current trends in computation platform, parallel processing, AI processor, and super-threaded AI processor research being conducted at ETRI.

Multi-channel Long Short-Term Memory with Domain Knowledge for Context Awareness and User Intention

  • Cho, Dan-Bi;Lee, Hyun-Young;Kang, Seung-Shik
    • Journal of Information Processing Systems
    • /
    • 제17권5호
    • /
    • pp.867-878
    • /
    • 2021
  • In context awareness and user intention tasks, dataset construction is expensive because specific domain data are required. Although pretraining with a large corpus can effectively resolve the issue of lack of data, it ignores domain knowledge. Herein, we concentrate on data domain knowledge while addressing data scarcity and accordingly propose a multi-channel long short-term memory (LSTM). Because multi-channel LSTM integrates pretrained vectors such as task and general knowledge, it effectively prevents catastrophic forgetting between vectors of task and general knowledge to represent the context as a set of features. To evaluate the proposed model with reference to the baseline model, which is a single-channel LSTM, we performed two tasks: voice phishing with context awareness and movie review sentiment classification. The results verified that multi-channel LSTM outperforms single-channel LSTM in both tasks. We further experimented on different multi-channel LSTMs depending on the domain and data size of general knowledge in the model and confirmed that the effect of multi-channel LSTM integrating the two types of knowledge from downstream task data and raw data to overcome the lack of data.

미디어에서의 오디오 메타데이터 최적화 추출 및 분류 방안에 대한 연구 (A Research of Optimized Metadata Extraction and Classification of in Audio)

  • 윤민희;박효경;문일영
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.147-149
    • /
    • 2021
  • 최근 미디어의 시장의 급격한 성장과 그에 따른 사용자들의 기대감이 증가하고 있다. 이 연구에서는 미디어에서 추출한 오디오를 통하여 다양한 태그를 추출하고 인공지능을 활용하여 특정 카테고리로 분류한다. 이 카테고리는 감정에 대한 종류이며 기쁨, 분노, 슬픔, 즐거움, 사랑, 증오, 욕망 등이 있을 수 있다. 해당 연구를 수행하기 위하여 Jupyter Notebook 프로그램을 사용하며, Jupyter Notebook 내에서 LiBROSA 라이브러리를 이용하여 음성데이터를 분석하고 Keras와 계층 모델을 이용하여 Neural Network를 학습한다.

  • PDF

CSL을 통한 음향특성과 사상체질간의 상관성 연구 (An Study on the Correlation between Sound Characteristics and Sasang Constitution by CSL)

  • 신미란;김달래
    • 사상체질의학회지
    • /
    • 제11권1호
    • /
    • pp.137-157
    • /
    • 1999
  • 1. 연구배경 사상인은 생리 및 병리 현상에 차이를 나타낼 뿐만 아니라 섭생법 및 치료법에서도 각기 다른 방법을 적용하고 있다. 그러므로 사상의학에 있어서 체질변증분야가 매우 중요한 과제라 하겠다. 동무는 사상인변증의 진단지표를 외형 심성 병증 등을 제시하였고, 많은 의가들에 의해 여러 가지 새로운 체질변증의 방법이 모색되어 임상에 시도 활용되고 있는 추세이나 체질변증의 객관성유지에 어려운 점이 많아서 학문의 발전에 적지 않은 난관이 따랐다. 최근에는 음성과학의 발달에 힘입어 음성의 특성을 가시적 수치적으로 객관화 할 수 있는 가능성이 높아졌다. 본 연구는 이러한 음성과학을 바탕으로 여러 의가들에 의해 제시되어 온 사상인의 음성적 특정을 각 개인의 사상체질과 직접적으로 연관성이 있다고 판단되는 공명주파수와 기본주파수 등 여러 음성학적인 pattern자료들을 모집단으로부터 획득하여 체질별로 객관적인 수치로 비교 분석함으로써 음성과 체질과의 관계에 대하여 살펴보고 개인의 성문에 의한 사상체질 판단의 기본자료로 활용하고자 하였다. 2. 연구방법 상지대한의과대학 남학생 132명과 기타8명을 대상으로 하였다. 음향특성과 체질과의 상관성에 관하여 문헌조사를 하였다. 설문지와 체질전문가에 의하여 연구대상자를 체질 판별하였다. 연구대상자의 음성특성에 대한 설문조사를 하였고 CSL로 Pitch. Formant Frequency. Energy, Time of reading composition 등을 분석하고 통계 처리하여 체질 판별을 시도하였다. 3. 연구결과 1) 설문조사결과 소음인은 음성이 낮고 완만하며 조용한 편으로, 소양인은 음성이 높고 밝으며 급하고 함부로 말을 하는 것으로, 태음인은 음성이 낮고 무거우며 완만하고 굵고 성량이 풍부한 것으로 나타났다. 2) 문장의 평균 발음 시간에서 태양인은 다른 체질에 비하여 유의성 있게 길었다. 몸무게에서 태음인은 다른 체질에 비하여 유의성 있게 높았다. Formant frequency 1에서는 태양인이, Bandwidth 1에서는 소음인과 태양인이 다른 체질에 비하여 유의성 있게 낮았으며, Bandwidth 2와 Formant frequency 5에서는 태양인이 유의성 있게 높았다. Pitch Maximum과 Pitch Maximum-Pitch Minimum에서는 소음인과 태양인이 유의성 있는 차이를 나타내었다. Energy Mean에서는 태양인과 태음인에서 유의성 있는 차이를 나타내었다. 3) Multi-dimensional 4-class minimum-distance classifier 분석결과 모든 항목으로 분석한 것 보다 체질별로 특정 항목을 갖고 분석한 것이 높은 일치를 나타내었다. SPSS/PC+프로그램에서 일원분산분석과 판별분석결과 네 체질사이에서의 정판별력보다 소양인을 제외한 3체질 사이에서의 정판별력이 높았다. CART모형에서 앞에서 제시된 다른 방법들보다 높은 예측율을 보이고 있다. 연구수행과정 중에 표준화, 녹음기술, 적적한 문장의 선택, 음성분석 항목선택, 통계기법, 적절한 알고리즘의 개발 등의 많은 문제점이 나타나고 있으며 관련분야의 보완과 연구진행이 지속적으로 있어야 할 것으로 사려 된다. 다각도로 진행되고 있는 사상의학에서의 객관화 노력과 통계적인 방법론들이 적용되고 체질진단에 있어 가장 최적의 알고리즘을 찾아낼 수 있다면, 정확한 체질 진단과 더불어 그에 따른 환자들의 치료와 약물처방에 있어서도 많은 도움을 줄 수 있으리라 생각된다. 성문과 음성특성의 분석을 통한 사상체질 분류검사방법은 사상체질의 객관화를 위한 하나의 보조적인 방법이 될 수 있다고 사료된다.

  • PDF

다단계 신경회로망을 이용한 후두질환 감별진단 시스템의 개발 (A Basic Study on the Differential Diagnostic System of Laryngeal Diseases using Hierarchical Neural Networks)

  • 전계록;김기련;권순복;예수영;이승진;왕수건
    • 대한의용생체공학회:의공학회지
    • /
    • 제23권3호
    • /
    • pp.197-205
    • /
    • 2002
  • 본 연구에서는 잡음이 존재하는 공간에서 획득한 음성신호로부터 후두질환을 감별진단 할 수 있는 분류기를 구현하였다. 이를 위해 후두질환 환자로부터 수집한 /아/ 모음에 잡음을 혼입하여 음성 신호를 획득하였고, 여러 가지 후두질환을 감별진단 할 수 있는 파라미터를 추출하였으며. 이를 입력으로 하는 계층적 신경회로망을 구성하여 후두질환을 감별진단 하도록 하였다. 감별진단용 분류기는 다섯 단계의 계층적 신경회로망으로 구성하였다 첫 번째 신경회로망은 정상 양성 후두질환과 악성 후두질환을. 두 번째 신경회로망은 정상과 양성 후두질환을 감별진단 하도록 하였다 그리고 세 번째 신경회로망은 양성 후두질환 중 후두용. 성대결절 후두마비를 감별진단 하도록 하였으며. 네 번째와 다섯 번째 신경회로망은 성문암 1-4기를 감별진단 하도록 구성하였다. 분류기에 적용된 신경회로망은 다층퍼셉트론 구조로써 역전파 알고리듬으로 학습시켰으며, 선형변환 표준점수변환 등 전처리과정을 적용하여 분류기의 성능을 개선하였다. 후두질환의 감별진단 결과 후두용 88.23%. 정상. 성대결절. 후두마비 100%. 성문암 1기 90%, 성문암 2-4기 100%의 감별진단율을 관찰할 수 있었다.

플랫폼 분류 기준 고찰 : 감각의 입·출력 (Classification standard of Communication Tool)

  • 김효은
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.189-190
    • /
    • 2018
  • 정보콘텐츠는 문자, 이미지, 음성에 플로우로 나타나는 인간 체험 방식 및 컴퓨터와 인간 사이의 언어까지 들여다 볼 수 있는 개념과 구조를 요구한다. 빌렘 플루서의 독창적인 학문인 코무니콜로기는 인간 인식의 경계를 재고하게 하면서, 경계를 재구성하는 지평을 열어 준다. 이를 통해 인간 소통의 근본 요소인 감각의 입출력을 도출할 수 있었으며, 이는 소통 도구를 분류하고 재구성하는 기준이 된다. 인간을 기준으로 외부 자극을 받아들이는 경계는 감각으로 볼 수 있으며, 소통이 이루어지는 방향은 입출력으로 표현할 수 있다. 콘텐츠를 향유한다는 것은 인간 소통의 경계인 감각이 방향을 통해 작동하는 것으로 볼 수 있다. 감각의 입출력을 소통 도구에 적용해 보면, 책은 시각의 입력으로, 텔레비전은 시청각의 입력으로, 데스크탑은 시청각의 입력과 촉각(손가락)의 출력으로, 모바일은 신청각의 입력과 촉각(손가락, 다리)의 출력으로 볼 수 있다. 기존의 다양한 플랫폼과 콘텐츠, 아직 드러나지 않은 플랫폼도 일관된 기준을 통해 좌표를 정해 줄 수 있다. 이를 통해 공학에서 접근할 수 없는 콘텐츠 기획과 전망이 가능하다.

  • PDF

후두암 감별진단에 있어 성문전도(Electroglottograph) 파라미터의 유용성 (The Effectiveness of Electroglottographic Parameters in Differential Diagnosis of Laryngeal Cancer)

  • 송인무;고의경;전경명;권순복;김기련;전계록;김광년;정동근;조철우
    • 대한후두음성언어의학회지
    • /
    • 제14권1호
    • /
    • pp.16-25
    • /
    • 2003
  • 후두암은 유병율이 높지만 조기에 발견하면 90% 이상의 치유율과 발성기능의 보존이 가능하며 현재 음성분석을 이용한 진단법이 시도되고 있으나 정립된 선별검사법은 없는 실정이다. 성문전도검사(electroglottography, EGG)는 성대의 진동양상을 알 수 있는 비침습적 검사로서 발성과 음성합성의 연구에 많이 사용되고 있다. 본 연구는 EGG에서 관찰되는 파라미터들을 다층 퍼셉트론(multilayer perceptron)구조의 신경회로망(artificial neural network)으로 감별하는 기법을 이용하여 후두암 감별법에 대한 연구로서 부산대학교병원을 내원한 후두암 환자 10명과 양성후두질환 26명을 대상으로 새로 고안한 Electroglottograph(v1.0)를 이용하여 검사하고 이의 임상적 유용성을 평가하였다. EGG 파라미터인 closed quotient(CQ), speed quotient(SQ), speed index(SI), fundamental frequency(F0), Jitter, Shimmer 등은 MATLAB 6.5 (Mathwork, Inc.)로 작성한 분석 프로그램을 이용하여 추출하였다. 각 환자에서 추출된 EGG 파라미터들을 다층 퍼셉트론 구조의 신경회로망으로 감별하였다. CQ는 각 질환군 간에 유의한 차이가 없었지만 SQ, SI, Jitter, Shimmer 등은 성대질환의 특성에 따라 유의한 차이를 보였다. 신경회로망에서 감별한 결과 CQ를 제외한 SQ, SI, Jitter, Shimmer 등에서 71.3-90%의 후두암의 감별율을 보였다. 또한 SQ, SI, Jitter, Shimmer를 3개씩 조합한 실험에서는 SQ-Jitter-Shimmer와 SQ-SI-Shimmer의 후두암의 감별율이 93%로 가장 높았고, SQ-SI-Jitter 90.9%, SI-Jitter-Shimmer 88.6%로 전체적으로 85% 이상의 높은 감별율을 나타내었다. 이러한 결과는 EGG검사와 신경회로망을 이용한 양성과 악성 후두질환의 감별이 가능함을 시사한다. 향후 성대 질환의 병태생리를 대변할 수 있는 파라미터가 추가로 개발되고 분류 알고리듬이 개선된다면 EGG를 이용한 성대질환의 감별 진단이 보다 정확해질 것으로 사료되었다.

  • PDF

성대신호 기반의 명령어인식기를 위한 특징벡터 연구 (Effective Feature Vector for Isolated-Word Recognizer using Vocal Cord Signal)

  • 정영규;한문성;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권3호
    • /
    • pp.226-234
    • /
    • 2007
  • 본 논문은 환경 노이즈를 원천적으로 차단하는 성대 마이크를 이용한 명령어 인식기를 개발한다. 성대마이크는 환경 노이즈의 효과를 최소화하는 장점이 있다. 그러나 고주파의 부재와 부분적인 포먼트 정보 손실 때문에, 성대마이크를 이용해서 개발된 ASR시스템은 표준마이크를 이용한 시스템에 비해 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로 낮은 성능을 보인다. 이러한 문제 때문에 ASR시스템 개발에 성대마이크를 이용한 경우는 표준 마이크로부터 입력되는 정보 보안하는데 주로 사용된다. 본 논문은 한국어의 음운적 특정과 신호 분석을 통해 성대마이크만을 사용한 높은 성능의 ASR 시스템을 개발 할 수 있음을 보인다. 주파수 대역내 에너지 합을 이용하는 MFCC 알고리즘이 갖는 성대신호 분석의 문제점을 제시하고, 성대신호를 대상으로 보다 높은 성능을 갖는 특정추출 알고리즘의 조건을 제시한다. 이러한 조건은 (1) 민감한 band-pass filter와 (2) 유/무성음 분리를 위해 사용하는 특정벡터의 사용이다 실험 결과 제안된 조건을 만족하는 ZCPA 알고리즘을 적용한 경우가 MFCC를 적용한 경우보다 약 16%정도의 높은 성능을 보인다. 그러고 CMS와 RASTA와 같은 channel normalization 알고리즘을 적용한 경우 약 2%의 성능 향상이 있다.