• 제목/요약/키워드: 발화 생성

검색결과 139건 처리시간 0.033초

"나꼼수현상"이 그려내는 문화정치의 명암: 권력-대항적인 정치시사콘텐츠의 함의를 맥락화하기 (A Critical Analysis of and Its Implications)

  • 이기형;이영주;황경아;채지연;천혜영;권숙영
    • 한국언론정보학보
    • /
    • 제58권
    • /
    • pp.74-105
    • /
    • 2012
  • 팟캐스트 프로그램 <나는 꼼수다>가 한국사회에 제기한 물음과 도전은 여러 가지 측면에서 충분히 주목할 만하다. 기존의 미디어양식과는 매우 차별화된 방식으로 <나는 꼼수다>는 정치사회적인 쟁점들을 개입적으로 조명했으며, 이 과정에서 기성의 언론이나 담론생산자들과는 매우 차별화되고 대안적인 접근과 더불어, 구성상의 새로움을 발현한 바 있다. 직설적이고 도발적인 발화와 강한 풍자성, 그리고 이른바 팩트와 가설 사이를 오가며 던지는 추정과 정치권력에 대한 비판과 희화로 특징을 들 수 있는 <나는 꼼수다>라는 신생 커뮤니케이션 양식의 부상과 위력은, 수용자대중과 전문가 집단 그리고 정치인들에게 매우 강한 인상을 남겼다. 특히 제도언론이 충분히 역할과 소임을 수행하고 있지 못한 국면에서, 또한 정치권력의 언론장과 공공영역에 대한 압박과 통제가 작동하고 있는 환경 속에서, <나는 꼼수다>는 기성의 언론과는 매우 차별화된 방식으로 정치사회적인 이슈들을 다루었으며, 이러한 대항적인 역할은 다수의 수용자들의 관심과 지지를 끌어내기도 했다. 한편 이 프로그램이 발휘하는 "정치적인 편향성"을 숨기지 않고 강하게 드러내는 관점의 표출 그리고 거칠고 파격적인 어법은 상당한 수준의 논쟁과 논란을 생성하기도 했다. 이 연구는 텍스트분석과 기사분석, 그리고 서면 인터뷰의 방식을 혼용함으로써, <나는 꼼수다>의 정치사회적인 기능과 담화의 매개체로서의 역할, 그리고 이 프로그램의 성취와 한계에 대하여 성찰적인 방식으로 조명하고자 시도했다.

  • PDF

머신 러닝을 활용한 과학 논변 구성 요소 코딩 자동화 가능성 탐색 연구 (Exploratory Research on Automating the Analysis of Scientific Argumentation Using Machine Learning)

  • 이경건;하희수;홍훈기;김희백
    • 한국과학교육학회지
    • /
    • 제38권2호
    • /
    • pp.219-234
    • /
    • 2018
  • 본 연구에서는 국내 교육학 연구에서 거의 사용되지 않던 머신 러닝 기술을 과학 교육 연구에 접목하여, 학생들의 과학 논변 활동에서 나타나는 논변의 구성 요소를 분석하는 과정을 자동화할 수 있는 가능성을 탐색해보았다. 학습 데이터로는 Toulmin이 제안하였던 틀에 따라 학생들의 과학 논변 구성 요소를 코딩한 국내 선행 문헌 18건을 수합하고 정리하여 990개의 문장을 추출하였으며, 테스트 데이터로는 실제 교실 환경에서 발화된 과학 논변 전사 데이터를 사용하여 483개의 문장을 추출하고 연구자들이 사전 코딩을 수행하였다. Python의 'KoNLPy' 패키지와 '꼬꼬마(Kkma)' 모듈을 사용한 한국어 자연어 처리(Natural Language Processing, NLP)를 통해 개별 논변을 구성하는 단어와 형태소를 분석하였으며, 연구자 2인과 국어교육 석사학위 소지자 1인의 검토 과정을 거쳤다. 총 1,473개의 문장에 대한 논변-형태소:품사 행렬을 만든 후에 다섯 가지 방법으로 머신 러닝을 수행하고 생성된 예측 모델과 연구자의 사전 코딩을 비교한 결과, 개별 문장의 형태소만을 고려하였을 때에는 k-최근접 이웃 알고리즘(KNN)이 약 54%의 일치도(${\kappa}=0.22$)를 보임으로써 가장 우수하였다. 직전 문장이 어떻게 코딩되어 있는지에 관한 정보가 주어졌을 때, k-최근접 이웃 알고리즘(KNN)이 약 55%의 일치도(${\kappa}=0.24$)를 보였으며 다른 머신 러닝 기법에서도 전반적으로 일치도가 상승하였다. 더 나아가, 본 연구의 결과는 과학 논변 활동의 분석에서 개별문장을 고려하는 단순한 방법이 어느 정도 유용함과 동시에, 담화의 맥락을 고려하는 것 또한 필요함을 데이터에 기반하여 보여주었다. 또한 머신 러닝을 통해 교실에서 한국어로 이루어진 과학 논변 활동을 분석하여 연구자와 교사들에게 유용하게 사용될 수 있는 가능성을 보여준다.

3차원 영상복원 데이터를 이용한 HMM 기반 의도인식 시스템 (HMM-based Intent Recognition System using 3D Image Reconstruction Data)

  • 고광은;박승민;김준엽;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제22권2호
    • /
    • pp.135-140
    • /
    • 2012
  • 대뇌 상의 mirror neuron system은 시각 정보에 기반한 모방학습 기능을 담당한다. 관측자의 mirror neuron system 영역을 관찰할 때, 행위자가 수행하는 목적성 행위의 전체가 아닌, 부분적으로 가려지거나 보이지 않는 영역을 포함하는 경우에도 해당 영역의 뉴런이 발화되는 과정을 통해 전체 행동의 의도를 유추할 수 있다. 이러한 모방학습 기능을 3D 비전 기반 지능 시스템에 적용하는 것이 본 논문의 목표이다. 본 연구실에서 선행 연구된 스테레오 카메라를 기반으로 획득된 3차원 영상에 대한 복원을 수행한다. 이 때 3차원 입력영상은 부분적으로 가려진 영역을 포함하는 손동작의 순차적 연속영상이다. 복원 결과를 기반으로 가려진 영역을 내포한 행위에 대하여 LK optical flow, unscented Kalman filter를 이용한 특징검출을 수행하고 의도인식의 수행을 위해, Hidden Markov Model을 활용한다. 순차적 입력데이터에 대한 동적 추론 기능은 가려진 영역을 포함한 손동작 인식 수행에 있어 적합한 특성을 가진다. 본 논문에서 제안하는 의도 인식을 위해 선행 연구에서 복원 영상에서의 객체의 윤곽선 및 특징 검출을 시뮬레이션 하였으며, 검출 특징에 대한 시간적 연속 특징벡터를 생성하여 Hidden Markov Model에 적용함으로써, 의도 패턴에 따른 손동작 분류 시뮬레이션을 수행하였다. 사후 확률 값의 형태로 손 동작 분류 결과를 얻을 수 있었으며, 이를 통한 성능의 우수함을 입증하였다.

심층신경망 구조에 따른 구개인두부전증 환자 음성 인식 향상 연구 (A study on recognition improvement of velopharyngeal insufficiency patient's speech using various types of deep neural network)

  • 김민석;정재희;정보경;윤기무;배아라;김우일
    • 한국음향학회지
    • /
    • 제38권6호
    • /
    • pp.703-709
    • /
    • 2019
  • 본 논문에서는 구개인두부전증(VeloPharyngeal Insufficiency, VPI) 환자의 음성을 효과적으로 인식하기 위해 컨볼루션 신경망 (Convolutional Neural Network, CNN), 장단기 모델(Long Short Term Memory, LSTM) 구조 신경망을 은닉 마르코프 모델(Hidden Markov Model, HMM)과 결합한 하이브리드 구조의 음성 인식 시스템을 구축하고 모델 적응 기법을 적용하여, 기존 Gaussian Mixture Model(GMM-HMM), 완전 연결형 Deep Neural Network(DNN-HMM) 기반의 음성 인식 시스템과 성능을 비교한다. 정상인 화자가 PBW452단어를 발화한 데이터를 이용하여 초기 모델을 학습하고 정상인 화자의 VPI 모의 음성을 이용하여 화자 적응의 사전 모델을 생성한 후에 VPI 환자들의 음성으로 추가 적응 학습을 진행한다. VPI환자의 화자 적응 시에 CNN-HMM 기반 모델에서는 일부층만 적응 학습하고, LSTM-HMM 기반 모델의 경우에는 드롭 아웃 규제기법을 적용하여 성능을 관찰한 결과 기존 완전 연결형 DNN-HMM 인식기보다 3.68 % 향상된 음성 인식 성능을 나타낸다. 이러한 결과는 본 논문에서 제안하는 LSTM-HMM 기반의 하이브리드 음성 인식 기법이 많은 데이터를 확보하기 어려운 VPI 환자 음성에 대해 보다 향상된 인식률의 음성 인식 시스템을 구축하는데 효과적임을 입증한다.

근전도 기반 휴먼-컴퓨터 인터페이스를 위한 이중 문턱치 기법 (Double Threshold Method for EMG-based Human-Computer Interface)

  • 이명준;문인혁;문무성
    • 대한의용생체공학회:의공학회지
    • /
    • 제25권6호
    • /
    • pp.471-478
    • /
    • 2004
  • 근육의 수의 수축에 의해 발생하는 근전도 신호는 다른 생체 신호보다는 비교적 출력 특성이 뛰어나기 때문에 많은 재활 시스템에 적용되고 있다. 본 논문에서는 상지 절단 환자 혹은 경추 손상에 의한 마비 환자를 위한 근전도 기반의 휴먼-컴퓨터 인터페이스를 제안한다. 사용자는 독립적으로 수의 수축이 가능한 두 근육 부위를 각기 혹은 동시에 움직임으로써 최대 4가지의 의도를 표현할 수 있다. 근육의 수축 정도는 근전도 진폭 신호의 절대 평균값과 미리 정해둔 문턱치를 비교하여 인식한다. 그러나 사용자가 동시에 두 근육을 수축하고자 할지라도 각각의 근육 발화 시점에 따른 시간차가 발생할 수 있기 때문에, 단순한 비교 방법으로는 동시 수의 수축에 관한 사용자의 의도를 정확하게 인식하기 어렵다. 따라서 근육의 수의 수축의 인식에 필요한 문턱치를 주 문턱치와 보조 문턱치의 이중 문턱치를 갖는 인식 방법을 제안한다. 이중 문턱치 인식 방법에 의해 두 근육이 동시에 수의 수축할 때에도 정확한 인식이 가능하므로, 각기 하나의 근육 수축 상태만을 인식하는 HCI보다도 많은 수의 인터페이스 명령을 생성할 수 있다. 구현한 실시간 근전도 처리 하드웨어를 이용하여, 정상인과 전완 절단 장애자에 대한 실험으로부터 본 논문에서 제안하는 이중 문턱치를 이용한 인식방법이 관전 의수와 전동 휠체어 제어용 HCI에 적용될 수 있음을 보인다.

구술 기록에 기반한 박물관 전시콘텐츠 생성의 방향과 과제 - 대한민국역사박물관의 '전시 맞춤형 구술영상 제작 연구'를 중심으로 - (The Directions and Tasks for the Creation of Exhibition Contents Based on Oral Records: Focused on 'A Research Project of Producing Oral History Video Clips Displayed at the Exhibition of IMF Situations' of National Museum of Korean Contemporary History)

  • 조성실
    • 예술경영연구
    • /
    • 제56호
    • /
    • pp.305-327
    • /
    • 2020
  • 본고는 박물관이 실행하는 구술채록 관련 사업이 전시나 교육을 비롯한 다양한 박물관 내 활동으로 이어져야 할 필요를 강조하면서 그와 관련한 실천적 사례로서 2019년 대한민국역사박물관이 진행한 '전시 맞춤형 구술영상 제작 연구: IMF 경험을 중심으로 한 구술생애사 영상기록' 프로젝트를 분석한 것이다. 해당 구술채록사업은 특정 사건을 중심에 둔 '주제 구술' 기록이 주를 이루던 기존 박물관 구술채록에서 나아가 '전시 맞춤형'과 '생애사 기반'이라는 방향성을 가지고 진행되었다는 특징을 갖는다. 연구자는 본 사업에 참여한 경험을 바탕으로 전시 활용을 위한 박물관 구술채록 사업의 방향과 과제를 제시하였으며, 이를 토대로 구술사 영상기록이 갖는 특징과 의의를 정리하였다. 또한 본 연구는 비디오카메라가 켜진 상태에서 구술자가 '말하지 않는 것'이 무엇인지 눈여겨보며 전시 맞춤형 구술기록 시 주의해야 할 부분을 점검하고, 영상 구술기록이 갖는 강점에 대해서도 언급하였다. 끝으로 본 연구는 전시에 등장하는 구술사가 현존하거나 현존했던 실제 인물의 발화이므로 특정 역사적 사건의 현장성과 사실성을 더욱 적극적으로 드러내는 전시재현 장치로서 기능한다고 보고 있다. 따라서 구술자료의 활용은 전시에 생명력을 불어넣고 이로 인해 박물관은 큐레이터의 메시지를 일방적으로 전달하는 곳이 아닌 시민(구술자)참여가 활발히 이루어지는 다양한 담론의 장이 될 수 있을 것이다.

비전공자 학부생의 훈련데이터와 기초 인공신경망 개발 결과 분석 및 Orange 활용 (Analysis and Orange Utilization of Training Data and Basic Artificial Neural Network Development Results of Non-majors)

  • 허경
    • 실천공학교육논문지
    • /
    • 제15권2호
    • /
    • pp.381-388
    • /
    • 2023
  • 스프레드시트를 활용한 인공신경망 교육을 통해, 비전공자 학부생들은 인공신경망의 동작 원리을 이해하며 자신만의 인공신경망 SW를 개발할 수 있다. 여기서, 인공신경망의 동작 원리 교육은 훈련데이터의 생성과 정답 라벨의 할당부터 시작한다. 이후, 인공 뉴런의 발화 및 활성화 함수, 입력층과 은닉층 그리고 출력층의 매개변수들로부터 계산되는 출력값을 학습한다. 마지막으로, 최초 정의된 각 훈련데이터의 정답 라벨과 인공신경망이 계산한 출력값 간 오차를 계산하는 과정을 학습하고 오차제곱의 총합을 최소화하는 입력층과 은닉층 그리고 출력층의 매개변수들이 계산되는 과정을 학습한다. 스프레드시트를 활용한 인공신경망 동작 원리 교육을 비전공자 학부생 대상으로 실시하였다. 그리고 이미지 훈련데이터와 기초 인공신경망 개발 결과를 수집하였다. 본 논문에서는 12화소 크기의 소용량 이미지로 두 가지 훈련데이터와 해당 인공신경망 SW를 수집한 결과를 분석하고, 수집한 훈련데이터를 Orange 머신러닝 모델 학습 및 분석 도구에 활용하는 방법과 실행 결과를 제시하였다.

RawNet3를 통해 추출한 화자 특성 기반 원샷 다화자 음성합성 시스템 (One-shot multi-speaker text-to-speech using RawNet3 speaker representation)

  • 한소희;엄지섭;김회린
    • 말소리와 음성과학
    • /
    • 제16권1호
    • /
    • pp.67-76
    • /
    • 2024
  • 최근 음성합성(text-to-speech, TTS) 기술의 발전은 합성음의 음질을 크게 향상하였으며, 사람의 음성에 가까운 합성음을 생성할 수 있는 수준에 이르렀다. 특히, 다양한 음성 특성과 개인화된 음성을 제공하는 TTS 모델은 AI(artificial intelligence) 튜터, 광고, 비디오 더빙과 같은 분야에서 널리 활용되고 있다. 따라서 본 논문은 훈련 중 보지 않은 화자의 발화를 사용하여 음성을 합성함으로써 음향적 다양성을 보장하고 개인화된 음성을 제공하는 원샷 다화자 음성합성 시스템을 제안했다. 이 제안 모델은 FastSpeech2 음향 모델과 HiFi-GAN 보코더로 구성된 TTS 모델에 RawNet3 기반 화자 인코더를 결합한 구조이다. 화자 인코더는 목표 음성에서 화자의 음색이 담긴 임베딩을 추출하는 역할을 한다. 본 논문에서는 영어 원샷 다화자 음성합성 모델뿐만 아니라 한국어 원샷 다화자 음성합성 모델도 구현하였다. 제안한 모델로 합성한 음성의 자연성과 화자 유사도를 평가하기 위해 객관적인 평가 지표와 주관적인 평가 지표를 사용하였다. 주관적 평가에서, 제안한 한국어 원샷 다화자 음성합성 모델의 NMOS(naturalness mean opinion score)는 3.36점이고 SMOS(similarity MOS)는 3.16점이었다. 객관적 평가에서, 제안한 영어 원샷 다화자 음성합성 모델과 한국어 원샷 다화자 음성합성 모델의 P-MOS(prediction MOS)는 각각 2.54점과 3.74점이었다. 이러한 결과는 제안 모델이 화자 유사도와 자연성 두 측면 모두에서 비교 모델들보다 성능이 향상되었음을 의미한다.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.