• Title/Summary/Keyword: 컴퓨터음악

Search Result 306, Processing Time 0.024 seconds

Missing-Feature 복구를 위한 대역 독립 방식의 베이시안 분류기 기반 마스크 예측 기법 (Mask Estimation Based on Band-Independent Bayesian Classifler for Missing-Feature Reconstruction)

  • 김우일;;고한석
    • 한국음향학회지
    • /
    • 제25권2호
    • /
    • pp.78-87
    • /
    • 2006
  • 본 논문에서는 알려지지 않은 잡음 환경에서 강인한 음성 인식 성능을 위하여 missing-feature복구 기법을 다루며, 베이시안 분류기를 기반으로 하는 마스크 예측 기법의 성능을 향상시킬 수 있는 방법을 제안한다. 기존의 마스크 예측 기법에서는 배경 잡음 종류에 독립적인 성능을 위해 전 주파수 대역을 분할하여 발생시킨 유색 잡음을 마스크 예측기의 훈련에 이용하였으나, 제한된 양의 훈련 데이터베이스 조건에서는 성능의 한계가 불가피하다. 보다 다양한 잡음 스펙트럼을 반영하면서 마스크 예측의 성능을 향상시키기 위해, 서로 다른 주파수 대역에 독립적인 구조를 가지는 베이시안 분류기를 제안하며, 훈련에 사용하는 유색 잡음의 생성 방식을 이에 맞게 수정한다. 각각의 주파수 대역을 분할하여 유색 잡음을 생성함으로써 다양한 잡음 환경을 반영하는 동시에 훈련 데이터베이스 부족 문제를 줄일 수 있다. 제안하는 마스크 예측 기법을 클러스터 기반의 missing-feature 복구 기법과 결합하여 음성 인식기에 적용함으로써 성능을 평가한다. 실험 결과는 제안한 기법이 백색 잡음, 자동차잡음, 배경 음악환경에서 기존의 방법에 비해 향상된 성능을 가짐을 입증한다.

비전공자를 위한 사운드 아트 프로그래밍 교과목 개발 (Development of a Sound Art Programming Course for Non-Majors)

  • 권현우
    • 문화기술의 융합
    • /
    • 제10권4호
    • /
    • pp.71-79
    • /
    • 2024
  • 본 연구는 컴퓨터 비전공자 대학생에게 컴퓨팅 사고와 예술과 기술의 융합적 사고 함양을 위해 퓨어 데이터를 이용한 사운드아트 프로그래밍 교과목을 개발하였다. 본 논문은 퓨어데이터를 활용한 사운드 아트 중심의 음악 프로그래밍 교과목을 설계, 개발한 교육과정을 운영한 사례를 제시하고 교육적 성과와 수업의 개선 방안을 도출하여 기술과 예술의 창의적 융합 교육 프로그램을 제시하는데 그 목적이 있다. 연구를 위해 예술과 프로그래밍 기술이 융합된 교육 사례와 퓨어 데이터, 사운드 아트에 대해 살펴보았으며, 이를 바탕으로 비전공자를 위한 사운드 아트 프로그래밍 교과목을 설계, 개발하였다. 개발된 교과목을 적용한 교과과정을 운영하였으며, 운영 사례 및 설문을 통해 예술 기술 융합수업을 통한 프로그래밍 흥미도 증진, 자율적 선택권으로 인한 적극적 수업 참여, 예술에 대한 새로운 시각 마련, 컴퓨팅 사고력 증진, 협업 및 의사소통 능력 증진의 교육적 효과를 확인하였다. 우리는 본 연구를 통해 예술적 다양성과 미디어의 발전에 따른 새로운 매체의 이해 등 예술과 기술의 융합 교육의 새로운 시각을 제시해 줄 수 있을 것으로 기대한다.

자동 타임 워핑에 기반한 온라인 궤적 최적화 (On-line Trajectory Optimization Based on Automatic Time Warping)

  • 한다성;노준용;신성용
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제23권3호
    • /
    • pp.105-113
    • /
    • 2017
  • 본 논문에서는 물리 기반 가상 환경에서 참조 동작을 추적하는 캐릭터 동작을 생성할 때 캐릭터 동작에 대한 최적화와 함께 참조 동작에 대한 타임 워핑(time warping)을 동시에 수행할 수 있는 새로운 온라인 궤적 최적화(trajectory optimization) 기법을 제안한다. 일반적으로 참조 동작에 대한 샘플링 시간이 균일한 간격으로 고정되어 있는 기존의 물리 기반 캐릭터 애니메이션 기법과는 달리, 본 논문에서 제안하는 방법은 캐릭터 동작의 물리적 변화와 함께 샘플링 시간의 변화를 동시에 최적화 시킴으로써 외력에 대해 더욱 효과적으로 대응할 수 있는 참조 동작에 대한 최적의 타임 워핑을 찾아낸다. 이를 위해, 전신 캐릭터(full-body character)의 동역학과 함께 참조 동작에 대한 샘플링 시간의 변화를 함께 고려한 최적 제어 문제(optimal control problem)를 정형화하고 이 문제를 실행 시간에 시간 축을 따라 이동하는 고정된 크기의 시간 윈도우에 대해 반복적으로 풂으로써 캐릭터 동작과 샘플링 시간에 대한 최적 제어 정책(optimal control policy)을 생성하는 모델예측제어(model predictive control) 프레임워크를 제안한다. 실험을 통해, 제안된 프레임워크가 하나의 참조 동작만으로 외력에 대해 강인하게 반응하는 동작을 생성하고, 배경 음악에 따라 리드미컬한 동작을 생성하는데 효과적임을 보여준다.

Freebase 기반의 추천 시스템 시각화 (Visualized recommender system based on Freebase)

  • 홍명덕;하인애;조근식
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권10호
    • /
    • pp.23-37
    • /
    • 2013
  • 본 논문에서는 영화 추천을 위해 사용자들이 명시적으로 표시한 신뢰 정보를 이용하여 소셜 네트워크와 유사하게 신뢰 네트워크를 생성하고, 그 사용자들의 연결 정도를 이용하여 추천 시스템에 적용하며, 추천 정보는 시각화 방법을 이용하여 제공하는 방법을 제안한다. 이를 통해 사용자가 명시적으로 신뢰 관계를 표현한 신뢰 네트워크에서 숨겨진 신뢰 관계를 추론한다. 시각화된 추천 정보는 영화, 음악, 인물 등 다양한 토픽에 대한 정보를 구조화된 형태로 제공하는 Freebase를 이용하였으며, 시각화 방법은 다음 3가지와 같다. (1) 사용자가 제공받고자 하는 영화의 수만큼 영화 포스터로 시각화하고, (2) 추천된 영화 중 특정 영화를 선택하면 영화 감독, 주연 배우, 장르 등의 부가적인 정보를 시각화하여 제공한다. 마지막으로 (3) 신뢰 기반의 사용자들 중 임의로 몇 명을 이웃 사용자로 선택하여 추천한다. 본 논문에서는 시각화 방법을 적용함으로써 추천 수 또는 이웃 사용자의 수, 그리고 부가 정보 요청 등 사용자의 의견(요구)을 바탕으로 추천하기 때문에 사용자의 의사결정 능력을 향상시킬 수 있다. 뿐만 아니라 본 논문에서 제안하는 추천 시각화 방법을 통해 동적으로 사용자들의 요구를 반영할 수 있고, Freebase, LinkedMDB, 위키피디아 등 현존하는 LOD의 정보 재사용을 통해 보다 풍부하게 추천 정보를 제공할 수 있다.

잡음 환경에 효과적인 마스크 기반 음성 향상을 위한 손실함수 조합에 관한 연구 (A study on combination of loss functions for effective mask-based speech enhancement in noisy environments)

  • 정재희;김우일
    • 한국음향학회지
    • /
    • 제40권3호
    • /
    • pp.234-240
    • /
    • 2021
  • 본 논문에서는 잡음 환경에서 효과적인 음성 인식을 위해 마스크 기반의 음성 향상 기법을 개선한다. 마스크 기반의 음성 향상 기법에서는 심층 신경망을 기반으로 추정한 마스크를 잡음 오염 음성에 곱하여 향상된 음성을 얻는다. 마스크 추정 모델로 VoiceFilter(VF) 모델을 사용하고 추정된 마스크로 얻은 음성으로부터 잔여 잡음을 보다 확실히 제거하기 위해 Spectrogram Inpainting(SI)기법을 적용한다. 본 논문에서는 음성 향상 결과를 보다 개선하기 위해 마스크 추정을 위한 모델 학습 과정에 사용되는 조합된 손실함수를 제안한다. 음성 구간에 남아 있는 잡음을 보다 효과적으로 제거하기 위해 잡음 오염 음성에 마스크를 적용한 Triplet 손실함수의 Positive 부분을 컴포넌트 손실함수와 조합하여 사용한다. 실험 평가를 위한 잡음 음성 데이터는 TIMIT 데이터베이스와 NOISEX92, 배경음악 잡음을 다양한 Signal to Noise Ratio(SNR) 조건으로 합성하여 만들어 사용한다. 음성 향상의 성능 평가는 Source to Distortion Ratio(SDR), Perceptual Evaluation of Speech Quality(PESQ), Short-Time Objective Intelligibility(STOI)를 이용한다. 실험을 통해 평균 제곱 오차로만 훈련된 기존 시스템과 비교하여, VF 모델은 평균 제곱 오차로 훈련하고 SI 모델은 조합된 손실함수를 사용하였을 때 SDR은 평균 0.5dB, PESQ는 평균 0.06, STOI는 평균 0.002만큼 성능이 향상된 것을 확인했다.

감정과 날씨에 따른 개인 맞춤형 옷 및 음식 추천 시스템 (Personalized Clothing and Food Recommendation System Based on Emotions and Weather)

  • ;박두순
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.447-454
    • /
    • 2022
  • 4차 산업혁명 시대를 맞아 우리는 정보의 홍수 속에 살고 있다. 이런 환경에서 우리에게 필요한 정보를 찾기란 매우 어렵고 복잡하다. 따라서 정보의 홍수 속에서 추천 시스템은 필수적이다. 이러한 추천 시스템 중 영화, 음악, 음식, 의류의 각각에 대한 추천 시스템들은 많은 연구가 진행되어 왔다. 현재까지 대부분의 개인화 추천 시스템들은 개인의 성향인 나이, 장르, 지역, 성별 등을 체크해서 옷들을 추천한다던가, 책들을 추천한다던가, 영화들을 추천해왔다. 미래 세대에서는 나이, 장르, 지역, 성별 등을 체크해서 옷, 책, 영화들을 한꺼번에 추천 받기를 원할 것이다. 본 논문에서는 사용자의 감정과 날씨에 따라 개인 맞춤형 옷과 음식을 한꺼번에 추천하는 추천 시스템을 제안한다. 소셜미디어인 트위터에서 사용자의 데이터를 얻었고, 트윗을 기반으로 감정 분석을 해서 Paul Eckman 이론에 따라 사람의 6 가지의 기본 감정으로 분류했다. 이렇게 얻어진 기본 감정을 Hayashi의 Quantification Method III를 적용하여 색깔로 변환하였으며, 이러한 색깔은 추천하는 옷의 색상으로 표현하였다. 또한, visualcrossing.com API의 날씨 정보를 이용하여 의류의 종류를 추천한다. 그리고 감정에 따른 컴포트 푸드의 내용에 따라 다양한 음식을 추천한다.

5채널 마이크로폰 시스템을 활용한 공간감 지표 예측의 타당성에 관한 연구 (A Study on the Validity of the Prediction of Binaural Parameters by 5 Channel Microphone System)

  • 장재희;오양기;정대업;정혁
    • 한국음향학회지
    • /
    • 제24권2호
    • /
    • pp.103-110
    • /
    • 2005
  • 음악연주공간의 음향계획에 있어서 적절한 공간감의 확보는 매우 중요한 설계요소가 되었으며, 측면음에너지비율(LEF)이나 IACC 등의 공간감 지표를 활용한 평가는 음향성능 평가의 필수적인 요소 중의 하나가 되었다. 그러나 이 지표값들을 얻기 위해서는 모노채널 무지향성 마이크를 이용한 측정과 함께, 양지향성 마이크 (figure of eight microphone)나 토르소 시뮬레이터 (head and torso simulator)를 통한 측정을 별도로 수행하여야 하는 번거로움이 있다. 본 연구는 공간상의 일정한 좌표를 차지하도록 설계된 5채널 마이크로폰 시스템을 이용하여 공간감 지표들을 예측해낼 수 있는지 확인하고자 하는 것이다. 이를 위해 신경망 (neural network)의 학습된 예측능력을 활용하였으며, 신경망의 훈련을 위해서는 많은 데이터가 필요하므로 현장에서의 측정보다는 다양한 가상공간에 대한 컴퓨터 시뮬레이션 (CATT-Acoustic V.7.2)의 결과를 활용하였다. 다양한 상황의 가상공간에서 계산된 공간감 지표와 같은 가상공간에서 5채널 마이크로폰을 통해 얻어진 공간음향 정보의 신경망 분석 결과, 계산값과 예측값 사이에 매우 높은 상관관계(correlation)가 있음이 밝혀졌다. 이 결과에 따르면 양지향성 마이크나 토르소 시뮬레이터 등 복잡한 측정장치 대신5채널 마이크로폰 시스템을 사용하여 공간감 지표를 예측하는 것이 가능하다.

가정교과에서의 스토리텔링(storytelling)을 활용한 수업 설계 방안 (The Instructional Design Using Storytelling in Home Economics Education)

  • 김은정
    • 한국가정과교육학회지
    • /
    • 제23권1호
    • /
    • pp.143-157
    • /
    • 2011
  • 사람 사이에 생각을 전달하고 의견을 공유하는 가장 기본적인 방법 중 하나는 이야기이다. 인간은 이야기를 통해 세계를 경험하고 자신의 생각과 경험을 표현한다. 스토리텔링은 이야기 혹은 이야기하기를 의미하는데, 사건, 인물과 배경이라는 구성 요소를 가지고 시작과 끝이 있으며, 시간적 공간적으로 연결되어 표현된 서사를 의미한다. 이러한 스토리텔링에서 스토리는 문화와 역사를 전달하는 수단인데 문자를 비롯한 다양한 매체의 발달에 힘입어 다양한 방식으로 전달 교환된다. 최근에는 컴퓨터들 비롯한 다양한 디지털 매제의 발달로 스토리텔링 방식도 변화하고 있는데, 이를 디지털 스토리텔링이라고 한다. 디지털 스토리텔링은 디디털 매체인 디지털 영상, 텍스트, 음성, 사운드, 음악, 비디오, 애니메이션을 통해 서로 의미를 공유하는 과정이다. 이 스토리텔링은 교육의 영역에서 가장 기본적으로 활용되어 온 방식이다. 즉 교사는 자신의 생각을 학생들에게 전달할 때 스토리를 활용하고 학생들은 스토리를 통해 의미의 형성과 언어의 역할을 이해하며, 의미 있는 사건들 속에서 중요한 요소들을 재조직한다. 그러나 교육의 현장에서 교사는 일방적으로 이야기를 하는 사람, 학생은 수동적으로 듣는 사람이 되어 의미 있는 상호작용이 활발하게 일어나지 못하여 학생들의 실천적 능력을 향상시키지 못하는 한계가 있다. 그런데 가정과 교육은 실천적 지식의 확대와 삶의 총체성의 맥락 인에서 지식을 통합하며 실천적인 행위 속에 수행할 수 있는 능력으로 드러나는 절차적 지식을 목표로 하고 있다. 따라서 이 연구에서는 학습자의 적극적인 참여와 그로 인한 학습 과정 및 결과에 대한 학습자의 자신감과 책임감을 증진할 수 있는 가정교과에서의 스토리텔링을 활용한 수업 설계 방안을 제시하였다. 이 수업 모형은 고정되고 확정된 교수-학습 틀이 아니며 이를 토대로 더 효과적인 수업 모형을 위한 기초석이 될 젓이다. 따라서 후속 연구에서는 다양한 스토리텔링을 적용한 교육과정 개발과 수업 방법이 개발되어야 할 것이다.

  • PDF

주거 공간에서 고령자 청력손실을 고려한 소음 및 잔향에 따른 음성 전송 성능의 주관적 평가 (Effect of noise and reverberation on subjective measure of speech transmission performance for elderly person with hearing loss in residential space)

  • 오양기;류종관;송한솔
    • 한국음향학회지
    • /
    • 제37권5호
    • /
    • pp.369-377
    • /
    • 2018
  • 본 논문은 주거공간에서 고령자 청력손실을 고려한 소음 및 잔향에 따른 음성 전송 성능을 청취실험을 통해 평가하였다. 주거환경 소음으로 바닥충격음, 교통소음, 공기전달음과 배수소음을 대상으로 하였으며, 공동주택의 잔향환경을 모사하기 위해 실내음향 컴퓨터시뮬레이션을 실시하여 충격응답를 추출하였다. 청취실험 음원은 고령자 청력손실(65세 남성)을 반영하기 위해 소음 및 단어 음원의 고주파대역의 음압레벨을 저감시킨 음원(고령자 음원)과 정상청력을 반영한 원음(청년 음원)을 대상으로 하였다. 청취실험은 각각 3개의 소음레벨($L_{Aeq}$ 30, 40, 50 dB)과 잔향시간(0.5, 1.0, 1.5 s)을 갖는 음환경 조건에서 제시된 단어($L_{Aeq}$ 55 dB)의 음성요해도(speech intelligibility)와 듣기 어려운 정도(listening difficulty)를 평가하는 것으로 하였다. 청취실험 결과, 음성레벨이 55 dB($L_{Aeq}$)일 때 잔향시간 1.0 s 이하 조건에서 충격소음(점핑음) 50 dB($L_{i,Fmax,AW}$)와 정상소음(도로, 음악, 배수 소음) 40 dB($L_{Aeq}$) 이하의 소음레벨에서는 고령자 및 청년 음원 모두 90 % 이상의 음성요해도와 30 % 이하의 듣기 어려운 정도를 확보할 수 있을 것으로 판단된다. 고령자 청력손실을 반영한 고령자 음원의 경우 청년 음원 보다 음성요해도는 0 % ~ 5 % 낮았고 듣기 어려운 정도는 2 % ~ 10 % 높은 것으로 나타났다.

콘텐츠 유저에 의한 만화-애니메이션의 재해석에 관한 연구 - 한국 코스프레 문화에서의 재생산 (The Reinterpretation of Comic-Animation by Content Users - The Reproductions in Korean Cosplay Culture)

  • 윤은호
    • 만화애니메이션 연구
    • /
    • 통권41호
    • /
    • pp.487-510
    • /
    • 2015
  • 최근 컴퓨터 및 인터넷의 발전으로 일반인의 디지털 미디어 리터러시가 강화되면서 다양한 만화와 애니메이션 소비자들이 콘텐츠들을 UCC를 포함한 다양한 방식으로 재조합하고 있다. 얼핏 보기에는 소비자들의 재조합 결과물들이 콘텐츠의 저작권을 침해하고 있는 것처럼 보이지만, 실제로는 인터넷 확산을 통해 해당 콘텐츠의 사용자 수를 늘리면서 문화콘텐츠 생태계의 성장을 돕고 있다. 이러한 재생산이 가능한 이유는 애니메이션 매체가 가진 특성에 있다. 조형기호와 소리기호, 그리고 서사기호가 결합된 애니메이션은 크리스티앙 메츠가 제시한 상상적 기표로서 작용하며, 해당 콘텐츠를 소비하는 사용자들이 자신의 상상력을 통해 이야기를 해체하고 재조합할 수 있도록 한다. 이러한 논의는 아즈마 히로키의 <동물화하는 포스트모던>을 통해 강화되는 것처럼 보인다. 하지만 아즈마는 애니메이션 등의 재조합 현상이 비교적 동등한 캐릭터 데이터베이스에 제한돼 있고, 소비자는 데이터베이스 안에서 애니메이션과 여기에서 파생된 상업적 재조합물에 대해 무비판적 수용을 취하고 있다는 비관론을 펼친다. 하지만 실제로는 소비자들이 콘텐츠 사이와 콘텐츠 너머에서 비상업적인 재생산을 일으키고 있다. 이러한 양상은 동인문화, 애니메이션 음악 동호문화, 성우 동호문화 등에서도 나타나지만, 본 논고에서는 특히 코스프레 문화에 집중하고자 한다. 이는 코스프레 문화가 다른 동호문화와 달리 더 행동적인 면모를 보여주고 있기 때문이다. 특히 이 중에서도 코스프레에서 파생된 무대와 일일카페는 일반 코스프레 현상보다도 더욱 적극적인 캐릭터의 재현을 통해 다른 이들과의 소통을 이뤄내고 있다. 하지만 무대나 일일카페 모두는 재정 능력이 제한적인 청소년 청년 계층이 진행하고 있어, 지속가능한 행사가 이루어지기 어려우며, 공연 기회의 부족이나 저작권 문제 등으로 적극적인 재생산이 어려운 한계를 가지고 있다. 지역주민 주도의 마을 만들기나 혼종문화의 중요성이 대두되고 있는 한국 사회의 현실에서, 한국 만화 및 애니메이션 업계부터 적극적 콘텐츠 수용자들의 재생산을 긍정적으로 평가하고 장려할 필요가 있다.