• 제목/요약/키워드: Image to Speech

검색결과 188건 처리시간 0.027초

증강현실을 이용한 선택적 가이드 시스템 -관람자의 관심에 따라 박물관 관람을 안내 하는 가이드 시스템 (Augmented Reality based Museum Guidance System Selective Viewing)

  • 박준석;이동현;박준
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2008년도 학술대회 1부
    • /
    • pp.45-48
    • /
    • 2008
  • 박물관이나 전시관에서 많은 관람객들은 전시물에 대한 멀티미디어 정보를 얻기를 원할 뿐만 아니라 특정한 스타일, 작가, 주제별로 관람하고 싶어 한다. 박물관이나 전시관에는 증강 현실을 이용한 선택적 가이드 시스템을 이용하여 글이나 그림, 다국어 음성, 비디오와 같은 전시물에 대한 정보를 관람객에게 제공하며 관람자들의 흥미에 따른 관람 경로를 관람자에게 제공 해준다. 다음 전시물까지 가는 경로의 정보는 증강현실을 이용하거나, 멀티미디어 정보를 이용해서 관람자들에게 제공한다. 이 시스템은 외관적으로는, UMPC(Ultra Mobile PC)와 카메라, 그리고 관성 센서로 구성되어 있다. 처음 이 시스템을 시작하면, 관람자는 자신의 흥미에 맞는 전시물을 메뉴를 선택한다. 그 후, 시스템은 선택된 전시물과 연관된 관람 경로를 설정하고 다음 전시물에 대한 방향과 거리 그리고 어디로 가는지, 어느 방향에 있는지, 얼마나 멀리 있는지 그리고 전시물에 대한 시각적 실마리의 정보가 주어진다. 해당 정보를 이용하여 다음 전시물을 찾고 화면에 표시된 시각적 실마리와 카메라에서 얻어지는 전시물의 영상을 일치시키면 전시물에 대한 정보를 멀티미디어 형태로 보여준다. 사용자들의 간단한 실험을 통해서 이 시스템은 큰 전시실에도 관람자로 하여금 유익하게 관람할 수 있다.

  • PDF

변형된 창함수를 이용한 FIR 디지털 필터의 성능 향상에 관한 연구 (A Study on Performance Improvement of FIR Digital Filter using Modified Window Function)

  • 김남호;구본석
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2007년도 춘계종합학술대회
    • /
    • pp.758-761
    • /
    • 2007
  • 디지털 신호처리 기술은 음성 및 영상 처리와 스펙트럼 분석 등과 같은 폭넓은 분야에서 활용되고 있다. 이에 따라 디지털 필터가 아날로그 필터를 대신하여 주파수 선택적 연산을 수행하기 위해 사용되고 있으며, 급준한 필터특성을 실현할 수 있다. 비재귀형으로 구성되는 FIR 디지털 필터는 항상 안정하고 선형위상응답 특성을 나타내므로, 데이터 전송과 같이 파형정보를 중요시하는 분야에 사용된다. 그리고 불연속점 부근에서 발생하는 깁스현상을 감소시키기 위해, 창함수 기법을 통해 필터를 설계한다. 따라서 본 논문에서는 FIR 필터의 성능을 향상시키기 위해, 변형된 창함수를 적용하였으며, 시뮬레이션에서 최대부엽의 크기와 천이특성을 이용하여 기존의 방법과 비교하였다.

  • PDF

한국어 문장 생성을 위한 Variational Recurrent Auto-Encoder 개선 및 활용 (Application of Improved Variational Recurrent Auto-Encoder for Korean Sentence Generation)

  • 한상철;홍석진;최희열
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.157-164
    • /
    • 2018
  • 딥러닝의 급속한 발전은 패턴인식 분야의 성능을 혁신했으며 몇몇 문제에서는 인간 수준을 넘어서는 결과들을 보여주고 있다. 데이타를 분류하는 패턴인식과 달리 본 논문에서는 주어진 몇개의 한국어 문장으로부터 비슷한 문장들을 생성하는 문제를 다룬다. 이를위해 생성모델 중의 하나인 Variational Auto-Encoder 기반의 모델을 한국어 생성에 맞게 개선하고 적용하는 방법들을 논의한다. 첫째, 교착어인 한국어의 특성상 띄어쓰기를 기준으로 단어 생성시 단어의 개수가 너무 많아 이를 줄이기 위해 조사 및 어미들을 분리할 필요가 있다. 둘째, 한국어는 어순이 비교적 자유롭고 주어 목적어 등이 생략되는 경우가 많아 기존의 단방향 인코더를 양방향으로 확장한다. 마지막으로, 주어진 문장들을 기반으로 비슷하지만 새로운 문장들을 생성하기 위해 기존 문장들의 인코딩된 벡터표현들로부터 새로운 벡터를 찾아내고, 이 벡터를 디코딩하여 문장을 생성한다. 실험 결과를 통해 제안한 방법의 성능을 확인한다.

심층신경망을 활용한 활주로 가시거리 예측 모델 개발 (Development for Estimation Model of Runway Visual Range using Deep Neural Network)

  • 구성관;홍석민
    • 한국항행학회논문지
    • /
    • 제21권5호
    • /
    • pp.435-442
    • /
    • 2017
  • 안개 등의 영향을 받는 활주로 시정은 비행장에서 항공기 이착륙의 가능 여부를 결정하는 주요 지표중 하나이다. 운송용 항공기가 운항되는 공항의 경우 활주로 시정을 포함한 주요 국지 기상 예보를 시행하며, 이를 항공종사자가 확인할 수 있도록 하고 있다. 본 논문은 최근 영상 처리, 음성 인식, 자연어 처리 등의 다양한 분야에 적용되고 있는 심층신경망을 활주로 시정 예측에 적용하여 국지 비행장의 활주로 시정 예측 모델을 개발하고 이를 활용한 예측을 수행하였다. 적용 대상 비행장의 과거 실제 기상 관측 값을 활용하여 신경망 학습 후 시정에 대한 예측을 수행하였고, 기존 관측 데이터와 비교한 결과 비교적 정확한 예측 결과를 확인하였다. 또한 개발된 모델은 별도의 예보 기능이 없는 해당 비행장에서 참고할 수 있는 기상정보를 생성하는데 사용될 수 있을 것이다.

웨이브렛의 주파수-시간 평면 해석에 관한 연구 (A Study on Frequency-Time Plane Analysis of Wavelet)

  • 배상범;류지구;김남호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.451-454
    • /
    • 2005
  • 현재, 신호를 해석하기 위한 많은 방법들이 제시되고 있으며, 대표적인 방법으로는 퓨리에 변환과 웨이브렛 변환이 있다. 이러한 방법들에서, 퓨리에 변환은 모든 주파수 범위에 대해 cosine과 sine 파형의 조합으로써 신호를 표현하지만, 신호 내에서 특정 주파수 성분이 발생한 시간정보를 제공하지 않으며, 분석 신호의 전체적인 특징만을 나타낸다. 따라서 이러한 한계를 극복하기 위해, 다중해상도 해석이 가능한 웨이브렛 변환이 음성과 영상처리, 컴퓨터 비전 등의 광범위한 분야에서 응용되고 있다. 그리고 웨이브렛 변환은 스케일 변수에 따라 변화하는 윈도우를 사용하여 시간-주파수 국부성을 나타낸다. 본 논문에서는 cosine과 sine 형태의 웨이브렛을 사용하여, 퓨리에 변환의 새로운 접근법을 제시하였으며, 주파수-시간 평면의 유한한 지점에서 신호의 특징을 분석하였다.

  • PDF

YOLO와 OCR 알고리즘에 기반한 시각 장애우를 위한 유통기한 알림 시스템 (Expiration Date Notification System Based on YOLO and OCR algorithms for Visually Impaired Person)

  • 김민수;문미경;한창희
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1329-1338
    • /
    • 2021
  • 점자를 제외한 시각 장애우들이 유통기한을 확인할 수 있는 효과적인 방법이 거의 개발되어 있지 않으며, 이로 인하여 시각 장애우들의 식품 안전성이 위협받고 있다. 본 연구에서는 시각 장애우의 식품 안전성 확보를 위해 실시간 객체 인식 알고리즘(you only look once, YOLO) 및 광학 문자 인식 (optical character recognition, OCR)에 기반한 유통기한 알림 시스템을 개발했다. 제안하는 시스템은 총 4가지 단계로 시각 장애우에게 유통기한 정보를 전달한다: (1) 표적 제품의 바코드 스캔을 통한 제품 확인 (2) 실시간으로 입력되는 제품 영상에서 YOLO 알고리즘을 활용하여 유통기한이 표기된 이미지 영역 검출; (3) 검출된 이미지 영역에서 OCR 알고리즘을 활용하여 유통기한 문자 인식; (4) Text to Speech (TTS) 기술을 활용하여 유통기한 정보를 사용자에게 전달. 성능 평가를 위한 온라인 실험 결과, 앞이 보이지 않는 피험자가 개발한 시스템을 사용해서 제품의 유통기한을 평균 86%의 높은 정확도로 확인할 수 있음이 검증되었다. 이러한 결과는 제안하는 시스템이 저시력자를 포함한 시각 장애우들의 식품 안전성 확보에 이바지할 수 있음을 보여준다.

적대적 생성 신경망을 통한 얼굴 비디오 스타일 합성 연구 (Style Synthesis of Speech Videos Through Generative Adversarial Neural Networks)

  • 최희조;박구만
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권11호
    • /
    • pp.465-472
    • /
    • 2022
  • 본 연구에서는 기존의 동영상 합성 네트워크에 스타일 합성 네트워크를 접목시켜 동영상에 대한 스타일 합성의 한계점을 극복하고자 한다. 본 논문의 네트워크에서는 동영상 합성을 위해 스타일갠 학습을 통한 스타일 합성과 동영상 합성 네트워크를 통해 스타일 합성된 비디오를 생성하기 위해 네트워크를 학습시킨다. 인물의 시선이나 표정 등이 안정적으로 전이되기 어려운 점을 개선하기 위해 3차원 얼굴 복원기술을 적용하여 3차원 얼굴 정보를 이용하여 머리의 포즈와 시선, 표정 등의 중요한 특징을 제어한다. 더불어, 헤드투헤드++ 네트워크의 역동성, 입 모양, 이미지, 시선 처리에 대한 판별기를 각각 학습시켜 개연성과 일관성이 더욱 유지되는 안정적인 스타일 합성 비디오를 생성할 수 있다. 페이스 포렌식 데이터셋과 메트로폴리탄 얼굴 데이터셋을 이용하여 대상 얼굴의 일관된 움직임을 유지하면서 대상 비디오로 변환하여, 자기 얼굴에 대한 3차원 얼굴 정보를 이용한 비디오 합성을 통해 자연스러운 데이터를 생성하여 성능을 증가시킴을 확인했다.

감정 분석을 통한 개인화 홈 네트워크 서비스 시스템의 설계 및 구현 (Design and Implementation of A Personalized Home Network Service System based on Emotion Analysis)

  • 김준수;김동엽;빈성환;김대영;류민우;조국현
    • 전자공학회논문지CI
    • /
    • 제47권6호
    • /
    • pp.131-138
    • /
    • 2010
  • 유비쿼터스 환경이 발전함에 따라 다양한 서비스들이 고객 중심의 서비스로 제공되고 있다. 기존에는 개인 프로파일을 기반으로 한 개인화 서비스의 연구가 진행되어 왔으나 사용자의 선호도를 파악하여 각 사용자에 대한 맞춤형 서비스를 지원하기 위해서는 상당한 데이터와 시간이 필요하다. 이러한 문제점을 해결하기 위하여 본 논문에서는 개인 프로파일을 통한 맞춤형 서비스가 아닌 사용자의 감정을 분석하여 그에 맞는 서비스를 제공하는 시스템을 제안한다. 제안하는 시스템에서는 사용자의 감정을 분석하기 위하여 영상 분석과 음성 분석의 두 가지 방식을 사용한다. 이러한 감정 분석 방법을 이용함으로써 제안된 시스템이 홈 네트워크 환경에서 사용자 맞춤 서비스를 효과적으로 제공할 수 있도록 구현하였다.

신경망 학습에서 프라이버시 이슈 및 대응방법 분석 (Analysis of privacy issues and countermeasures in neural network learning)

  • 홍은주;이수진;홍도원;서창호
    • 디지털융복합연구
    • /
    • 제17권7호
    • /
    • pp.285-292
    • /
    • 2019
  • PC, SNS, IoT의 대중화로 수많은 데이터가 생성되고 그 양은 기하급수적으로 증가하고 있다. 거대한 양의 데이터를 활용하는 방법으로 인공신경망 학습은 최근 많은 분야에서 주목받는 주제이다. 인공신경망 학습은 음성인식, 이미지 인식에서 엄청난 잠재력을 보였으며 더 나아가 의료진단, 인공지능 게임 및 얼굴인식 등 다양하고 복잡한 곳에 광범위하게 적용된다. 인공신경망의 결과는 실제 인간을 능가할 정도로 정확성을 보이고 있다. 이러한 많은 이점에도 불구하고 인공신경망 학습에는 여전히 프라이버시 문제가 존재한다. 인공신경망 학습을 위한 학습 데이터에는 개인의 민감한 정보를 포함한 다양한 정보가 포함되어 악의적인 공격자로 인해 프라이버시가 노출될 수 있다. 공격자가 학습하는 도중 개입하여 학습이 저하되거나 학습이 완료된 모델을 공격할 때 발생하는 프라이버시 위험이 있다. 본 논문에서는 최근 제안된 신경망 모델의 공격 기법과 그에 따른 프라이버시 보호 방법을 분석한다.

스마트 거울의 제작을 통해 이루어진 공학 교육 실천 방법론에 관한 연구 (A Study on the Practical Methodology of Engineering Education through the Making of Smart Mirror)

  • 서명덕;권지영;장은영
    • 실천공학교육논문지
    • /
    • 제10권1호
    • /
    • pp.9-15
    • /
    • 2018
  • 음성 인식 기반 API를 이용하여 디지털 사이니지(Digital Signage)를 구성하고, 상용화된 다른 제품들과 차별되도록 사용자의 음성 명령으로 날씨, 지도, 운동 정보, 일정, 영상 등의 정보를 얻는 VRSM(Voice Recognition Smart Mirror)을 제안하여, 독자적인 졸업인증제의 결과물로 평가받는 과정을 통해, 공학교육의 효과적인 실천 방안을 제시한다. 전공에서 2인 1조로 3학기동안 진행되는 작품 설계 및 제작 기회를 경험하였다. 종합설계를 통해 공학적 접근 방법과 창의적 사고 기회를 경험하였으며, 그 중간 결과에 대해 본 학회의 학술대회에 참가하여 우수 학술상을 수상하였고, 기타 학회의 논문 경진대회에서도 입상의 결과를 얻었다. 이 과정을 통해 얻어진 실무 능력의 향상이 자신감과 취업 기회 획득에 유리함을 실제 취업들을 통해 입증하였다.