• 제목/요약/키워드: Image to Speech

검색결과 190건 처리시간 0.028초

Real time instruction classification system

  • Sang-Hoon Lee;Dong-Jin Kwon
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제16권3호
    • /
    • pp.212-220
    • /
    • 2024
  • A recently the advancement of society, AI technology has made significant strides, especially in the fields of computer vision and voice recognition. This study introduces a system that leverages these technologies to recognize users through a camera and relay commands within a vehicle based on voice commands. The system uses the YOLO (You Only Look Once) machine learning algorithm, widely used for object and entity recognition, to identify specific users. For voice command recognition, a machine learning model based on spectrogram voice analysis is employed to identify specific commands. This design aims to enhance security and convenience by preventing unauthorized access to vehicles and IoT devices by anyone other than registered users. We converts camera input data into YOLO system inputs to determine if it is a person, Additionally, it collects voice data through a microphone embedded in the device or computer, converting it into time-domain spectrogram data to be used as input for the voice recognition machine learning system. The input camera image data and voice data undergo inference tasks through pre-trained models, enabling the recognition of simple commands within a limited space based on the inference results. This study demonstrates the feasibility of constructing a device management system within a confined space that enhances security and user convenience through a simple real-time system model. Finally our work aims to provide practical solutions in various application fields, such as smart homes and autonomous vehicles.

IoT 기반 스마트 냉장고 시스템 (A Smart Refrigerator System based on Internet of Things)

  • 김한진;이승기;김원태
    • 전기전자학회논문지
    • /
    • 제22권1호
    • /
    • pp.156-161
    • /
    • 2018
  • 최근 인구가 급격히 증가하면서 음식물의 부족 및 낭비의 심각성이 대두되고 있다. 이를 해결하기 위해 다양한 국가 및 기업에서는 소비자의 식재료 구매 패턴 연구 및 IoT 기술이 적용된 스마트 냉장고 제품개발 등의 시도를 진행 중에 있다. 그러나, 현재 판매되고 있는 스마트 냉장고들은 기존에 비해 상당한 가격대를 형성하고 있으며, 복잡한 구성으로 인한 오작동 및 파손으로 또 다른 낭비를 초래한다. 본 논문에서는 음식물 부족 및 낭비 해결과 가정 내 원활한 식재료 관리를 위한 저비용의 IoT 기반 스마트 냉장고 시스템을 제안한다. 본 시스템은 QR코드, 이미지 인식, 음성 인식을 통해 식재료를 인식하여 등록하고 이를 바탕으로 다양한 서비스를 제공할 수 있다. 이미지 인식의 정확도를 높이기 위해 우리는 딥 러닝 알고리즘을 사용한 모델을 활용하였으며 정확한 식재료 등록이 가능함을 검증하였다.

GAN으로 합성한 음성의 충실도 향상 (Improving Fidelity of Synthesized Voices Generated by Using GANs)

  • 백문기;윤승원;이상백;이규철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권1호
    • /
    • pp.9-18
    • /
    • 2021
  • 생성적 적대 신경망(Generative Adversarial Networks, GANs)은 컴퓨터 비전 분야와 관련 분야에서 큰 인기를 얻었으나, 아직까지는 오디오 신호를 직접적으로 생성하는 GAN이 제시되지 못했다. 오디오 신호는 이미지와 다르게 이산 값으로 구성된 생플링된 신호이므로, 이미지 생성에 널리 사용되는 CNN 구조로 학습하기 어렵다. 이러한 제약을 해결하고자, 최근 GAN 연구자들은 오디오 신호의 시간-주파수 표현을 기존 이미지 생성 GAN에 적용하는 전략을 제안했다. 본 논문은 이 전략을 따르면서 GAN을 사용해 생성된 오디오 신호의 충실도를 높이기 위한 개선된 방법을 제안한다. 본 방법은 공개된 스피치 데이터세트를 사용해 검증했으며, 프레쳇 인셉션 거리(Fréchet Inception Distance, FID)를 사용해 평가했다. 기존의 최신(state-of-the-art) 방법은 11.973의 FID를, 본 연구에서 제안하는 방법은 10.504의 FID를 보였다(FID가 낮을수록 충실도는 높다).

웨이브렛과 원소 편차 기반의 중간값 필터를 이용한 잡음제거 알고리즘 (Denoising Algorithm using Wavelet and Element Deviation-based Median Filter)

  • 배상범;김남호
    • 한국정보통신학회논문지
    • /
    • 제14권12호
    • /
    • pp.2798-2804
    • /
    • 2010
  • 음성 및 영상신호는 신호를 처리하는 과정에서 다양한 잡음에 의해 훼손되어지며, 이러한 신호를 복원하기 위한 많은 연구가 이루어지고 있다. 본 논문에서는 음성신호와 같은 1차원 신호에 복합적으로 중첩된 가우시안 잡음과 임펄스 잡음을 제거하기 위한 알고리즘을 제안하였다. 알고리즘은 임펄스 잡음을 제거한 후, 가우시안 잡음을 제거 하도록 구성되어져 있으며, 가우시안 잡음을 제거하기 위해 웨이브렛 계수 누적을 이용하였고, 임펄스 잡음을 제거하기 위해 원소 편차에 기반한 중간값 필터를 적용하였다. 그리고 개선 효과의 판단 기준으로 SNR을 사용하였으며, 객관적인 판단을 위해 기존의 방법들과 비교하였다.

2세 영아의 정서조절 측면에서 나타나는 교사의 의미 (The Meaning of Teachers as they Manifest themselves in the Emotional Regulation of 2 Year Old Infants)

  • 김보영;김용미
    • 아동학회지
    • /
    • 제34권5호
    • /
    • pp.17-41
    • /
    • 2013
  • The purpose of this research was to investigate meaning of teachers as they manifest themselves in the emotional regulation of 2year old infants in a daycare center. In addition, the research attempts to provide basic research data that can be used as a guideline for teacher's awareness, roles, attitudes, and classroom management for infant's emotional education in the future. To achieve this goal, participatory observation was conducted in a child care center class for infants under 2 years old from January 17 to January 29, 2012. The teacher is defined as follow : Teachers are authority figures whose image is that of absolute authority, and coupled with their dual role of passive caretakers. Additionally, they function as guides who guided infants through the process of emotional socialization, and played the central role of emotional contagion from whose expression speech and atmosphere the said infants receive much influence. Such results seemed to indicate that teachers today do not fully comprehend the importance of their roles in influencing the emotion regulation of infants.

Privacy-Preserving in the Context of Data Mining and Deep Learning

  • Altalhi, Amjaad;AL-Saedi, Maram;Alsuwat, Hatim;Alsuwat, Emad
    • International Journal of Computer Science & Network Security
    • /
    • 제21권6호
    • /
    • pp.137-142
    • /
    • 2021
  • Machine-learning systems have proven their worth in various industries, including healthcare and banking, by assisting in the extraction of valuable inferences. Information in these crucial sectors is traditionally stored in databases distributed across multiple environments, making accessing and extracting data from them a tough job. To this issue, we must add that these data sources contain sensitive information, implying that the data cannot be shared outside of the head. Using cryptographic techniques, Privacy-Preserving Machine Learning (PPML) helps solve this challenge, enabling information discovery while maintaining data privacy. In this paper, we talk about how to keep your data mining private. Because Data mining has a wide variety of uses, including business intelligence, medical diagnostic systems, image processing, web search, and scientific discoveries, and we discuss privacy-preserving in deep learning because deep learning (DL) exhibits exceptional exactitude in picture detection, Speech recognition, and natural language processing recognition as when compared to other fields of machine learning so that it detects the existence of any error that may occur to the data or access to systems and add data by unauthorized persons.

Structural live load surveys by deep learning

  • Li, Yang;Chen, Jun
    • Smart Structures and Systems
    • /
    • 제30권2호
    • /
    • pp.145-157
    • /
    • 2022
  • The design of safe and economical structures depends on the reliable live load from load survey. Live load surveys are traditionally conducted by randomly selecting rooms and weighing each item on-site, a method that has problems of low efficiency, high cost, and long cycle time. This paper proposes a deep learning-based method combined with Internet big data to perform live load surveys. The proposed survey method utilizes multi-source heterogeneous data, such as images, voice, and product identification, to obtain the live load without weighing each item through object detection, web crawler, and speech recognition. The indoor objects and face detection models are first developed based on fine-tuning the YOLOv3 algorithm to detect target objects and obtain the number of people in a room, respectively. Each detection model is evaluated using the independent testing set. Then web crawler frameworks with keyword and image retrieval are established to extract the weight information of detected objects from Internet big data. The live load in a room is derived by combining the weight and number of items and people. To verify the feasibility of the proposed survey method, a live load survey is carried out for a meeting room. The results show that, compared with the traditional method of sampling and weighing, the proposed method could perform efficient and convenient live load surveys and represents a new load research paradigm.

Implementation of Enhanced Vision for an Autonomous Map-based Robot Navigation

  • Roland, Cubahiro;Choi, Donggyu;Kim, Minyoung;Jang, Jongwook
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.41-43
    • /
    • 2021
  • Robot Operating System (ROS) has been a prominent and successful framework used in robotics business and academia.. However, the framework has long been focused and limited to navigation of robots and manipulation of objects in the environment. This focus leaves out other important field such as speech recognition, vision abilities, etc. Our goal is to take advantage of ROS capacity to integrate additional libraries of programming functions aimed at real-time computer vision with a depth-image camera. In this paper we will focus on the implementation of an upgraded vision with the help of a depth camera which provides a high quality data for a much enhanced and accurate understanding of the environment. The varied data from the cameras are then incorporated in ROS communication structure for any potential use. For this particular case, the system will use OpenCV libraries to manipulate the data from the camera and provide a face-detection capabilities to the robot, while navigating an indoor environment. The whole system has been implemented and tested on the latest technologies of Turtlebot3 and Raspberry Pi4.

  • PDF

YOLO알고리즘을 활용한 시각장애인용 식사보조 시스템 개발 (Development a Meal Support System for the Visually Impaired Using YOLO Algorithm)

  • 이군호;문미경
    • 한국전자통신학회논문지
    • /
    • 제16권5호
    • /
    • pp.1001-1010
    • /
    • 2021
  • 시각이 온전한 사람들은 식사를 할 때 시각에 대한 의존도를 깊게 인지하지 못한다. 그러나 시각장애인은 식단에 어떤 음식이 있는지 알지 못하기 때문에 옆에 있는 보조인이 시각장애인 수저로 음식의 위치를 시계방향 또는 전후좌우 등 일정한 방향으로 설명하여 그릇 위치를 확인한다. 본 논문에서는 시각장애인이 스마트폰의 카메라를 이용하여 자신의 식단을 비추면 각각의 음식 이미지를 인식하여 음성으로 음식의 이름을 알려주는 식사보조 시스템의 개발 내용에 대해 기술한다. 이 시스템은 음식과 식기도구(숟가락)의 이미지를 학습한 YOLO모델을 통해 숟가락이 놓인 음식을 추출해 내고, 이 음식이 무엇인지를 인식하여 이를 음성으로 알려준다. 본 시스템을 통해 시각장애인은 식사보조인의 도움없이 식사를 할 수 있음으로써 자립의지와 만족도를 높일 수 있을 것으로 기대한다.

고정 소수점 연산시 오차의 전파를 줄이는 고속 이산 여현 변환 알고리즘 (A fast DCT algorithm with reduced propagation error in the fixed-point compuitation)

  • 정연식;이임건;최영호;박규태
    • 한국통신학회논문지
    • /
    • 제23권9A호
    • /
    • pp.2365-2371
    • /
    • 1998
  • 이산 여현 변환(Discrete Cosine Transform: DCT)은 음성 및 영상 신호의 압축에 광범위하게 응용되고 있다. 본 논문에서는 $2^{m}$-포인트의 일반적인 경우로 확장이 가능한 새로운 고속 DCT 알고리즘과 구조를 제안한다. 제안한 알고리즘은 커널의 대칭성을 이용하여 N-포인트의 DCT를 N/2-포인트의 DCT로 나누어 처리하며 이를 재귀적으로 적용해 나간다. 제안한 알고리즘은 적은 덧셈 및 곱셈 연산을 통해 변환을 수행하며, 변환을 위해 통과해야 하는 곱셈 연산단의 수가 적고 대부분의 곱셈 연산이 흐름도상의 후반부에서 일괄적으로 수행되므로 고정 소수점 연산시에 발생할 수 있는 오차의 전파를 줄일 수 있다.

  • PDF