• Title/Summary/Keyword: 음성인식알고리즘

Search Result 449, Processing Time 0.028 seconds

Development of a Raspberry Pi-based Banknote Recognition System for the Visually Impaired (시각장애인을 위한 라즈베리 파이 기반 지폐 인식기 개발)

  • Lee, Jiwan;Ahn, Jihoo;Lee, Ki Yong
    • The Journal of Society for e-Business Studies
    • /
    • v.23 no.2
    • /
    • pp.21-31
    • /
    • 2018
  • Korean banknotes are similar in size, and their braille tend to worn out as they get old. These characteristics of Korean banknotes make the blind people, who mainly rely on the braille, even harder to distinguish the banknotes. Not only that, this can even lead to economic loss. There are already existing systems for recognizing the banknotes, but they don't support Korean banknotes. Furthermore, because they are developed as a mobile application, it is not easy for the blind people to use the system. Therefore, in this paper, we develop a Raspberry Pi-based banknote recognition system that not only recognizes the Korean banknotes but also are easily accessible by the blind people. Our system starts recognition with a very simple action of the user, and the blind people can hear the recognition results by sound. In order to choose the best feature extraction algorithm that directly affects the performance of the system, we compare the performance of SIFT, SURF, and ORB, which are representative feature extraction algorithms at present, in real environments. Through experiments in various real environments, we adopted SIFT to implement our system, which showed the highest accuracy of 95%.

Taboo Word Matching System Using a Common Multilingual Phoneme System (다국어 공통 음소 체계를 이용한 금기어 매칭 시스템)

  • Kim, Da-Hee;Shin, Sa-Im;Jang, Dal-Won;Lee, Jong-Seol;Jang, Sei-Jin
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2015.07a
    • /
    • pp.155-158
    • /
    • 2015
  • 단어의 유사도 측정 알고리즘은 DB 인덱싱, 필터링, 소스코드 분석 소프트웨어, 음성 인식 등 다양한 분야에서 활용되고 있다. 하지만 기존의 단어의 유사도만 비교하는 시스템에는 발음이 비슷한 유사단어나 오타가 있는 유사단어들은 측정을 못하는 단점이 있다. 언어의 유사도 측정에서는 알파벳만으로 볼게 아니라 언어 발음의 발화적 특성 또한 고려되어야 한다. 본 논문에서는 글로벌 시장에서의 다국적 기업들의 제품이나 문화 수출 등의 도움이 되는 각 나라의 금기어와의 발화적 특성까지 고려한 단어 유사도를 측정 할 수 있는 시스템을 제안한다. 11개국의 4개 언어 총 21487개의 금기어 단어를 금기어 데이터로 사용하였다. 제안하는 방법의 성능을 평가하기 위하여 타 알고리즘과의 성능비교와 여러 나라의 다양한 언어의 사용자들로부터 사용자 평가를 수행하였고 제안하는 방법이 발음 유사도를 측정하지 않는 알고리즘보다 우수한 성능을 보임을 확인하였다.

  • PDF

A Study on Finger Language Translation System using Machine Learning and Leap Motion (머신러닝과 립 모션을 활용한 지화 번역 시스템 구현에 관한 연구)

  • Son, Da Eun;Go, Hyeong Min;Shin, Haeng yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.552-554
    • /
    • 2019
  • Deaf mutism (a hearing-impaired person and speech disorders) communicates using sign language. There are difficulties in communicating by voice. However, sign language can only be limited in communicating with people who know sign language because everyone doesn't use sign language when they communicate. In this paper, a finger language translation system is proposed and implemented as a means for the disabled and the non-disabled to communicate without difficulty. The proposed algorithm recognizes the finger language data by leap motion and self-learns the data using machine learning technology to increase recognition rate. We show performance improvement from the simulation results.

A Study on the Frequency Scaling Methods Using LSP Parameters Distribution Characteristics (LSP 파라미터 분포특성을 이용한 주파수대역 조절법에 관한 연구)

  • 민소연;배명진
    • The Journal of the Acoustical Society of Korea
    • /
    • v.21 no.3
    • /
    • pp.304-309
    • /
    • 2002
  • We propose the computation reduction method of real root method that is mainly used in the CELP (Code Excited Linear Prediction) vocoder. The real root method is that if polynomial equations have the real roots, we are able to find those and transform them into LSP. However, this method takes much time to compute, because the root searching is processed sequentially in frequency region. In this paper, to reduce the computation time of real root, we compare the real root method with two methods. In first method, we use the mal scale of searching frequency region that is linear below 1 kHz and logarithmic above. In second method, The searching frequency region and searching interval are ordered by each coefficient's distribution. In order to compare real root method with proposed methods, we measured the following two. First, we compared the position of transformed LSP (Line Spectrum Pairs) parameters in the proposed methods with these of real root method. Second, we measured how long computation time is reduced. The experimental results of both methods that the searching time was reduced by about 47% in average without the change of LSP parameters.

Target Speech Detection Using Gaussian Mixture Model of Frequency Bandwise Power Ratio for GSC-Based Beamforming (GSC 기반 빔포밍을 위한 주파수 밴드별 전력비 분포의 혼합 가우시안 모델을 이용한 목표 음성신호의 검출)

  • Chang, Hyungwook;Kim, Youngil;Jeong, Sangbae
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.19 no.1
    • /
    • pp.61-68
    • /
    • 2015
  • Noise reduction is necessary to compensate for the degradation of recognition performance by various types of noises. Among many noise reduction techniques using microphone array, generalized sidelobe canceller (GSC) has been widely applied to reduce nonstationary noises. The performance of GSC is directly affected by its adaptation mode controller (AMC). That is, accurate target speech detection is essential to guarantee the sufficient noise reduction in pure noise intervals and the less distortion in target speech intervals. Thus, this paper proposes an improved AMC design technique in which the power ratio of the output of fixed beamforming to that of blocking matrix is calculated frequency bandwise and probabilistically modeled by mixture Gaussians for each class. Experimental results show that the proposed algorithm outperforms conventional AMCs in receiver operating curves (ROC) and output SNRs.

A Study on the Utilization of Biometric Authentication for Digital Signature in Electronic Financial Transactions: Technological and Legal Aspect (전자금융 거래 시 생체인증을 전자서명에 활용하기 위한 기술 및 법률에 관한 연구)

  • Song, Jae-Hun;Kim, In-Seok
    • The Journal of Society for e-Business Studies
    • /
    • v.21 no.4
    • /
    • pp.41-53
    • /
    • 2016
  • Today, leading smartphone manufacturers offer biometric technologies such as fingerprints, voice recognition, and iris patterns in their flagship models. These biometric technologies are used for authentication. Biometric authentications are widely used in device security and even in financial transaction. This paper examines cases where a user uses biometric authentication during financial transaction (both online and smartphone banking), and explains biometric for non-repudiation by digital signature. Finally, the paper also explains technical and legal requirements for biometric authentication in the area of financial services.

IoT Multi Control Platform by Finger Gesture and Voice Recognition (Finger Gesture와 Voice Recognition을 활용한 IoT 통합 제어 웹 플랫폼)

  • Jinhyeong Kang;Hanju Kim;Dong Ho Kim
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.11a
    • /
    • pp.236-239
    • /
    • 2022
  • 증강현실로 날씨, 뉴스 요약 등이 제공되거나 AI 비서 기능을 제공하는 스마트 미러(smart mirror)가 개발되고 있다. 본 작품에서는 IoT 통합제어, 뉴스 요약 및 날씨 정보 제공 등의 서비스를 하나의 웹 플랫폼으로 구축하고 이를 손가락 제스쳐 및 음성 명령으로 제어하는 것을 제안하고 구현하였다. 본 작품에서는 음성 인식을 통해 IoT 서비스를 직관적으로 이용할 수 있게끔 설계하여 사용자의 편의성을 높였으며, 디바이스를 직접 터치하는 방식이 아닌 finger gesture로 제어하는 방식을 채택해, 디바이스 유지 보수 및 위생 문제를 해결하였다. 단순 IoT 통합 제어 기능뿐만 아니라 다양한 컨텐츠 및 기능을 제공함으로써 통합 플랫폼의 기능을 수행할 수 있도록 하였다. 뉴스 홈페이지에서 Crawling한 뉴스를 text rank 알고리즘을 이용. 자동으로 요약하는 기능과, 사용자의 IP를 기반으로 위도와 경도를 추론, 해당 지역의 일기 예보 정보를 표현해 주는 등 단순 IoT 제어 플랫폼이 아닌, 통합 플랫폼의 기능을 다하도록 설계하였다. 이처럼 다양한 정보를 압축해서 사용자가 편하게 볼 수 있도록 제공하며, 직관적인 two track 제어 방식을 채택. 사용 대상의 편의성을 증대시켜 본 프로젝트는 기존 프로젝트보다 사용자에게 더 나은 사용 경험을 제공할 것이다.

  • PDF

Developing a mobile application serving sign-language to text translation for the deaf (청각 장애인을 위한 수어 영상-자연어 번역 서비스 및 모바일 어플리케이션 구현)

  • Cho, Su-Min;Cho, Seong-Yeon;Shin, So-Yeon;Lee, Jee Hang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.1012-1015
    • /
    • 2021
  • Covid-19 로 인한 마스크 착용이 청각장애인들의 소통을 더 어렵게 하는 바, 제 3 자의 도움 없이 쌍방향 소통을 가능하게 하는 서비스의 필요성이 커지고 있다. 이에 본 논문은 소통의 어려움을 겪는 청각장애인과 비청각장애인을 위한 쌍방향 소통 서비스에 대한 연구와 개발 과정, 기대 효과를 담는다. 서비스는 GRU-CNN 하이브리드 아키텍처를 사용하여 데이터셋을 영상 공간 정보와 시간 정보를 포함한 프레임으로 분할하는 영상 분류 기법과 같은 딥 러닝 알고리즘을 통해 수어 영상을 분류한다. 해당 연구는 "눈속말" 모바일 어플리케이션으로 제작 중이며 음성을 인식하여 수어영상과 텍스트로 번역결과를 제공하는 청각장애인 버전과 카메라를 통해 들어온 수어 영상을 텍스트로 변환하여 음성과 함께 제공하는 비청각장애인 버전 두 가지로 나누어 구현한다. 청각장애인과 비장애인의 쌍방향 소통을 위한 서비스는 청각장애인이 사회로 나아가기 위한 가장 기본적인 관문으로서의 역할을 할 것이며 사회 참여를 돕고 소통이라는 장벽을 넘어서는 발돋움이 될 것이라 예측된다.

A TCP-like flow control algorithm for RTP/RTCP (TCP 와 RTP/RTCP 유사한 흐름제어 알고리즘)

  • 나승구;윤성덕;안종석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10a
    • /
    • pp.480-482
    • /
    • 1998
  • 최근, 멀티캐스트 기법을 사용하는 멀티미디어 응용 프로그램들이 인터넷에 등장하고 있다. 이들 응용 프로그램들의 성공 여부는 수신자들에게 전송되는 음성/영상의 품질에 의해 좌우된다. 인터넷은 응용프로그램의 QoS(Quality of Service) 에 대한 요구를 보장할 수 없기 때문에 멀티케스트 트래픽(multicast traffic)을 위하여 인터넷의 성능을 최대한 효율적으로 이용할 수 있도록 흐름제어에 대한 많은 연구가 진행되고 있다. 그 중 IVS(INRIA Video conferencing System)에서 제안한 멀티캐스트 트래픽 흐름제어 알고리즘은 수신자가 주기적으로 전달하는 RTCP 의 패킷손실 정보에 의해 송신자가 전송율을 조절하는 것이다. 그러나 이 알고리즘은 네트워크 상태가 무부하(unload)임에도 불구하고 느린 피드백으로 인하여 가용 네트워크 대역폭을 빠르게 파악하지 못하기 때문에, TCP트래픽과 경쟁 상태에서 네트워크 대역폭을 불공정(unfairness)하게 사용하게 되고 네트워크 상태에 알맞는 전송율을 결정하지 못한다. 본 논문에서는 더욱 공정하게 대역폭을 공유할 수 있고 전체 링크 이용율을 높이는 두 가지 기법을 제안한다. 첫째, 측정된 네트워크 혼잡상태에 따라 RTCP 피드백의 전송 빈도를 동적으로 조절하는 것이다. 둘째, TCP와 같이 전송율을 증가/감소시킴으로써 공정하게 네트워크를 공유하도록 하는 것이다. 본 논문에서는 이 두 가지 기법들이 TCP 트래픽에 영향을 주지 않고 또한 RTCP피드백의 양을 증가시키지 않으면서도 공정하게 네트워크 대역폭을 공유함으로써 링크의 이용율을 높일 수 있다는 것을 시뮬레이션을 통하여 보여준다.안 모니터링 기 능 등으로 조사되었다.도 멜-켑스트럼을 사용한 경우 67.5%, K-L계수를 사용한 경우 75.3%로 7.8%의 향상된 인식률을 보였으며 K-L계수와 회귀계수를 결합한 경우에서도 비교적 높은 인식률을 보여 숫자음에 대해서도 K-L계수의 유효성을 확인할 수 있었다..rc$ 구입할 때 중점적으로 살펴보는 사항은 신선도와 순수재래종 여부, 위생상태였다. 한편 소비자가 언제나 구입할 수 없다는 의견이 85.2%나 되어 원활한 공급과 시장조성이 아직 정착되지 않고 있었다. $\bigcirc$ 현재 유통되고 있는 재래종닭은 소비자 대부분이 잡종으로 인식하고 있었으며, 재래종과 일반육계와의 구별은 깃털색, 피부색, 정강이색등 외관상으로 구별하고 있었다. 체중에 대한 반응은 너무 작다는 의견이었고, 식품으로의 인식도는 비교적 고급식품으로 인식하고 있다. $\bigcirc$ 재래종닭고기의 브랜드화에 대한 견해는 젊고 소득이 높은 계층에서 브랜드화의 필요성을 강조하고 있다. $\bigcirc$ 재래종달걀의 소비형태는 대부분의 소비자가 좋아하였으나 아직 먹어보지 못한 응답자가 많았다. 재래종달걀의 맛에 대해서는 고소하고 독특하여 차별성을 느끼고 있었다. $\bigcirc$ 재래종달걀의 구입장소는 계란판매점(축협.농협), 슈퍼, 백화점, 재래닭 사육 농장등 다양하였으며 포장단위는 10개를 가장 선호하였고, 포장재료는 종이, 플라스틱, 짚의 순으로 좋아하였다. $\bigcirc$ 달걀의 가격은 200원정도를 적정하다고 하였으며, 크기는 (평균 52g)는 가장 적당하다고

  • PDF

A Human-Robot Interaction Entertainment Pet Robot (HRI 엔터테인먼트 애완 로봇)

  • Lee, Heejin
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.24 no.2
    • /
    • pp.179-185
    • /
    • 2014
  • In this paper, a quadruped walking pet robot for human-robot interaction, a robot-controller using a smart phone application program, and a home smart control system using sensor informations providing from the robot are described. The robot has 20 degree of freedom and consists of various sensors such as Kinect sensor, infrared sensor, 3 axis motion sensor, temperature/humidity sensor, gas sensor and graphic LCD module. We propose algorithms for the robot entertainment: walking algorithm of the robot, motion and voice recognition algorithm using Kinect sensor. emotional expression algorithm, smart phone application algorithm for a remote control of the robot, and home smart control algorithm for controlling home appliances. The experiments of this paper show that the proposed algorithms applied to the pet robot, smart phone, and computer are well operated.