• 제목/요약/키워드: Voice Quality

검색결과 769건 처리시간 0.031초

객체 인식 모델 기반 실시간 교통신호 정보 인식 (Real-time traffic light information recognition based on object detection models)

  • 주은오;김민수
    • 지적과 국토정보
    • /
    • 제52권1호
    • /
    • pp.81-93
    • /
    • 2022
  • 최근 자율주행 기술에서 차량 주변 객체 인식과 교통표지판 및 차량 신호 인식을 위한 연구가 활발히 수행되고 있으며, 특히 차량 신호 인식은 자율주행 기술에 있어서 핵심 요소로 평가되고 있다. 이에 차량 신호 인식을 위한 다양한 연구가 진행되어 왔으며, 최근에는 딥러닝 기반 객체 인식 모델을 활용한 차량 신호 인식 연구가 크게 증가하고 있다. 또한 AIHub에서 음성, 비전, 자율주행 등을 위한 양질의 국내 인공지능 학습데이터 셋이 공개됨에 따라 이들 데이터를 활용한 국내 환경에 적합한 차량 신호 인식 모델의 개발도 가능하게 되었다. 이에 본 연구에서는 AIHub의 학습데이터와 객체 인식모델 YOLO를 적용한 국내 차량 신호 인식 모델을 개발하였다. 특히 차량 신호의 인식 성능을 개선하기 위하여 YOLOv4와 YOLOv5의 다양한 모델을 적용하였으며 학습데이터의 클래스도 다양하게 분류하여 실험을 수행하였다. 결론적으로 YOLOv5가 YOLOv4보다 차량 신호 인식에 조금 더 적합함을 확인할 수 있었으며, 두 모델의 아키텍처 비교를 통하여 YOLOv5 성능이 우수한 이유를 확인할 수 있었다.

인공지능 기반 화자 식별 기술의 불공정성 분석 (Analysis of unfairness of artificial intelligence-based speaker identification technology)

  • 신나연;이진민;노현;이일구
    • 융합보안논문지
    • /
    • 제23권1호
    • /
    • pp.27-33
    • /
    • 2023
  • Covid-19으로 인한 디지털화는 인공지능 기반의 음성인식 기술을 급속하게 발전시켰다. 그러나 이 기술은 데이터셋이 일부 집단에 편향될 경우 인종 및 성차별과 같은 불공정한 사회적 문제를 초래하고 인공지능 서비스의 신뢰성과 보안성을 열화시키는 요인이 된다. 본 연구에서는 대표적인 인공지능의 CNN(Convolutional Neural Network) 모델인 VGGNet(Visual Geometry Group Network), ResNet(Residual neural Network), MobileNet을 활용한 편향된 데이터 환경에서 정확도에 기반한 불공정성을 비교 및 분석한다. 실험 결과에 따르면 Top1-accuracy에서 ResNet34가 여성과 남성이 91%, 89.9%로 가장 높은 정확도를 보였고, 성별 간 정확도 차는 ResNet18이 1.8%로 가장 작았다. 모델별 성별 간의 정확도 차이는 서비스 이용 시 남녀 간의 서비스 품질에 대한 차이와 불공정한 결과를 야기한다.

The Implementation of a Lift Emergency Video Call System based on WebRTC using OpenAPI

  • Woon-Yong Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권10호
    • /
    • pp.155-161
    • /
    • 2023
  • 본 논문에서는 승강기 비상통화 장치의 활용성과 안정성을 높이기 위해 상시 모니터링 환경의 서비스 체계를 구축하는 WebRTC 기반의 비상 화상통화 시스템 구조를 제시한다. 제시된 시스템은 비상상황 시 승강기 내의 비상 호출 시스템과 유지보수 담당자들 간의 원활한 통화 환경을 제공하고 대상 승강기의 모니터링을 통해 승강기 비상 호출에 대한 신속한 응답 처리를 수행하고 승강기의 물리적 공간에서 발생할 수 있는 화상통화에 필요한 제약환경을 극복하여 음성과 영상의 저지연 실시간 화상통화 서비스를 구현할 수 있는 환경을 구축하고자 한다. 이를 위해 현재 다양한 분야에서 활용되고 그 성능이 검증된 OpenAPI를 기반으로 서비스 환경을 구축하고 실시간 화상통화 및 저지연 통화 품질 제공, 그리고 신속한 메시징 방식의 비상상황 전파 방식을 통해 비상 화상통화 장치의 성능 및 활용성을 높이고자 한다. 제시된 시스템 구조는 승강기 제어반 및 다양한 장치와의 결합을 통해 다양한 기능 확장 및 신뢰성 있는 서비스 환경을 통해 승강기 시스템에 대한 지능적 모델을 구성할 수 있는 기반을 제공할 수 있을 것이다.

연속음성신호의 SNR 추정기법에 관한 연구 (A Study on SNR Estimation of Continuous Speech Signal)

  • 송영환;박형우;배명진
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.383-391
    • /
    • 2009
  • 음성 신호처리 환경에서 잡음이 섞인 신호를 개선할 목적으로 음성향상 기법이 많이 이용되고 있다. 잡음추정 알고리즘은 변화하는 환경에 빠르게 적응할 수 있어야 하며 음성신호의 영향을 줄이기 위해 음성신호가 존재하지 않는 구간에서만 잡음의 파워를 갱신한다. 이러한 방법은 음성구간검출이 선행되어야 한다. 그러나 잡음에 열화된 음성신호에 묵음구간이 존재하지 않을 경우, 위와 같이 음성검출을 통한 묵음구간에서의 잡음 추정 방법 및 SNR 추정 방법이 적용될 수 없다. 본 논문에서는 묵음구간이 존재하지 않는 연속음성신호에서 SNR을 추정하는 기법을 제안한다. 유성음의 안정구간에서는 단구간 내 피치의 변화가 매우 작아 피치주기에 따른 음성신호의 파형이 유사하게 나타난다. 따라서 잡음이 음성에 부가되었을 때 피치주기에 따른 인접파형의 유사도를 통해 SNR을 추정한다. 무성음에서는 잡음의 영향이 수신신호의 성도성분 추정에 영향을 미치기 때문에 잡음환경에서 추정된 성도성분과 수신신호 스펙트럼 간의 거리를 이용하여 SNR을 추정한다. 마지막으로, 음성신호의 에너지가 유성음에 대부분 분포하기 때문에, 부가성 잡음 환경에서 유성음의 에너지를 음성신호의 에너지로 근사화하여 SNR을 추정할 수 있다.

마커기반 증강현실을 활용한 캐릭터 굿즈 콘텐츠 개발 (Development of Character Goods Content Utilizing Marker-based Augmented Reality)

  • 안찬제
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.953-958
    • /
    • 2024
  • 최근 4차 산업혁멍이 관심을 받고 있다. 그중에서도 최근 증강현실 관련 디바이스들이 발전하고 있다. 하지만 증강현실 콘텐츠가 부족한 실정이다. 증강현실은 마커방식과 마커리스 방식이 있는데 마커방식은 마커가 되는 이미지를 카메라로 비춰서 증강시키는 원리다. 증강현실기술을 캐릭터 굿즈에 접목하여 상품 품질의 제고를 할 수 있는 방안을 제시하고자 하였다. 캐릭터 산업은 매년 규모가 커지고 있으며 그에 따라 캐릭터 굿즈의 종류도 다양해지고 있다. 캐릭터 아크릴 스탠드는 캐릭터 굿즈 중 하나이며 게임, 웹툰, 애니메이션 캐릭터IP를 이용해서 판매하고 있다. 캐릭터 이미지를 마커로 활용하여 캐릭터IP의 특성에 맞는 콘텐츠를 제작할 수 있도록 설계하였다. 웹툰 캐릭터를 선정하여 증강현실 콘텐츠를 제작하였고, 웹툰 특성에 맞게 음성, 말풍선, 웹툰의 소개를 보여줄 수 있도록 구현하였다. 증강현실로 시각적인 정보와 청각적인 정보를 보여줄 수 있는 가능성을 제시하였고, 이 연구를 활용하여 다양한 콘텐츠들을 포함한 제품들이 나올 것이라고 기대한다.

Real-Time Comprehensive Assistance for Visually Impaired Navigation

  • Amal Al-Shahrani;Amjad Alghamdi;Areej Alqurashi;Raghad Alzahrani;Nuha imam
    • International Journal of Computer Science & Network Security
    • /
    • 제24권5호
    • /
    • pp.1-10
    • /
    • 2024
  • Individuals with visual impairments face numerous challenges in their daily lives, with navigating streets and public spaces being particularly daunting. The inability to identify safe crossing locations and assess the feasibility of crossing significantly restricts their mobility and independence. Globally, an estimated 285 million people suffer from visual impairment, with 39 million categorized as blind and 246 million as visually impaired, according to the World Health Organization. In Saudi Arabia alone, there are approximately 159 thousand blind individuals, as per unofficial statistics. The profound impact of visual impairments on daily activities underscores the urgent need for solutions to improve mobility and enhance safety. This study aims to address this pressing issue by leveraging computer vision and deep learning techniques to enhance object detection capabilities. Two models were trained to detect objects: one focused on street crossing obstacles, and the other aimed to search for objects. The first model was trained on a dataset comprising 5283 images of road obstacles and traffic signals, annotated to create a labeled dataset. Subsequently, it was trained using the YOLOv8 and YOLOv5 models, with YOLOv5 achieving a satisfactory accuracy of 84%. The second model was trained on the COCO dataset using YOLOv5, yielding an impressive accuracy of 94%. By improving object detection capabilities through advanced technology, this research seeks to empower individuals with visual impairments, enhancing their mobility, independence, and overall quality of life.

음성신호의 특성을 고려한 패킷 손실 은닉 알고리즘 (Packet Loss Concealment Algorithm Based on Speech Characteristics)

  • 윤성완;강홍구;윤대희
    • 한국통신학회논문지
    • /
    • 제31권7C호
    • /
    • pp.691-699
    • /
    • 2006
  • VoIP(Voice over Internet Pratocol)와 같은 IP 네트워크망에서는 패킷 지연, 지터, 패킷 손실 등의 이유로 QoS(Quality of Service)를 보장받지 못하기 때문에, 패킷 손실을 은닉하는 방법에 대한 연구는 필수적이다. IP망에서 사용되는 대부분의 저전송률 음성부호화기는 자체적으로 패킷 손실 은닉(PLC: Packet Loss Concealment) 알고리즘을 사용하고 있지만, 예측 기법에 기반한 양자화 특성상 패킷 손실 이후에도 에러가 전파되는 문제가 있다. 또한, 손실된 패킷의 음성신호 특성을 고려하지 않고 과거 파라미터값을 반복시키는 기존 PLC 방법은 그 구현은 쉽지만 천이구간에서의 합성신호의 음질이 심각히 저하된다. 본 논문에서는 패킷 손실 환경에서 랩신호 특성에 따른 에러전파 영향을 정량적으로 분석하고 그 결과를 토대로 보간법 기반의 새로운 PLC 알고리즘을 제안한다. 제안한 알고리즘은 파라미터별로 음성신호의 특성을 고려해 선택적으로 보간법을 적용하고, 예측 필터의 메모리를 효과적으로 갱신한다. 성능평가 결과, 제안한 알고리즘은 VoIP에서 널리 사용되는 G.729 의 기존 PLC 알고리즘에 비해 다양한 FER 환경에서 성능이 향상되었다.

IEEE 802.11e 무선랜에서 서비스 차별화를 통한 QoS 향상 방법 (QoS Enhancement Scheme through Service Differentiation in IEEE 802.11e Wireless Networks)

  • 김선명;조영종
    • 대한전자공학회논문지TC
    • /
    • 제44권4호
    • /
    • pp.17-27
    • /
    • 2007
  • IEEE 802.11e의 EDCA (Enhanced Distributed Channel Access)는 무선 랜에서의 QoS(Quality of Service)를 지원하기 위해 표준화되었다. EDCA는 낮은 우선순위 트래픽의 채널 접근 확률을 낮춤으로써 높은 우선순위 트래픽에 QoS를 제공한다. 이는 높은 우선순위 트래픽에 대한 확정된(Deterministic) 우선순위를 제공하는 것이 아니라 통계적인(Statistical) 우선순위를 제공한다. 그러므로 낮은 우선 순위트래픽은 높은 우선순위 트래픽의 성능에 계속 영향을 미친다. 결과적으로 높은 채널 트래픽 환경에서 EDCA는 음성이나 비디오와 같은 멀티미디어 응용에 QoS를 보장하지 못한다. 본 논문에서는 EDCA 메커니즘의 QoS 성능을 향상시키기 위해 DPCA(Deterministic Priority Channel Access) 방법을 제안한다. 멀티미디어 응용에 보장된 우선순위 채널 접근을 제공하기 위해 제안된 방법은 높은 우선순위 트래픽이 전송할 패킷을 가지고 있을 때 낮은 우선순위 트래픽의 전송을 제한하기 위해 비지톤(Busy Tone)을 사용한다. 제안된 방법의 성능을 수학적 분석과 시뮬레이션을 통해 EDCA와 비교 분석한다. 성능 비교 분석 결과, 제안된 방법이 다양한 경쟁 수준 환경에서 EDCA보다 더 좋은 효율과 지연, 폐기율 등을 가짐을 확인하였다.

영국 커뮤니티케어의 이용자 참여 기제와 한국 장애인복지서비스에 대한 함의 (Issues on User Participation in Korean Disability Services : Implications from UK Community Care)

  • 김용득
    • 한국사회복지학
    • /
    • 제57권3호
    • /
    • pp.363-387
    • /
    • 2005
  • 본 연구의 목적은 영국 커뮤니티케어의 이용자 참여와 관련된 요소들의 검토를 통해서 우리나라 장애인복지서비스에서 이용자 참여를 증진시킬 수 있는 방안을 탐색해 보는 것이다. 본 연구를 통하여 발견한 우리나라 장애인복지서비스에 대한 함의는 크게 다섯 가지로 요약될 수 있다. 첫째, 영국의 커뮤니티케어에서 채택한 핵심적인 전략인 시장기제의 도입을 통한 소비자주의 접근은 크게 다른 서비스 환경 때문에 현재의 우리나라 장애인서비스에는 적합하지 못한 것으로 보인다. 둘째, 지방이양의 쟁점과 관련하여 서비스의 지방이양이 서비스의 질을 저하시키지 않으면서 이용자의 참여를 증진시킬 수 있기 위해서는 서비스의 질을 확보할 수 있는 방안이 먼저 정립되어야 한다. 셋째, 장애인들에게 사정받을 권리를 보장하고 이와 함께 사례관리 과정에 의해 운영되는 공식적 서비스 체계를 구축하는 일이 필요하다. 넷째, 이용자에게 정확한 정보를 제공할 수 있도록 하는 조치와 함께 서비스 이용자들이 쉽게 접근할 수 있는 공식화된 이의제기 절차를 마련하는 것이 필요하다. 다섯째, 전문가들이 이용자들의 개별적인 서비스 과정에 대한 참여뿐만 아니라 집단적인 이용자 운동의 참여에 대해서도 지원하는 역할을 할 수 있도록 하는 전문가 교육이 이루어질 필요가 있으며, 이용자 참여를 견인할 수 있는 장애인운동의 역할도 동시에 강조될 필요가 있다.

  • PDF

단방향 이동 Ad Hoc 망에서의 다중경로를 이용한 QoS 라우팅 프로토콜 (QoS Routing Protocol using multi path in Unidirectional Mobile Ad Hoc Networks)

  • 강경인;박경배;유충렬;정찬혁;이광배;김현욱
    • 정보처리학회논문지C
    • /
    • 제9C권6호
    • /
    • pp.935-944
    • /
    • 2002
  • 이동 애드 혹(Ad hoc)네트워크란 노드의 이동에 따라 시시각각 변하는 무선 링크로 연결되어진 여러 개의 단말기들로 구성된 있는 자치분산 네트워크를 의미한다. 지금 까지 이동 ad hoc 네트워크에서의 통신은 Voice(음성)와 Data(데이터)통신을 제공하는 Best effort(최선형)서비스를 제공하는 라우팅 프로토콜만이 고려되어왔기 때문에 이동 네트워크를 사용하는 사용자가 많은 양의 자원을 차지하는 VOD(Video On Demand)와 같은 멀티미디어 Data를 보다 빠르고 정확하고 신속하게 전송하기 위해서는 기존의 Best effort 방식으로 전송되는 라우팅 프로토콜에는 많은 한계가 있었다(1). 따라서 본 논문에서는 성능평가를 위해 단방향 환경 하에서의 QoS(Qualify of Service)를 고려한 제안한 알고리즘을 적용하였다. 성능평가 카네기 멜론 과 버클리대학에서 만든 Ns-2를 사용하여 최선형 서비스(Best Effort)와 비교하여 QoS 서비스의 수신율 상승과 평균 경로설정 시간의 감소, 네트워크 부하 감소를 얻을수 있었다.