• 제목/요약/키워드: Image to Speech

검색결과 190건 처리시간 0.027초

Cluster의 중심벡터를 이용하는 영상 압축 (The Image Compression Using the Central Vectors of Clusters)

  • 조제황
    • 한국음향학회지
    • /
    • 제14권1호
    • /
    • pp.5-12
    • /
    • 1995
  • Training 벡터 집합이 Cluster를 이루는 경우, 벡터 양자화에서 영상과 음성의 압축에 사용되는 코드북의 코드벡터는 Cluster의 중심벡터로 간주된다. 본 연구에서는 Training 벡터 간의 Euclidean 거리가 최소가 되는 벡터를 찾는 과정에서 얻어지는 Euclidean 거리분포를 관찰하여 적절한 Cluster수와 그 중심벡터를 결정할 수 있는 방법을 제시하고, 제안된 방법이 기존의 LBG 알고리즘이나 Competitive 학습 알고리즘에 의한 영상 압축보다 약 4[dB] 이상 향상된 SNR을 얻을 수 있음을 보인다.

  • PDF

딥 러닝 프레임워크의 비교 및 분석 (A Comparison and Analysis of Deep Learning Framework)

  • 이요섭;문필주
    • 한국전자통신학회논문지
    • /
    • 제12권1호
    • /
    • pp.115-122
    • /
    • 2017
  • 딥 러닝은 사람이 가르치지 않아도 컴퓨터가 스스로 사람처럼 학습할 수 있는 인공지능 기술이다. 딥 러닝은 세상을 이해하고 감지하는 인공지능을 개발하는데 가장 촉망받는 기술이 되고 있으며, 구글, 바이두, 페이스북 등이 가장 앞서서 개발을 하고 있다. 본 논문에서는 딥 러닝을 구현하는 딥 러닝 프레임워크의 종류에 대해 논의하고, 딥 러닝 프레임워크의 영상과 음성 인식 분야의 효율성에 대해 비교, 분석하고자 한다.

언어장애인의 언어학습을 위한 이미지 전자사전의 구축 (Implementation of Image electronic Dictionary to Study Language for Speech Disorders)

  • 조진경;류제;한광록
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 추계학술발표대회 및 정기총회
    • /
    • pp.669-672
    • /
    • 2005
  • 단어가 지니는 의미를 이미지로 처리하면 그 단어의 이미지가 단순화되면서 높은 인식률을 가질 수 있다는 장점을 지닌다. 이러한 장점을 이용하여 언어장애인들을 위한 유용한 보완대체 의사소통 학습도구에 하나로 이미지 전자 사전을 구축하고자 한다. 우선 동사와 조합되는 용어들의 패턴들을 면밀히 조사하여 그 패턴들을 영역과 자질의 카테고리로 분류하고, 그 카테고리에 속하는 기본 데이터들을 정리하여 분류된 데이터를 하위범주화 방식을 통해 검색을 보다 용이하게 하였다. 더욱이 언어장애인들이 많이 쓰이는 단어를 조사하고, 그 단어를 중심으로 한 모듈을 이용하여, 각각에게 해당되는 이미지를 수집함으로 단어들의 의미를 표현하고 인식할 수 있도록 하는 인터페이스를 구축하는데 중점을 두었다. 또한 언어장애인이 직접 명사와 동사를 조합하여 그 완성여부를 검토할 수 있는 학습기능을 추가함으로 인해 보다 실생활에 유용하고 교육적인 이미지 전자 사전을 구축하였다.

  • PDF

웨이블릿변환에 기반한 정보압축 (Information Compression Based on Wavelet Transform)

  • 김응규;이수종
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2006년도 하계종합학술대회
    • /
    • pp.333-334
    • /
    • 2006
  • In this study, information compression based on the wavelet technique is described. The principle of signal or image compression is performed by optimization of quantization, that is the bit allocation taking advantage of their energy concentration in low frequency components. The wavelet transform is one of frequency decomposition, such as the discrete cosine transform or sub-band filtering, and it is also implemented as a filter bank. Wavelet transform with use of spatially localized basis function can reduce several drawbacks in conventional methods. The benifit of wavelet based compression method is described as comparing the transform method to another ones.

  • PDF

환자 정보 통합 관리 시스템의 개발 (Integrated Patient Information Management System)

  • 정석희;박승훈;우응제
    • 대한의용생체공학회:학술대회논문집
    • /
    • 대한의용생체공학회 1996년도 추계학술대회
    • /
    • pp.45-47
    • /
    • 1996
  • we developed an information management system that manages various types of medical information such as text, image, sound, and laboratory data. We also developed a multimedia description system, in which medical doctors can describe his findings and interpretations with text and speech. The descriptions include the references to the data items stored in the information management systems. The communication between the description system and the information management systems is carried out using OLE/COM mechanism. The information management system was implemented by using Microsoft Open Data Base Connectivity(ODBC).

  • PDF

한국어 단모음 [이, 에, 아, 오, 우, 으]에 대한 성도 3차원 모델링 및 모음 판별 (A 3D Vocal Tract Modeling and Vowel Discrimination of Korean Monophthongs [이, 에, 아, 오, 우, 으])

  • 성철재;박종원;김귀룡
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2005년도 추계 학술대회 발표논문집
    • /
    • pp.185-188
    • /
    • 2005
  • We presents a new method for the measurement and analysis of the volume of the vocal tract using 3D magnetic resonance image. The relative ratios of volume A, B, and C, which are divided by the 2constriction points formed on the horizontal and vertical plane in vocal tract, take a decisive role indiscriminating Korean monophthong. Together with Fl-F2 and the minimum cross sectional area in the vocal tract, the relative ratios of the regional volumes were proved to be significant parameter in statistic viewpoint.

  • PDF

시각장애인을 위한 화폐 인식 시스템 (Currency Recognition System for Blind People)

  • 유동준;김성준;이준영;강현수;손준호;오세진
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.257-258
    • /
    • 2024
  • 현재 시각장애인들이 현금을 사용하게 될 시 지폐가 얼마인지 확인할 방법이 없어 불편을 겪거나 금전적 사기를 당할 위험이 잦다. 한국은행에서는 이러한 사고를 막기 위해 점자 지폐를 만들어 발부하고 있지만 시각장애인 91%가 식별하지 못해 많은 불편을 겪고 있다. 본 논문에서는 딥러닝을 활용하여 화폐를 인식하고 TTS 기술을 사용하여 지폐의 값이 얼마인지 소리로 알려주는 시스템을 개발하였다. 지폐 인식을 위해 데이터를 직접 수집하여 YOLOv5 알고리즘을 활용하여 학습시킨 Weights 파일을 사용하였다. 이를 활용하여 시각장애인들은 더 안전하게 현금을 사용하고, 금전적인 문제를 예방할 수 있다.

  • PDF

주거지 정비지역 주민 워크샵을 통한 마을이미지 맵 제작도구의 효용성 연구 (Effectiveness of "Village Image Construction Tool Kit" in the Residents Workshop of a Housing Improvement Area)

  • 이연숙;김주석;정은정
    • 한국주거학회논문집
    • /
    • 제21권1호
    • /
    • pp.67-77
    • /
    • 2010
  • Citizen participation in local redevelopment has recently been regarded as essential, since progress in democracy and diversified public interests have contributed to more importance being placed on citizen participation in the implementation of public policies. While the importance of resident participation has been increasingly emphasized in principle, in reality more effort is still required in its application. We need to develop practical strategies of collecting community opinion in order to reflect it in public policy, if we are to achieve a resident and citizen-centered society. The purpose of this study is to develop an image map construction tool that can be applied to the "Maul-Mandulgi" projects as a visualized method to facilitate the exchange of opinions and work toward agreements. The tool is intended to assist public discussion by visualizing policies and plans and reducing the possibility of misunderstanding, so that residents can properly respond to the plans. Second, this study will verify the effectiveness of the tool in the application to local community workshops. The main research method is participant observation method and field study. Major findings are as follows, First, every resident who had participated in previous workshops gathered together, used the tool and represented their opinions unusually more than once. Each resident tried to make sure that other participants appropriately understood his or her opinion. The workshop finished when all participants agreed and produced a consensus. The workshop took much less time, which is in stark contrast to previous workshops in which it took significantly more time to collect opinions. Second, it proved that residents in the redevelopment area can strike a broad agreement by themselves on a method and direction for residential improvement. In previous workshops, conflicts between residents developed over the choice between the two methods, of local improvement and total demolition prior to multi-housing construction. In this study, opinions of residents were not limited to the two methods by finding a winwin solution. Third, the use of the tool kit for image map became efficient for inactive residents to develop their own opinions in regard to the direction and orientations of the residential improvement process. In addition, for those who have either no or a slight understanding of the residential improvement projects, the tool can provide access to information and knowledge. This study concludes that the developed tool for imaging of the redevelopment projection like a design game, rather than using forms of text and speech, can be a useful tool in collecting opinions and forming an agreed opinion for forthcoming residential improvement plans.

음성위조 탐지에 있어서 데이터 증강 기법의 성능에 관한 비교 연구 (Comparative study of data augmentation methods for fake audio detection)

  • 박관열;곽일엽
    • 응용통계연구
    • /
    • 제36권2호
    • /
    • pp.101-114
    • /
    • 2023
  • 데이터 증강 기법은 학습용 데이터셋을 다양한 관점에서 볼 수 있게 해주어 모형의 과적합 문제를 해결하는데 효과적으로 사용되고 있다. 이미지 데이터 증강기법으로 회전, 잘라내기, 좌우대칭, 상하대칭등의 증강 기법 외에도 occlusion 기반 데이터 증강 방법인 Cutmix, Cutout 등이 제안되었다. 음성 데이터에 기반한 모형들에 있어서도, 1D 음성 신호를 2D 스펙트로그램으로 변환한 후, occlusion 기반 데이터 기반 증강기법의 사용이 가능하다. 특히, SpecAugment는 음성 스펙트로그램을 위해 제안된 occlusion 기반 증강 기법이다. 본 연구에서는 위조 음성 탐지 문제에 있어서 사용될 수 있는 데이터 증강기법에 대해 비교 연구해보고자 한다. Fake audio를 탐지하기 위해 개최된 ASVspoof2017과 ASVspoof2019 데이터를 사용하여 음성을 2D 스펙트로그램으로 변경시켜 occlusion 기반 데이터 증강 방식인 Cutout, Cutmix, SpecAugment를 적용한 데이터셋을 훈련 데이터로 하여 CNN 모형을 경량화시킨 LCNN 모형을 훈련시켰다. Cutout, Cutmix, SpecAugment 세 증강 기법 모두 대체적으로 모형의 성능을 향상시켰으나 방법에 따라 오히려 성능을 저하시키거나 성능에 변화가 없을 수도 있었다. ASVspoof2017 에서는 Cutmix, ASVspoof2019 LA 에서는 Mixup, ASVspoof2019 PA 에서는 SpecAugment 가 가장 좋은 성능을 보였다. 또, SpecAugment는 mask의 개수를 늘리는 것이 성능 향상에 도움이 된다. 결론적으로, 상황과 데이터에 따라 적합한 augmentation 기법이 다른 것으로 파악된다.

3차원 모델을 이용한 입모양 인식 알고리즘에 관한 연구 (A study on the lip shape recognition algorithm using 3-D Model)

  • 배철수
    • 한국정보통신학회논문지
    • /
    • 제3권1호
    • /
    • pp.59-68
    • /
    • 1999
  • 최근 통신 시스템의 연구와 발전 방향은 목소리의 음성 정보와 말하는 얼굴 영상의 화상 정보를 함께 적용하므로서 음성 정보만을 제공하는 경우보다 높은 인식율을 제공한다. 따라서 본 연구는 청각장애자들의 언어 대체수단 중 하나인 구화(speechreading)에서 가장 시각적 변별력이 높은 입모양 인식을 일반 퍼스널 컴퓨터상에서 구현하고자 한다. 본 논문은 기존의 방법과 달리 말하는 영상 시퀀스에서 입모양 인식을 행하기 위해 3차원 모델을 사용하여 입의 벌어진 정도, 턱의 움직임, 입술의 돌출과 같은 3차원 특징 정보를 제공하였다. 이와 같은 특징 정보를 얻기 위해 3차원 형상 모델을 입력 동영상에 정합시키고 정합된 3차원 형상 모델에서 각 특징점의 변화량을 인식파라미터로 사용하였다. 그리고, 인식단위로 동영상을 분리하는 방법은 3차원 특징점 변화량에서 얻어지는 강도의 기울기에 의하여 이루어지고, 인식은 각각의 3차원 특징벡터를 이산 HMM 인식기의 인식 파라메타로 사용하였다. 본 논문에서는 한국어 10개 모음에 대하여 인식실험하여 비교적 높은 인식율을 얻을 수 있는 것으로 보아 본 연구에서 사용한 특징 벡터를 시간적 변별 요소로서 사용할 수 있음을 제시하였다.

  • PDF