• 제목/요약/키워드: encoder-decoder

검색결과 452건 처리시간 0.02초

라벨이 없는 데이터를 사용한 종단간 음성인식기의 준교사 방식 도메인 적응 (Semi-supervised domain adaptation using unlabeled data for end-to-end speech recognition)

  • 정현재;구자현;김회린
    • 말소리와 음성과학
    • /
    • 제12권2호
    • /
    • pp.29-37
    • /
    • 2020
  • 최근 신경망 기반 심층학습 알고리즘의 적용으로 고전적인 Gaussian mixture model based hidden Markov model (GMM-HMM) 음성인식기에 비해 성능이 비약적으로 향상되었다. 또한 심층학습 기법의 장점을 더욱 잘 활용하는 방법으로 언어모델링 및 디코딩 과정을 통합처리 하는 종단간 음성인식 시스템에 대한 연구가 매우 활발히 진행되고 있다. 일반적으로 종단간 음성인식 시스템은 어텐션을 사용한 여러 층의 인코더-디코더 구조로 이루어져 있다. 때문에 종단간 음성인식 시스템이 충분히 좋은 성능을 내기 위해서는 많은 양의 음성과 문자열이 함께 있는 데이터가 필요하다. 음성-문자열 짝 데이터를 구하기 위해서는 사람의 노동력과 시간이 많이 필요하여 종단간 음성인식기를 구축하는 데 있어서 높은 장벽이 되고 있다. 그렇기에 비교적 적은 양의 음성-문자열 짝 데이터를 이용하여 종단간 음성인식기의 성능을 향상하는 선행연구들이 있으나, 음성 단일 데이터나 문자열 단일 데이터 한쪽만을 활용하여 진행된 연구가 대부분이다. 본 연구에서는 음성 또는 문자열 단일 데이터를 함께 이용하여 종단간 음성인식기가 다른 도메인의 말뭉치에서도 좋은 성능을 낼 수 있도록 하는 준교사 학습 방식을 제안했으며, 성격이 다른 도메인에 적응하여 제안된 방식이 효과적으로 동작하는지 확인하였다. 그 결과로 제안된 방식이 타깃 도메인에서 좋은 성능을 보임과 동시에 소스 도메인에서도 크게 열화되지 않는 성능을 보임을 알 수 있었다.

모순 검증을 통한 다중 움직임 벡터 해상도 시그널링 방법 (Signaling Method of Multiple Motion Vector Resolutions Using Contradiction Testing)

  • 원광현;박영현;전병우
    • 전자공학회논문지
    • /
    • 제52권7호
    • /
    • pp.107-118
    • /
    • 2015
  • 대부분의 비디오 압축 표준들이 1/4 부화소 정밀도와 같은 고정 움직임 벡터 해상도를 사용하고 있는 데 반해, 다중 움직임 벡터 해상도를 지원하는 형태의 구조는 비디오 콘텐츠의 성질에 따라 필요로 하는 만큼의 움직임 벡터 정밀도를 효율적으로 사용할 수 있고, 더 정확한 움직임 예측자 생성이 가능해지므로, 부호화 효율을 향상할 수 있다는 장점이 있다. 그러나 다중 움직임 벡터 해상도 구조는 각각 움직임 벡터에 대해 선택된 움직임 벡터 해상도를 추가로 시그널링 해야 한다는 문제점이 있다. 본 논문에서는 움직임 벡터 해상도의 모순 검증 기반 시그널링 구조를 제안한다. 제안 방법은 여러 개의 후보 중, 각 움직임 벡터에 대해 최소크기의 부호화율을 갖는 움직임 벡터 해상도를 선택한다. 또한, 움직임 벡터 해상도의 시그널링에 따른 오버헤드를 줄이기 위해, 부호화기 및 복호화기 양쪽에서 미리 정의된 기준을 통한 모순 검증 과정을 수행하여 시그널링 할 필요가 없는 후보 움직임 벡터 해상도를 판별하는 과정을 수행한다. 실험 결과, 제안 구조가 고정 움직임 벡터 해상도 기반의 구조와 비교하여 $Bj{\o}ntegaard$ delta bit rate (BDBR)에서 평균 약 4.01%의 이득(최대 15.17%)을 달성함으로써 부호화되는 움직임 정보의 양을 줄이는 데 효과적이라는 것을 검증하였다.

미등록 어휘에 대한 선택적 복사를 적용한 문서 자동요약 (Automatic Text Summarization based on Selective Copy mechanism against for Addressing OOV)

  • 이태석;선충녕;정영임;강승식
    • 스마트미디어저널
    • /
    • 제8권2호
    • /
    • pp.58-65
    • /
    • 2019
  • 문서 자동 요약은 주어진 문서로부터 주요 내용을 추출하거나 생성하는 방식으로 축약하는 작업을 말한다. 최근 연구에서는 대량의 문서를 딥러닝 기법을 적용하여 요약문 자체를 생성하는 방식으로 발전하고 있다. 생성 요약은 미리 생성된 위드 임베딩 정보를 사용하는데, 전문 용어와 같이 저빈도 핵심 어휘는 입베딩 된 사전에 없는 문제가 발생한다. 인코딩-디코딩 신경망 모델의 문서 자동 요약에서 미등록 어휘의 출현은 요약 성능 저하의 요인이다. 이를 해결하기 위해 본 논문에서는 요약 대상 문서에서 새로 출현한 단어를 복사하여 요약문을 생성하는 방법을 사용한다. 기존의 연구와는 달리 정확한 포인팅 정보와 선택적 복사 지시 정보를 명시적으로 제공하는 방법으로 제안하였다. 학습 데이터는 논문의 초록과 제목을 대상 문서와 정답 요약으로 사용하였다. 제안한 인코딩-디코딩 기반 모델을 통해서 자동 생성 요약을 수행한 결과 단어 제현 기반의 ROUGE-1이 47.01로 나타났으며, 또한 어순 기반의 ROUGE-L이 29.55로 향상되었다.

비전센서 및 딥러닝을 이용한 항만구조물 방충설비 세분화 시스템 개발 (Development of Fender Segmentation System for Port Structures using Vision Sensor and Deep Learning)

  • 민지영;유병준;김종혁;전해민
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제26권2호
    • /
    • pp.28-36
    • /
    • 2022
  • 매립지 위에 건설되는 항만시설물은 바람(태풍), 파랑, 선박과의 충돌 등 극한 외부 하중에 노출되기 때문에 구조물의 안전성 및 사용성을 주기적으로 평가하는 것이 중요하다. 본 논문에서는 항만 계류시설에 설치된 방충설비의 유지관리를 위하여 비전 및 딥러닝 기반의 방충설비 세분화(segmentation) 시스템을 개발하였다. 방충설비 세분화를 위하여 인코더-디코더 형식과 인간 시각체계의 편심 기능에서 영감을 얻은 수용 영역 블록(Receptive field block) 기반의 합성곱 모듈을 DenseNet 형식으로 개선하는 딥러닝 네트워크를 제안하였다. 네트워크 훈련을 위해 BP형, V형, 원통형, 타이어형 등 다양한 형태의 방충설비 영상을 수집하였으며, 탄성 변형, 좌우 반전, 색상 변환 및 기하학적 변환을 통해 영상을 증강시킨 다음 제안한 딥러닝 네트워크를 학습하였다. 기존의 세분화 모델인 VGG16-Unet과 비교하여 제안한 모델의 세분화 성능을 검증하였으며, 그 결과 본 시스템이 IoU 84%, 조화평균 90% 이상으로 정밀하게 실시간으로 세분화할 수 있음을 확인하였다. 제안한 방충설비 세분화 시스템의 현장적용 가능성을 검증하기 위하여 국내 항만 시설물에서 촬영된 영상을 기반으로 학습을 수행하였으며, 그 결과 기존 세분화 모델과 비교하였을 때 우수한 성능을 보이며 정밀하게 방충설비를 감지하는 것을 확인하였다.

Bi-LSTM 모델을 이용한 음악 생성 시계열 예측 (Prediction of Music Generation on Time Series Using Bi-LSTM Model)

  • 김광진;이칠우
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.65-75
    • /
    • 2022
  • 딥러닝은 기존의 분석 모델이 갖는 한계를 극복하고 텍스트, 이미지, 음악 등 다양한 형태의 결과물을 생성할 수 있는 창의적인 도구로 활용되고 있다. 본 고에서는 Niko's MIDI Pack 음원 파일 1,609개를 데이터 셋으로 삼아 전처리 과정을 수행하고, 양방향 장단기 기억 순환 신경망(Bi-LSTM) 모델을 이용하여, 효율적으로 음악을 생성할 수 있는 전처리 방법과 예측 모델을 제시한다. 생성되는 으뜸음을 바탕으로 음악적 조성(調聲)에 적합한 새로운 시계열 데이터를 생성할 수 있도록 은닉층을 다층화하고, 디코더의 출력 게이트에서 인코더의 입력 데이터 중 영향을 주는 요소의 가중치를 적용하는 어텐션(Attention) 메커니즘을 적용한다. LSTM 모델의 인식률 향상을 위한 파라미터로서 손실함수, 최적화 방법 등 설정 변수들을 적용한다. 제안 모델은 MIDI 학습의 효율성 제고 및 예측 향상을 위해 높은음자리표(treble clef)와 낮은음자리표(bass clef)를 구분하여 추출된 음표, 음표의 길이, 쉼표, 쉼표의 길이와 코드(chord) 등을 적용한 다채널 어텐션 적용 양방향 기억 모델(Bi-LSTM with attention)이다. 학습의 결과는 노이즈와 구별되는 음악의 전개에 어울리는 음표와 코드를 생성하며, 화성학적으로 안정된 음악을 생성하는 모델을 지향한다.

다중 어댑터를 이용한 교차 언어 및 스타일 기반의 제목 생성 (Cross-Lingual Style-Based Title Generation Using Multiple Adapters)

  • 박요한;최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.341-354
    • /
    • 2023
  • 문서의 제목은 문서의 내용을 가장 효율적으로 요약하여 제공해 준다. 이때 독자들이 선호하는 스타일과 언어에 따라 문서의 제목을 다르게 제공해 준다면, 독자들은 문서의 내용을 좀 더 쉽게 예측할 수 있다. 본 연구에서는 문서가 주어졌을 때 언어와 스타일에 따라 제목을 자동 생성하는'교차 언어 및 스타일 기반의 제목 생성 모델을 제안한다. 모델을 학습하기 위해서는 같은 내용을 다른 언어와 다른 스타일로 작성한 병렬데이터가 필요하다. 그러나 이러한 종류의 병렬데이터는 구축하기 매우 어렵다. 반면, 단일 언어와 단일 스타일로 구축된 제목 생성 데이터는 많으므로 본 연구에서는 제로샷(zero-shot) 학습으로 제목 생성을 수행하고자 한다. 교차 언어 및 스타일 기반의 제목 생성을 학습하기 위해 다중 언어로 사전 학습된 트랜스포머 모델에 각 언어, 스타일, 기계번역을 위한 어댑터를 추가하였다. 기계 번역용 병렬데이터를 이용하여 기계번역을 먼저 학습한 후, 동일 스타일의 제목 생성을 학습하였다. 이때, 필요한 어댑터만을 학습하고 다른 부분의 파라미터는 모두 고정시킨다. 교차 언어 및 스타일 기반의 제목을 생성할 때에는 목적 언어와 목적 스타일에 해당하는 어댑터만을 활성화시킨다. 실험 결과로는 각 모델을 따로 학습시켜 파이프라인으로 연결시킨 베이스라인에 비해 본 연구에서 제안한 제로샷 제목 생성의 성능이 크게 떨어지지 않았다. 최근 대규모 언어 모델의 등장으로 인한 자연어 생성에서의 많은 변화가 있다. 그러나 제한된 자원과 제한된 데이터만을 이용하여 자연어 생성의 성능을 개선하는 연구는 계속되어야 하며, 그런 점에서 본 연구의 의의를 모색한다.

딥러닝 기반 탄성파 전파형 역산 연구 개관 (A Review of Seismic Full Waveform Inversion Based on Deep Learning)

  • 편석준;박윤희
    • 지구물리와물리탐사
    • /
    • 제25권4호
    • /
    • pp.227-241
    • /
    • 2022
  • 전파형 역산은 석유가스 탐사를 위한 탄성파 자료처리 분야에서 지층의 속도 모델을 추정하는데 사용되는 역산 기법이다. 최근 탄성파 자료처리에 딥러닝 기술의 활용이 급격하게 증가하고 있는데, 전파형 역산 기술도 마찬가지로 다양한 연구가 이루어지고 있다. 초기에는 머신러닝 기술을 활용한 자료처리 기법이 전파형 역산을 위한 입력자료의 전처리 목적으로 활용되는 수준이었으나, 딥러닝 기술을 통해 전파형 역산을 직접적으로 구현하는 연구가 등장하기 시작하였다. 딥러닝 기술을 활용한 전파형 역산은 순수 데이터 기반 접근법, 물리 기반 신경망 활용법, 인코더-디코더 구조 활용법, 신경망 재매개변수화를 이용한 구현법, 물리정보 기반 신경망 기법 등으로 구분할 수 있다. 이 논문에서는 딥러닝 기반 전파형 역산 기법을 발전 과정 순서로 체계화하여 각각의 접근법에 대한 이론과 특징을 설명하였다. 전파형 역산 기술에 딥러닝 기법을 도입한 초기에는 데이터 과학의 기본 원리에 충실하게 대량의 학습자료를 준비하고 순수 데이터 기반 예측 모델을 적용하여 속도 모델을 역산하는 연구로 시작하였다. 최근 연구 동향은 탄성파 자료의 잔차나 파동방정식 자체의 물리정보를 심층 신경망에 활용하여 순수 데이터 기반 접근법의 단점을 보완해 나가는 방향으로 진행되고 있다. 이러한 발전으로 대량의 학습자료가 필요하지 않고, 전파형 역산의 태생적 한계점인 주기 놓침 현상을 완화하며 계산 시간을 획기적으로 줄일 수 있는 딥러닝 기반 전파형 역산 기술이 등장하고 있다. 딥러닝 기술의 도입으로 전파형 역산 기술은 탄성파 자료처리 분야에서 가치가 더 높아질 것으로 생각된다.

근단 배경 잡음 환경에서 G.729A 음성부호화기 파라미터에 기반한 새로운 음성 강화 기법 (Speech Reinforcement Based on G.729A Speech Codec Parameter Under Near-End Background Noise Environments)

  • 최재훈;장준혁
    • 한국음향학회지
    • /
    • 제28권4호
    • /
    • pp.392-400
    • /
    • 2009
  • 본 논문에서는 근단 (Near-End) 잡음 환경에서 ITU-T의 표준 음성부호화기인 G.729A CS-ACELP 기반의 효과적인 음성강화 기법을 제시한다. 일반적으로 다양한 배경 잡음이 존재하는 근단 환경에서 수신하는 원단 화자 음성의 명료도가 매우 감소하므로, 이를 극복하기 위한 원단 화자 음성 강화 기법이 필요하다. 기존의 음성강화 시스템과는 대조적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 음성부호화기에 기반하여, 원단으로부터 수신된 비트스트림 파라미터 중 여기신호(excitation signal)를 강화하는 알고리즘을 제시한다. 구체적으로, 다양한 배경 잡음이 존재하는 근단 환경에서 G.729A CS-ACELP의 부호화기를 통해 배경 잡음의 여기신호를 추정하고, 추정된 배경 잡음의 여기신호를 기반으로 원단 화자로부터 전송된 음성 신호의 여기신호를 강화시키는데, 특별히 G.729A 복호화기내에서 원단의 음성 신호를 직접 강화하는 알고리즘을 제안한다. 제안된 음성 강화 기법의 성능은 다양한 잡음 환경 하에서 ITU-T P.800의 주관적 음질 측정 방법인 CCR (Comparison Category Rating) 테스트에 의해 평가되었으며, 기존의 SNR 복구 기법과 비교해서 우수한 성능을 보여주었다.

방사성폐기물 핵종분석 검증용 이상 탐지를 위한 인공지능 기반 알고리즘 개발 (Development of an Anomaly Detection Algorithm for Verification of Radionuclide Analysis Based on Artificial Intelligence in Radioactive Wastes)

  • 장승수;이장희;김영수;김지석;권진형;김송현
    • 방사선산업학회지
    • /
    • 제17권1호
    • /
    • pp.19-32
    • /
    • 2023
  • The amount of radioactive waste is expected to dramatically increase with decommissioning of nuclear power plants such as Kori-1, the first nuclear power plant in South Korea. Accurate nuclide analysis is necessary to manage the radioactive wastes safely, but research on verification of radionuclide analysis has yet to be well established. This study aimed to develop the technology that can verify the results of radionuclide analysis based on artificial intelligence. In this study, we propose an anomaly detection algorithm for inspecting the analysis error of radionuclide. We used the data from 'Updated Scaling Factors in Low-Level Radwaste' (NP-5077) published by EPRI (Electric Power Research Institute), and resampling was performed using SMOTE (Synthetic Minority Oversampling Technique) algorithm to augment data. 149,676 augmented data with SMOTE algorithm was used to train the artificial neural networks (classification and anomaly detection networks). 324 NP-5077 report data verified the performance of networks. The anomaly detection algorithm of radionuclide analysis was divided into two modules that detect a case where radioactive waste was incorrectly classified or discriminate an abnormal data such as loss of data or incorrectly written data. The classification network was constructed using the fully connected layer, and the anomaly detection network was composed of the encoder and decoder. The latter was operated by loading the latent vector from the end layer of the classification network. This study conducted exploratory data analysis (i.e., statistics, histogram, correlation, covariance, PCA, k-mean clustering, DBSCAN). As a result of analyzing the data, it is complicated to distinguish the type of radioactive waste because data distribution overlapped each other. In spite of these complexities, our algorithm based on deep learning can distinguish abnormal data from normal data. Radionuclide analysis was verified using our anomaly detection algorithm, and meaningful results were obtained.

확장형 비디오 부호화(SVC)의 AR-FGS 기법에 대한 부호화 성능 개선 기법 (Improved AR-FGS Coding Scheme for Scalable Video Coding)

  • 서광덕;정순흥;김진수;김재곤
    • 한국통신학회논문지
    • /
    • 제31권12C호
    • /
    • pp.1173-1183
    • /
    • 2006
  • 본 논문에서는 H.264의 확장형(scalable extension) 부호화 기법인 SVC(Scalable Video Coding)에서 채택하고 있는 AR-FGS(Adaptive Reference FGS) 기법의 재생화면 화질 향상을 위한 효과적인 방법을 제안한다. 표준 FGS(Fine Granularity Scalability) 기법에서는 FGS 계층의 부호화 성능 향상을 위하여 기본계층(base layer) 재생화면과 향상계층(enhancement layer) 참조화면에 대해 가중평균(weighted average)을 적용하여 FGS 부호화를 수행하는 AR-FGS 기법을 채택하고 있다. 그러나, 향상계층 부호화 정보가 비트스트림 절삭(bitstream truncation)에 의하여 FGS 복호기에 전달이 되지 못 할 경우 FGS 부호기와 복호기에 이용이 되는 참조화면의 차이로 인하여 움직임 보상 과정에서 오류의 전파(error drift)가 발생하여 FGS 계층에서 화질 저하를 초래하게 된다. 이를 해결하기 위하여 본 논문에서는 FGS 계층에서 움직임 보상에 이용될 예측신호를 구하기 위해 활용이 되는 향상계층 참조화면을 효과적으로 생성하기 위하여 사이클 블록 부호화(cyclical block coding)의 원리를 이용한다. 사이클 블록 부호화에서는 FGS 계층의 복호화 화질에 큰 영향을 미치는 중요 양자화 변환계수(quantized transform coefficient)를 초기 부호화 사이클에 포함시킴으로써 우선적으로 부호화 및 전송이 되게 하는 부호화 기술이다. 양자화 변환계수가 사이클 블록 부호화에 포함되는 순서가 앞설 경우 대역폭 감소로 인한 비트스트림 절삭이 적용될 때에도 복호기에 우선적으로 전달될 확률이 상대적으로 높다. 이러한 원리를 바탕으로 사이클 블록 부호화에 서 각 사이클 별로 생성되는 비트스트림이 향상계층 참조화면의 생성에 기여하는 중요도에 따라 그 가중치를 다르게 조절함으로써 특정 부호화 사이클에서 생성된 비트스트림 정보가 절삭에 의해 FGS 복호기에 전달되지 못하더라도 복호화 시 그 영향을 최소화하여 화질 저하를 줄이는 방법을 제안한다. 제안된 방법을 이용하여 개선된 AR-FGS 기법을 구현할 경우 기존의 표준 방법에 비하여 재생화면의 화질이 최대 1dB 안팎으로 개선이 됨을 실험을 통해 확인하였다.