• 제목/요약/키워드: encoder-decoder

검색결과 453건 처리시간 0.024초

JPEG 압축 영역에서의 리버서블 워터마킹 (Reversible Watermarking in JPEG Compression Domain)

  • 최학남;최종욱;김학일;김종원
    • 정보보호학회논문지
    • /
    • 제17권6호
    • /
    • pp.121-130
    • /
    • 2007
  • 본 논문에서는 JPEG 압축 영역에서의 리버서블 워터마킹 기법을 제안한다. 리버서블 워터마킹은 원본을 손상시키는 기존의 워터마킹과 달리 원본을 보존하는 방법이기 때문에 인증용으로 효율적이다. 인터넷상의 대부분 영상들은 저장 공간을 줄이고 통신효율을 높이기 위해서 JPEG과 같은 압축영상을 많이 사용하므로 JPEG 영상에 리버서블 워터마킹을 연구할 필요성이 있다. 본 논문에서는 무손실 압축을 이용하여 워터마크를 삽입하고 워터마크를 추출할 때 원 영상을 복원한다. $256{\times}256$ 표준영상들에 대해 실험한 결과 QF(Quality Factor)가 75일 매 JPEG 영상과 워터마크가 삽입된 JPEG 영상의 PSNR(peak signal to noise rate)은 $38{\sim}42dB$이였고 워터마크 삽입 량은 $2500{\sim}3400bit$이였으며, Lena 영상에서 QF를 $10{\sim}99$까지 조절하여 실험을 진행한 결과 PSNR은 QF에 정비례함을 알 수 있었고, 워터마크 삽입량은 $1600{\sim}2800bit$였다.

제한된 학습 데이터를 사용하는 End-to-End 음성 인식 모델 (End-to-end speech recognition models using limited training data)

  • 김준우;정호영
    • 말소리와 음성과학
    • /
    • 제12권4호
    • /
    • pp.63-71
    • /
    • 2020
  • 음성 인식은 딥러닝 및 머신러닝 분야에서 활발히 상용화 되고 있는 분야 중 하나이다. 그러나, 현재 개발되고 있는 음성 인식 시스템은 대부분 성인 남녀를 대상으로 인식이 잘 되는 실정이다. 이것은 음성 인식 모델이 대부분 성인 남녀 음성 데이터베이스를 학습하여 구축된 모델이기 때문이다. 따라서, 노인, 어린이 및 사투리를 갖는 화자의 음성을 인식하는데 문제를 일으키는 경향이 있다. 노인과 어린이의 음성을 잘 인식하기 위해서는 빅데이터를 구축하는 방법과 성인 대상 음성 인식 엔진을 노인 및 어린이 데이터로 적응하는 방법 등이 있을 수 있지만, 본 논문에서는 음향적 데이터 증강에 기반한 재귀적 인코더와 언어적 예측이 가능한 transformer 디코더로 구성된 새로운 end-to-end 모델을 제안한다. 제한된 데이터셋으로 구성된 한국어 노인 및 어린이 음성 인식을 통해 제안된 방법의 성능을 평가한다.

하드 파라미터 쉐어링 기반의 보행자 및 운송 수단 거리 추정 (Pedestrian and Vehicle Distance Estimation Based on Hard Parameter Sharing)

  • 서지원;차의영
    • 한국정보통신학회논문지
    • /
    • 제26권3호
    • /
    • pp.389-395
    • /
    • 2022
  • 심층 학습 기술의 발전으로 인해 분류, 객체 검출, 분할과 같은 시각 정보를 이용한 심층 학습이 다양한 분야에서 활용되고 있다. 그 중 자율 주행은 시각 데이터를 잘 활용하는 대표적인 분야 중 하나이다. 본 논문에서는 도로 위의 사람과 운송수단 객체에 대한 개별적인 깊이 값을 예측하는 망을 제안한다. 제안하는 모델은 YOLOv3와 Monodepth를 기반으로 하며, 하드 파라미터 쉐어링을 이용한 인코더와 디코더를 통해 객체 검출과 깊이 추정을 동시에 수행한다. 또한 주의 집중 기법을 사용하여 객체 검출 및 깊이 추정의 정확도를 높이고자 하였다. 깊이 추정은 단안 이미지를 통해 이루어지며, 자가 학습 방법을 통해 학습을 수행하였다.

빅데이터 분석을 위한 어텐션 기반의 단어 연관관계 분석 시스템 (Attention-based word correlation analysis system for big data analysis)

  • 황치곤;윤창표;이수욱
    • 한국정보통신학회논문지
    • /
    • 제27권1호
    • /
    • pp.41-46
    • /
    • 2023
  • 최근, 빅데이터 분석은 기계학습의 발전에 따른 다양한 기법들을 이용할 수 있다. 현실에서 수집된 빅데이터는 단어 간의 관계성에 대한 의미적 분석을 바탕으로 같거나 유사한 용어에 대한 자동화된 정제기법이 부족하다. 빅데이터는 일반적인 문장으로 기술되어 있다. 이러한 문제를 해결하기 위해 문장의 형태소 분석과 의미를 이해해야 할 필요가 있다. 이에 자연어를 분석하기 위한 기법인 NLP는 단어의 관계성과 문장을 이해할 수 있다. 본 논문에서는 빅데이터에서 추출된 문장에서 단어를 추출하여 단어 간의 연관 관계를 생성하는 방법을 연구한다. 이에 트랜스포머 기술을 이용한다.

A novel framework for correcting satellite-based precipitation products in Mekong river basin with discontinuous observed data

  • Xuan-Hien Le;Giang V. Nguyen;Sungho Jung;Giha Lee
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.173-173
    • /
    • 2023
  • The Mekong River Basin (MRB) is a crucial watershed in Asia, impacting over 60 million people across six developing nations. Accurate satellite-based precipitation products (SPPs) are essential for effective hydrological and watershed management in this region. However, the performance of SPPs has been varied and limited. The APHRODITE product, a unique gauge-based dataset for MRB, is widely used but is only available until 2015. In this study, we present a novel framework for correcting SPPs in the MRB by employing a deep learning approach that combines convolutional neural networks and encoder-decoder architecture to address pixel-by-pixel bias and enhance accuracy. The DLF was applied to four widely used SPPs (TRMM, CMORPH, CHIRPS, and PERSIANN-CDR) in MRB. For the original SPPs, the TRMM product outperformed the other SPPs. Results revealed that the DLF effectively bridged the spatial-temporal gap between the SPPs and the gauge-based dataset (APHRODITE). Among the four corrected products, ADJ-TRMM demonstrated the best performance, followed by ADJ-CDR, ADJ-CHIRPS, and ADJ-CMORPH. The DLF offered a robust and adaptable solution for bias correction in the MRB and beyond, capable of detecting intricate patterns and learning from data to make appropriate adjustments. With the discontinuation of the APHRODITE product, DLF represents a promising solution for generating a more current and reliable dataset for MRB research. This research showcased the potential of deep learning-based methods for improving the accuracy of SPPs, particularly in regions like the MRB, where gauge-based datasets are limited or discontinued.

  • PDF

딥러닝을 이용한 부채널 데이터 압축 프레임 워크 (Side-Channel Archive Framework Using Deep Learning-Based Leakage Compression)

  • 정상윤;진성현;김희석
    • 정보보호학회논문지
    • /
    • 제34권3호
    • /
    • pp.379-392
    • /
    • 2024
  • 데이터의 급속한 증가와 함께 저장 공간 절약과 데이터 전송의 효율성이 중요한 문제로 대두되면서, 데이터 압축기술의 효율성 연구가 중요해졌다. 무손실 알고리즘은 원본 데이터를 정확히 복원할 수 있지만, 압축 비율이 제한적이며, 손실 알고리즘은 높은 압축률을 제공하지만 데이터의 일부 손실을 수반한다. 이에 딥러닝 기반 압축 알고리즘, 특히 오토인코더 모델이 데이터 압축 분야에서 활발한 연구가 진행됐다. 본 연구에서는 오토인코더를 활용한 새로운 부채널 분석 데이터 압축기를 제안한다. 제안하는 부채널 데이터 대상 압축기는 부채널데이터 특성을 잘 유지할 뿐만 아니라, 기존의 널리 사용되는 Delfate 압축방식 대비 높은 압축률을 보인다. 로컬 연결 레이어를 사용한 인코더는 부채널 데이터의 시점별 특성을 효과적으로 보존하고, 디코더는 멀티 레이어 퍼셉트론을 사용하여 빠른 압축해제 시간을 유지한다. 상관 전력 분석을 통해 제안된 압축기가 부채널 데이터의 특성을 손실 없이 데이터 압축이 가능을 증명하였다.

드론 방제의 최적화를 위한 딥러닝 기반의 밀도맵 추정 (Density map estimation based on deep-learning for pest control drone optimization)

  • 성백겸;한웅철;유승화;이춘구;강영호;우현호;이헌석;이대현
    • 드라이브 ㆍ 컨트롤
    • /
    • 제21권2호
    • /
    • pp.53-64
    • /
    • 2024
  • Global population growth has resulted in an increased demand for food production. Simultaneously, aging rural communities have led to a decrease in the workforce, thereby increasing the demand for automation in agriculture. Drones are particularly useful for unmanned pest control fields. However, the current method of uniform spraying leads to environmental damage due to overuse of pesticides and drift by wind. To address this issue, it is necessary to enhance spraying performance through precise performance evaluation. Therefore, as a foundational study aimed at optimizing drone-based pest control technologies, this research evaluated water-sensitive paper (WSP) via density map estimation using convolutional neural networks (CNN) with a encoder-decoder structure. To achieve more accurate estimation, this study implemented multi-task learning, incorporating an additional classifier for image segmentation alongside the density map estimation classifier. The proposed model in this study resulted in a R-squared (R2) of 0.976 for coverage area in the evaluation data set, demonstrating satisfactory performance in evaluating WSP at various density levels. Further research is needed to improve the accuracy of spray result estimations and develop a real-time assessment technology in the field.

Improved Deep Learning-based Approach for Spatial-Temporal Trajectory Planning via Predictive Modeling of Future Location

  • Zain Ul Abideen;Xiaodong Sun;Chao Sun;Hafiz Shafiq Ur Rehman Khalil
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권7호
    • /
    • pp.1726-1748
    • /
    • 2024
  • Trajectory planning is vital for autonomous systems like robotics and UAVs, as it determines optimal, safe paths considering physical limitations, environmental factors, and agent interactions. Recent advancements in trajectory planning and future location prediction stem from rapid progress in machine learning and optimization algorithms. In this paper, we proposed a novel framework for Spatial-temporal transformer-based feed-forward neural networks (STTFFNs). From the traffic flow local area point of view, skip-gram model is trained on trajectory data to generate embeddings that capture the high-level features of different trajectories. These embeddings can then be used as input to a transformer-based trajectory planning model, which can generate trajectories for new objects based on the embeddings of similar trajectories in the training data. In the next step, distant regions, we embedded feedforward network is responsible for generating the distant trajectories by taking as input a set of features that represent the object's current state and historical data. One advantage of using feedforward networks for distant trajectory planning is their ability to capture long-term dependencies in the data. In the final step of forecasting for future locations, the encoder and decoder are crucial parts of the proposed technique. Spatial destinations are encoded utilizing location-based social networks(LBSN) based on visiting semantic locations. The model has been specially trained to forecast future locations using precise longitude and latitude values. Following rigorous testing on two real-world datasets, Porto and Manhattan, it was discovered that the model outperformed a prediction accuracy of 8.7% previous state-of-the-art methods.

유역정보 기반 Transformer및 LSTM을 활용한 다목적댐 일 단위 유입량 예측 (Prediction of multipurpose dam inflow utilizing catchment attributes with LSTM and transformer models)

  • 김형주;송영훈;정은성
    • 한국수자원학회논문집
    • /
    • 제57권7호
    • /
    • pp.437-449
    • /
    • 2024
  • 딥러닝을 활용하여 유역 특성을 반영한 유량 예측 및 비교 연구가 주목받고 있다. 본 연구는 셀프 어텐션 메커니즘을 통해 대용량 데이터 훈련에 적합한 Transformer와 인코더-디코더(Encoder-Decoder) 구조를 가지는 LSTM-based multi-state-vector sequence-to-sequence (LSTM-MSV-S2S) 모형을 선정하여 유역정보(catchment attributes)를 고려할 수 있는 모형을 구축하였고 이를 토대로 국내 10개 다목적댐 유역의 유입량을 예측하였다. 본 연구에서 설계한 실험 구성은 단일유역-단일훈련(Single-basin Training, ST), 다수유역-단일훈련(Pretraining, PT), 사전학습-파인튜닝(Pretraining-Finetuning, PT-FT)의 세 가지 훈련 방법을 사용하였다. 모형의 입력 자료는 선정된 10가지 유역정보와 함께 기상 자료를 사용하였으며, 훈련 방법에 따른 유입량 예측 성능을 비교하였다. 그 결과, Transformer 모형은 PT와 PT-FT 방법에서 LSTM-MSV-S2S보다 우수한 성능을 보였으며, 특히 PT-FT 기법 적용 시 가장 높은 성능을 나타냈다. LSTM-MSV-S2S는 ST 방법에서는 Transformer보다 높은 성능을 보였으나, PT 및 PT-FT 방법에서는 낮은 성능을 보였다. 또한, 임베딩 레이어 활성화 값과 원본 유역정보를 군집화하여 모형의 유역 간 유사성 학습 여부를 분석하였다. Transformer는 활성화 벡터가 유사한 유역들에서 성능이 향상되었으며, 이는 사전에 학습된 다른 유역의 정보를 활용해 성능이 개선됨을 입증하였다. 본 연구는 다목적댐별 적합한 모형 및 훈련 방법을 비교하고, 국내 유역에 PT 및 PT-FT 방법을 적용한 딥러닝 모형 구축의 필요성을 제시하였다. 또한, PT 및 PT-FT 방법 적용 시 Transformer가 LSTM-MSV-S2S보다 성능이 더 우수하였다.

효율적인 참조 메모리 사용을 위한 블록기반 적응적 비트할당 알고리즘 (Block-based Adaptive Bit Allocation for Reference Memory Reduction)

  • 박시내;남정학;심동규;주영훈;김용석;김현문
    • 대한전자공학회논문지SP
    • /
    • 제46권3호
    • /
    • pp.68-74
    • /
    • 2009
  • 본 논문에서는 비디오 부호화기와 복호화기의 참조 영상 버퍼와 메모리 대역폭을 효과적으로 줄이는 방법을 제안한다. 일반적인 비디오 코덱에서 코딩의 효율을 높이기 위하여 이전 프레임들을 참조하는 방법을 많이 사용하는데, 최근에는 메모리 사용 및 메모리와 프로세서 간의 데이터 대역폭의 효율을 높이기 위하여 참조 프레임을 압축하여 저장하는 방법이 연구되고 있다. 이 방법은 이미 압축 및 복원 과정을 통해 열화가 생긴 참조 영상에 대하여 재 압축을 실행하고, 또 기존의 압축 코덱 내부에 부호화기와 복호화기가 추가되는 경우이기 때문에, 화질의 열화를 최소화하면서 복잡도가 낮은 코덱이 요구된다. 이에 관련된 대부분의 연구는 화질의 열화를 최소화하면서 효과적인 재압축을 할 수 있는 방향으로 진행되며 보통 양자화를 위해 고정길이 비트할당 방법을 사용한다. 본 논문에서는 영상의 특성을 고려한 적응적 블록단위 최대-최소 양자화를 통해 복잡도가 낮으면서 화질의 열화를 최소화 한 방법을 제안한다 제안한 방법에서는 $8{\times}8$ 크기의 블록을 기본 처리 단위로 하여 메모리 접근성을 용이하게 하면서, $8{\times}8$ 블록 내부의 $4{\times}4$ 블록 단위로 적응적인 양자화를 적용한다. 실험결과 기존의 고정길이 비트 할당을 통한 재 압축 방법에 대하여 BD-bitrate 관점에서 평균 1.7%, BD-PSNR 관점에서 평균0.03%의 성능향상을 얻을 수 있었다.