• 제목/요약/키워드: image encoding

검색결과 427건 처리시간 0.029초

고성능 HEVC 화면내 예측을 위한 Angular 모드 선택 알고리즘 (The Algorithm of Angular Mode Selection for High Performance HEVC Intra Prediction)

  • 박승용;류광기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2016년도 추계학술대회
    • /
    • pp.969-972
    • /
    • 2016
  • 본 논문에서는 고성능 HEVC intra prediction을 위한 Angular 모드 결정 알고리즘을 제안한다. HEVC의 intra prediction은 공간적 중복성을 제거하기 위해 사용된다. Intra prediction은 총 35개의 모드를 가지며, $64{\times}64$에서 $4{\times}4$ 블록 크기까지 35개의 모드를 수행 후 최적의 cost를 갖는 블록 크기 및 모드를 결정한다. Intra prediction은 각 블록 크기마다 35개의 모드를 수행하기 때문에 높은 연산량과 연산시간을 가지고 있다. 제안하는 Angular 모드 결정 알고리즘은 원본영상의 간단한 픽셀차이를 가지고 Angular 모드 1개를 선택한다. 선택된 Angular 모드와 Planar 모드, DC 모드로 intra prediction을 수행하여 최적의 cost를 갖는 모드를 결정한다. 성능 평가 지표는 BD-PSNR과 BD-Bitrate를 사용하였으며, 제안하는 알고리즘과 HM-16.9를 비교한 결과 BD-PSNR은 평균 0.035 증가하였고, BD-Bitrate는 평균 0.623 감소했다. 또한, 인코딩 타임은 약 6.905% 감소하였다.

  • PDF

Generating Radiology Reports via Multi-feature Optimization Transformer

  • Rui Wang;Rong Hua
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권10호
    • /
    • pp.2768-2787
    • /
    • 2023
  • As an important research direction of the application of computer science in the medical field, the automatic generation technology of radiology report has attracted wide attention in the academic community. Because the proportion of normal regions in radiology images is much larger than that of abnormal regions, words describing diseases are often masked by other words, resulting in significant feature loss during the calculation process, which affects the quality of generated reports. In addition, the huge difference between visual features and semantic features causes traditional multi-modal fusion method to fail to generate long narrative structures consisting of multiple sentences, which are required for medical reports. To address these challenges, we propose a multi-feature optimization Transformer (MFOT) for generating radiology reports. In detail, a multi-dimensional mapping attention (MDMA) module is designed to encode the visual grid features from different dimensions to reduce the loss of primary features in the encoding process; a feature pre-fusion (FP) module is constructed to enhance the interaction ability between multi-modal features, so as to generate a reasonably structured radiology report; a detail enhanced attention (DEA) module is proposed to enhance the extraction and utilization of key features and reduce the loss of key features. In conclusion, we evaluate the performance of our proposed model against prevailing mainstream models by utilizing widely-recognized radiology report datasets, namely IU X-Ray and MIMIC-CXR. The experimental outcomes demonstrate that our model achieves SOTA performance on both datasets, compared with the base model, the average improvement of six key indicators is 19.9% and 18.0% respectively. These findings substantiate the efficacy of our model in the domain of automated radiology report generation.

자율주행 차량 시뮬레이션에서의 강화학습을 위한 상태표현 성능 비교 (Comparing State Representation Techniques for Reinforcement Learning in Autonomous Driving)

  • 안지환;권태수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제30권3호
    • /
    • pp.109-123
    • /
    • 2024
  • 딥러닝과 강화학습을 활용한 비전 기반 엔드투엔드 자율주행 시스템 관련 연구가 지속적으로 증가하고 있다. 일반적으로 이러한 시스템은 위치, 속도, 방향, 센서 데이터 등 연속적이고 고차원적인 차량의 상태를 잠재 특징 벡터로 인코딩하고, 이를 차량의 주행 정책으로 디코딩하는 두 단계로 구성된다. 도심 주행과 같이 다양하고 복잡한 환경에서는 Variational Autoencoder(VAE)나 Convolutional Neural Network(CNN)과 같은 네트워크를 이용한 효율적인 상태 표현 방법의 필요성이 더욱 부각된다. 본 논문은 차량의 이미지 상태 표현이 강화학습 성능에 미치는 영향을 분석하였다. CARLA 시뮬레이터 환경에서 실험을 수행하였고, 차량의 전방 카메라 센서로부터 취득한 RGB 이미지 및 Semantic Segmented 이미지를 각각 VAE와 Vision Transformer(ViT) 네트워크로 특징 추출하여 상태 표현 학습에 활용하였다. 이러한 방법론이 강화학습에 미치는 영향을 실험하여, 데이터 유형과 상태 표현 기법이 자율주행의 학습 효율성과 결정 능력 향상에 어떤 역할을 하는지를 실험하였다.

고문헌의 디지털화 성과 연구 (A Study of Digitalization Performance of Sinological Resource in Korea)

  • 조형진
    • 한국문헌정보학회지
    • /
    • 제40권3호
    • /
    • pp.391-413
    • /
    • 2006
  • 한국의 주요 고문헌 기관과 이들 기관이 소장한 고문헌이 디지털화 된 진도와 그 내용을 분석하였다. 이 고문헌을 이용하기 위한 연합조직을 검토하였다. 국가의 고문헌 디지털화를 위한 정책과 향후계획을 파악하였다. 고문헌의 디지털화를 위한 절차와 필요조건을 제안하였다. (1) 1980년대에 추진하기 시작한 국가도서관 대학도서관 문도서관 등의 도서관 관리 검색 이용 시스템의 디지털화는 이미 상당한 수준에 도달하였다. 고문헌의 소장량은 상당히 많고 내용적 가치도 높다. 일부 디지털화 된 자료는 이미 Internet을 통하여 제공되고 있다. 그러나 전반적으로 고문헌의 디지털화 된 수준은 아직도 궤도에 오르지 못한 상태로 분발이 요구된다. (2) 이미 제공되고 있는 디지털 고문헌의 Data Base는 목록정보 DB 목차와 해제정보 DB 전문정보 DB로 구분할 수 있으며, 국내외 자료를 포함하고 있다. 그 수량은 본문의 서술과 같다. (3) 디지털 고문헌의 유형은 고서 고문서 Micro 책판 등을 포함하고 있다 (4) 디지털 고문헌 DB의 입력 방법은 Text Image PDF 형태 등이다. (5) 고문헌의 연합조직을 구축하여 중복 투자를 피하고 봉사 효율을 높이고 있다. 고문헌의 이상적인 디지털화를 위하여 갖추어야 할 점을 제안하면 다음과 같다. (1) 우선 고문헌 디지털화 업무의 통정기구를 조직하여, 일정한 수준의 권한을 부여하고 종합적 계획을 수립한 후 추진하여야 한다. (2) 장단기 계획을 세워서 여러 디지털화 업무의 성격을 분석하고, 점진적으로 추진하여야 한다 (3) 고문헌 자료의 전문가를 양성하여 DB를 구축하고 관리하여야 한다.

영상 압축센싱을 위한 블록기반 변환영역 측정 부호화 (Block-Based Transform-Domain Measurement Coding for Compressive Sensing of Images)

  • ;;;;박영현;전병우
    • 한국통신학회논문지
    • /
    • 제39A권12호
    • /
    • pp.746-755
    • /
    • 2014
  • 압축센싱은 신호의 성긴 (Sparse) 성질을 활용하여 Nyquist 표본화율 보다 낮은 측정 율만으로도 신호의 완벽 복원이 가능하다는 측면에서 새로운 샘플링 기술로 주목 받고 있다. 블록기반의 압축센싱 기술을 사용하여 영상을 샘플링 하는 경우, 측정신호 영역에서도 공간 영역의 유사도가 보존되므로, 본 논문에서는 블록기반 압축센싱 기술을 사용하여 획득한 자연영상의 측정 신호에 대한 새로운 부호화 기술을 제안한다. 측정신호 간 유사성을 제거하기 위해 이산 웨이블릿 변환(DWT)을 적용한 후, 각 DWT 계수에 적절한 양자화를 수행한다. 이를 통해, 측정 신호 내의 중복성을 제거하고, 측정 신호의 비트 율 또한 절약할 수 있었다. 실험 결과, 기존의 블록기반 평활 Projected Landweber 알고리즘에 스칼라 양자화를 적용한 방법, DPCM 방법을 적용한 방법, 그리고 Multihypothesis 기반 블록기반 평활알고리즘에 DPCM을 적용한 방법과 비교할 때, 제안방법의 PSNR이 각각 최대 4dB, 0.9dB, 그리고 2.5dB 더 높은 성능을 보이는 것을 확인 할 수 있었다.

주파수 적응 채널 잡음 모델링에 기반한 변환영역 Wyner-Ziv 부호화 방법 (Transform domain Wyner-Ziv Coding based on the frequency-adaptive channel noise modeling)

  • 김병희;고봉혁;전병우
    • 방송공학회논문지
    • /
    • 제14권2호
    • /
    • pp.144-153
    • /
    • 2009
  • 최근, 사용자 제작 콘텐츠(UCC: User Created Contents) 또는 다시점 비디오(Multiview Video) 등의 응용을 위한 경량화 부호화 기술의 필요성이 대두됨에 따라 비디오 부호화 복잡도의 대부분을 차지하는 움직임 예측/보상 과정을 부호화기가 아닌 복호화기 측에서 수행하는 분산 비디오 부호화 기술(Distributed Video Coding)에 대한 연구가 활발히 이루어지고 있다. Wyner-Ziv 부호화 기술은 채널 코딩을 이용하여 원본 영상에 대한 복호화기 측의 예측영상인 보조정보에 포함된 잡음을 제거함으로써 영상을 복원하는 구조를 가진다. 일반적인 Wyner-Ziv 부호화 기술은 키 프레임 간의 움직임 예측/보상 과정에 기반한 프레임 보간법을 통해 보조정보를 생성하며, Shannon limit에 근접한 성능을 보이는 Turbo 코드나 LDPC 코드를 통해 잡음을 제거한다. Wyner-Ziv 부호화 기술은 채널 코드의 복호화를 위해 보조정보에 포함된 잡음의 정도를 예측하는데, 이를 '가상 채널 잡음(Virtual Channel Noise)'이라 하며 일반적으로 Laplacian이나 Gaussian으로 모델화 한다. 본 논문은 변환영역에서의 주파수 단위에 적응적인 채널 잡음 모델링에 기반한 Wyner-Ziv 부호화 방법을 제안한다. 다양한 영상에 대한 제안 방법의 실험 결과는 기존 방법과 비교하여 최대 약 0.52dB에 해당하는 율-왜곡 성능의 향상을 보여준다.

심층신경망 기반 우주파편 영상 추적시스템 인식모델에 대한 연구 (A Study on the Deep Neural Network based Recognition Model for Space Debris Vision Tracking System)

  • 임성민;김진형;최원섭;김해동
    • 한국항공우주학회지
    • /
    • 제45권9호
    • /
    • pp.794-806
    • /
    • 2017
  • 지속적으로 우주파편이 증가하고 있는 상황에서 국가 우주자산을 안전하게 보호하고 우주개발국으로서 우주환경 보호에 관심을 가지는 것은 중요하다. 우주파편의 급격한 증가를 막기 위한 효과적인 방법 중 하나는 충돌위험이 큰 우주파편들, 그리고 임무가 종료된 폐기위성을 직접 제거해 나가는 것이다. 본 논문에서는 영상기반 우주파편 추적시스템의 안정적인 인식모델을 위해 인공신경망을 적용한 연구에 대해 다루었다. 한국항공우주연구원에서 개발한 지상기반 우주쓰레기 청소위성 테스트베드인 KARICAT을 활용하여 우주환경이 모사된 영상을 획득하였고, 깊이불연속성에 기인한 영상분할 후 각 객체에 대한 구조 및 색상 기반 특징을 부호화한 벡터를 추출하였다. 특징벡터는 3차원 표면적, 점군의 주성분 벡터, 2차원 형상정보, 색상기반 정보로 구성되어있으며, 이 범주를 기반으로 분리한 특징벡터를 입력으로 하는 인공신경망 모델을 설계하였다. 또한 인공신경망의 성능 향상을 위해 입력되는 특징벡터의 범주에 따라 모델을 분할하여 각 모델 별 학습 후 앙상블기법을 적용하였다. 적용 결과 앙상블 기법에 따른 인식 모델의 성능 향상을 확인하였다.

Wyner-Ziv 비디오 부호화를 위한 비트배정 (Bit Assignment for Wyner-Ziv Video Coding)

  • 박종빈;전병우
    • 대한전자공학회논문지SP
    • /
    • 제47권1호
    • /
    • pp.128-138
    • /
    • 2010
  • 본 논문에서는 Wyner-Ziv 비디오 부호화를 위한 비트배정 방법을 제안한다. 손실 압축을 하는 분산 비디오 부호화 기술인 Wyner-Ziv 비디오 부호화는 부호화기에서 예측 부호화를 수행하지 않는 구조로 인해 저 복잡도 비디오 부호화의 실현이 가능하여 이동단말, 원격영상압축전송, 초저전력 비디오 부호화 등의 응용에 기대되는 기술이다. 비트율-왜곡 측면에서의 부호화 성능은 이론적으로 기존의 방법과 동일할 수 있음이 증명되었지만 지금까지 연구결과들의 비트율-왜곡 성능은 아직 이론적인 목표치에 많이 미치지 못하고 있다. 또한 H.264/AVC와 같은 기존의 비디오 부호화는 블록별로 서로 다른 양자화 값으로 부호화 될 수 있는 구조이므로 다양한 비트배정 기술이 연구되었으나, Wyner-Ziv 비디오 부호화의 한 가지 방법인 변환 영역에서의 Wyner-Ziv 방법 (Transform Domain Wyner-Ziv; TDWZ)의 경우 영상 전체에 해당하는 정보를 하나의 메시지로 묶어서 부호화 및 복호화 하므로, 영역 별로 차등화 된 비트할당이 어려워 목표로 하는 비트율로 부호화 수행이 어려웠다. 본 논문에서는 이러한 문제를 해결하기 위해 부호화기에서 영역별 영상 특성을 예측하여 할당해야할 비트량을 자동으로 계산하며, 이렇게 계산한 할당 비트량은 양자화 행렬을 영역별로 적응적으로 선택하는데 사용하도록 하여 전체 영상의 부호화 성능을 향상 시킬 수 있게 한다.

고성능 HEVC 부호기를 위한 변환양자화기 하드웨어 설계 (The Design of Transform and Quantization Hardware for High-Performance HEVC Encoder)

  • 박승용;조흥선;류광기
    • 한국정보통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.327-334
    • /
    • 2016
  • 본 논문에서는 고성능 HEVC(High Efficiency Video Coding) 부호기를 위한 변환양자화기 하드웨어 구조를 제안한다. HEVC 변환기는 율-왜곡 비용을 비교하여 최적의 변환모드를 결정하지만 율-왜곡 비용은 변환과, 양자화, 역양자화 그리고 역변환을 통해 계산된 왜곡 값과 비트 량으로 결정된다. 따라서 상당히 많은 연산량과 소요시간이 필요하기 때문에 고해상도/고화질의 영상을 실시간으로 처리하는데 어려움이 따른다. 본 논문에서는 변환을 통한 계수의 합계를 비교하여 변환모드를 결정하는 방법을 제안한다. 성능 평가 지표는 BD-PSNR과 BD-Bitrate를 사용하였으며, 실험 결과를 토대로 영상의 화질에서 큰 변화 없이 신속하게 모드를 결정할 수 있음을 확인하였다. 제안하는 하드웨어 구조는 변환모드에 따라 다른 값을 동일한 출력에 할당하고 곱셈 계수가 최대한 중복되도록 구성하여 하드웨어 면적을 감소시키고 연속적인 파이프라인 동작으로 구현함으로써 성능을 높였으며, 기존의 제안된 논문에서 사용한 공정 대비 더 큰 공정을 사용한 것을 감안하여 면적은 1/2배 감소, 성능은 2.3배 증가하였다.

6DoF 몰입형 비디오 스트리밍을 위한 그룹 분할 기반 적응적 렌더링 기법 (Group-based Adaptive Rendering for 6DoF Immersive Video Streaming)

  • 이순빈;정종범;류은석
    • 방송공학회논문지
    • /
    • 제27권2호
    • /
    • pp.216-227
    • /
    • 2022
  • MPEG-I (Immersive) 그룹에서는 6자유도(DoF: degrees of freedom)를 제공하는 몰입형 비디오의 표준화 프로젝트를 진행 중에 있다. MPEG Immersive Video (MIV) 표준화 기술에서는 사용자에게 움직임 시차(parallax)를 제공하기 위해 취득한 다수의 영상을 깊이 맵 기반 이미지 렌더링(depth map-based image rendering, DIBR)을 바탕으로 임의의 사용자 시점의 뷰를 렌더링하게 된다. 현재 MIV에서는 효율적인 부호화를 위한 기술들이 많이 논의된 바 있지만, 전송 측면에 대해서는 여전히 논의가 필요하다. 본 논문은 사용자 시점에 적응적인 몰입형 비디오 스트리밍을 위한 품질 할당 기법을 제안한다. 현재 MIV에서 지원하고 있는 그룹 분할 기법을 통하여 독립적으로 전송, 복원이 가능한 시점 그룹 단위를 생성하여 이를 사용자 시점에 기반한 품질 할당 기법을 통해 효율적인 전송이 가능하도록 한다. 제안하는 적응적 전송 기법은 Test Model for Immersive Video (TMIV) 시험모델을 통해 구현되었으며, 주어진 합성 시점 위치에 따라 렌더링 과정에서의 기여도를 그룹별로 계산하고 우선 시점 그룹을 판단하여 고품질로 전송한다. 사용자 시점에 대한 렌더링 비교 결과를 통해 제안하는 기법이 기존 TMIV 대비 PSNR 지표에서 평균 17.0%, IV-PSNR 지표에서 14.6%의 BD-rate 감소율을 보여 효율적인 전송이 가능함을 보였다.