• 제목/요약/키워드: positional encoding

검색결과 16건 처리시간 0.023초

위치 정보 인코딩 기반 ISP 신경망 성능 개선 (Enhancing A Neural-Network-based ISP Model through Positional Encoding)

  • 김대연;김우혁;조성현
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제30권3호
    • /
    • pp.81-86
    • /
    • 2024
  • 영상 신호 프로세서(Image Signal Processor, ISP)는 카메라 센서로부터 획득된 RAW 영상을 사람의 눈에 보기 좋은 sRGB 영상으로 변환한다. RAW 영상은 sRGB 영상에 비해 영상 처리에 도움이 되는 정보를 가지고 있지만 상대적으로 큰 용량으로 인해 주로 sRGB 영상만 저장되고 사용된다. 또한, 실제 카메라의 ISP 과정이 공개되어 있지 않아 그 역과정을 모사하는 것은 매우 어렵다. 이에 sRGB와 RAW 영상의 상호 변환을 위한 카메라 ISP 모델링 연구가 활발히 진행되고 있으며, 최근 기존의 단순한 ISP 신경망 구조를 고도화하고 실제 카메라 ISP의 동작과 유사하게 카메라 파라미터(노출 시간, 감도, 조리개 크기, 초점 거리)를 직접 반영하는 ParamISP[1] 모델이 제안되었다. 하지만 ParamISP[1]를 포함한 기존의 연구는 카메라 ISP를 모델링함에 있어 렌즈로 인해 발생하는 렌즈 쉐이딩(Lens Shading), 광학 수차(Optical Aberration), 렌즈 왜곡(Lens Distortion) 등을 고려하지 않아 복원 성능에 한계가 있다. 본 연구는 ISP 신경망이 렌즈로 인해 발생하는 열화를 보다 잘 다룰 수 있도록 위치 정보 인코딩(Positional Encoding)을 도입한다. 제안하는 위치 정보 인코딩 기법은 영상을 분할하여 패치(Patch) 단위로 학습하는 카메라 ISP 신경망에 적합하며 기존 모델에 비해 영상의 공간적 맥락을 반영할 수 있어 더욱 정교한 영상 복원을 가능하게 한다.

CoNSIST : Consist of New methodologies on AASIST, leveraging Squeeze-and-Excitation, Positional Encoding, and Re-formulated HS-GAL

  • Jae-Hoon Ha;Joo-Won Mun;Sang-Yup Lee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.692-695
    • /
    • 2024
  • With the recent advancements in artificial intelligence (AI), the performance of deep learning-based audio deepfake technology has significantly improved. This technology has been exploited for criminal activities, leading to various cases of victimization. To prevent such illicit outcomes, this paper proposes a deep learning-based audio deepfake detection model. In this study, we propose CoNSIST, an improved audio deepfake detection model, which incorporates three additional components into the graph-based end-to-end model AASIST: (i) Squeeze and Excitation, (ii) Positional Encoding, and (iii) Reformulated HS-GAL, This incorporation is expected to enable more effective feature extraction, elimination of unnecessary operations, and consideration of more diverse information, thereby improving the performance of the original AASIST. The results of multiple experiments indicate that CoNSIST has enhanced the performance of audio deepfake detection compared to existing models.

선박자동식별시스템(AIS)과 XML을 이용한 선박위치정보 서비스 (Vessel Positional Information Service using AIS and XML)

  • 서민호;김건웅
    • 한국정보통신학회논문지
    • /
    • 제15권12호
    • /
    • pp.2590-2598
    • /
    • 2011
  • AIS(선박자동식별시스템)는 인접한 선박의 정보를 서로 통신하여 해양사고를 예방하거나 대응할 수 있게 해주고, 해상의 다양한 정보를 다른 정보와 융합하여 새로운 정보를 창출할 수 있는 해양 정보시스템의 핵심이라 할 수 있다. 이러한 AIS정보는 많은 잠재적 정보를 담고 있지만, 저장과 관리의 미흡으로 사용하기 쉽지 않고, 또한 정보를 얻기 위해 반드시 AIS 송수신기가 있어야 한다. 본 논문에서는 이러한 AIS와 XML을 이용한 선박위치정보 서비스를 제안한다. 이를 위해 NMEA-0183으로 인코딩된 AIS 정보를 디코딩하여 데이터베이스로 저장하고, 인터넷 상에서 XML을 이용하여 정보를 탐색하는 서비스를 구축하였다.

High-Speed Transformer for Panoptic Segmentation

  • Baek, Jong-Hyeon;Kim, Dae-Hyun;Lee, Hee-Kyung;Choo, Hyon-Gon;Koh, Yeong Jun
    • 방송공학회논문지
    • /
    • 제27권7호
    • /
    • pp.1011-1020
    • /
    • 2022
  • Recent high-performance panoptic segmentation models are based on transformer architectures. However, transformer-based panoptic segmentation methods are basically slower than convolution-based methods, since the attention mechanism in the transformer requires quadratic complexity w.r.t. image resolution. Also, sine and cosine computation for positional embedding in the transformer also yields a bottleneck for computation time. To address these problems, we adopt three modules to speed up the inference runtime of the transformer-based panoptic segmentation. First, we perform channel-level reduction using depth-wise separable convolution for inputs of the transformer decoder. Second, we replace sine and cosine-based positional encoding with convolution operations, called conv-embedding. We also apply a separable self-attention to the transformer encoder to lower quadratic complexity to linear one for numbers of image pixels. As result, the proposed model achieves 44% faster frame per second than baseline on ADE20K panoptic validation dataset, when we use all three modules.

Genome-wide association studies to identify quantitative trait loci and positional candidate genes affecting meat quality-related traits in pigs

  • Jae-Bong Lee;Ji-Hoon Lim;Hee-Bok Park
    • Journal of Animal Science and Technology
    • /
    • 제65권6호
    • /
    • pp.1194-1204
    • /
    • 2023
  • Meat quality comprises a set of key traits such as pH, meat color, water-holding capacity, tenderness and marbling. These traits are complex because they are affected by multiple genetic and environmental factors. The aim of this study was to investigate the molecular genetic basis underlying nine meat quality-related traits in a Yorkshire pig population using a genome-wide association study (GWAS) and subsequent biological pathway analysis. In total, 45,926 single nucleotide polymorphism (SNP) markers from 543 pigs were selected for the GWAS after quality control. Data were analyzed using a genome-wide efficient mixed model association (GEMMA) method. This linear mixed model-based approach identified two quantitative trait loci (QTLs) for meat color (b*) on chromosome 2 (SSC2) and one QTL for shear force on chromosome 8 (SSC8). These QTLs acted additively on the two phenotypes and explained 3.92%-4.57% of the phenotypic variance of the traits of interest. The genes encoding HAUS8 on SSC2 and an lncRNA on SSC8 were identified as positional candidate genes for these QTLs. The results of the biological pathway analysis revealed that positional candidate genes for meat color (b*) were enriched in pathways related to muscle development, muscle growth, intramuscular adipocyte differentiation, and lipid accumulation in muscle, whereas positional candidate genes for shear force were overrepresented in pathways related to cell growth, cell differentiation, and fatty acids synthesis. Further verification of these identified SNPs and genes in other independent populations could provide valuable information for understanding the variations in pork quality-related traits.

그래프 트랜스포머 기반 농가 사과 품질 이미지의 그래프 표현 학습 연구 (A Study about Learning Graph Representation on Farmhouse Apple Quality Images with Graph Transformer)

  • 배지훈;이주환;유광현;권경주;김진영
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.9-16
    • /
    • 2023
  • 최근 농가의 사과 품질 선별 작업에서 인적자원의 한계를 극복하기 위해 합성곱 신경망(CNN) 기반 시스템이 개발되고 있다. 그러나 합성곱 신경망은 동일한 크기의 이미지만을 입력받기 때문에 샘플링 등의 전처리 과정이 요구될 수 있으며, 과도 샘플링의 경우 화질 저하, 블러링 등 원본 이미지의 정보손실 문제가 발생한다. 본 논문에서는 위 문제를 최소화하기 위하여, 원본 이미지의 패치 기반 그래프를 생성하고 그래프 트랜스포머 모델의 랜덤워크 기반 위치 인코딩 방법을 제안한다. 위 방법은 랜덤워크 알고리즘 기반 위치정보가 없는 패치들의 위치 임베딩 정보를 지속적으로 학습하고, 기존 그래프 트랜스포머의 자가 주의집중 기법을 통해 유익한 노드정보들을 집계함으로써 최적의 그래프 구조를 찾는다. 따라서 무작위 노드 순서의 새로운 그래프 구조와 이미지의 객체 위치에 따른 임의의 그래프 구조에서도 강건한 성질을 가지며, 좋은 성능을 보여준다. 5가지 사과 품질 데이터셋으로 실험하였을 때, 다른 GNN 모델보다 최소 1.3%에서 최대 4.7%의 학습 정확도가 높았으며, ResNet18 모델의 23.52M보다 약 15% 적은 3.59M의 파라미터 수를 보유하여 연산량 절감에 따른 빠른 추론 속도를 보이며 그 효과를 증명한다.

유창성 실어증 환자의 구어와 문어 문장산출 능력 비교 (A Comparative Study of Spoken and Written Sentence Production in Adults with Fluent Aphasia)

  • 하지완;편성범;황유미;이호영;심현섭
    • 말소리와 음성과학
    • /
    • 제5권3호
    • /
    • pp.103-111
    • /
    • 2013
  • Traditionally it has been assumed that written abilities are completely dependent on phonology. Therefore spoken and written language skills in aphasic patients have been known to exhibit similar types of impairment. However, a number of latest studies have reported the findings that support the orthographic autonomy hypothesis. The purpose of this study was to examine whether fluent aphasic patients have discrepancy between speaking and writing skills, thereby identifying whether the two skills are realized through independent processes. To this end, this study compared the K-FAST speaking and writing tasks of 30 aphasia patients. In addition, 16 aphasia patients, who were capable of producing sentences not only in speaking but also in writing, were compared in their performances at each phase of the sentence production process. As a result, the subjects exhibited different performances between speaking and writing, along with statistically significant differences between the two language skills at positional and phonological encoding phases of the sentence production process. Therefore, the study's results suggest that written language is more likely to be produced via independent routes without the mediation of the process of spoken language production, beginning from a certain phase of the sentence production process.

A GIS Vector Data Compression Method Considering Dynamic Updates

  • Chun Woo-Je;Joo Yong-Jin;Moon Kyung-Ky;Lee Yong-Ik;Park Soo-Hong
    • Spatial Information Research
    • /
    • 제13권4호
    • /
    • pp.355-364
    • /
    • 2005
  • 모바일 기기의 제한적 환경에서 공간데이터의 활용을 극대화하기 위해 벡터데이터의 압축에 대한 연구가 최근 이뤄지고 있다. 이 중 군집화 방법을 이용한 벡터데이터 압축은 기존 압축방법과 다른 새로운 형태로 주목을 받고 있다. 그러나 현재까지 연구는 데이터의 동적인 갱신이 고려되지 않았다. 본 연구는 기존의 군집화 방법을 이용한 벡터데이터 압축방법의 문제점을 파악하고, 데이터의 동적인 갱신이 고려된 압축 방법을 제시하였다. 실험을 통한 결과는 갱신이 발생하였을 경우 제안된 방법이 더 좋은 결과를 나타냄을 확인할 수 있었다.

  • PDF

긴 문서를 위한 BERT 기반의 End-to-End 한국어 상호참조해결 (Korean End-to-End Coreference Resolution with BERT for Long Document)

  • 조경빈;정영준;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.259-263
    • /
    • 2021
  • 상호참조해결은 주어진 문서에서 상호참조해결 대상이 되는 멘션(mention)을 식별하고, 동일한 개체(entity)를 의미하는 멘션들을 찾아 그룹화하는 자연어처리 태스크이다. 최근 상호참조해결에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후, 멘션 탐지와 상호참조해결을 동시에 진행하는 end-to-end 모델이 주로 연구되었으나, 512 토큰 이상의 긴 문서를 처리하기 위해서는 512 토큰 이하로 문서를 분할하여 처리하기 때문에 길이가 긴 문서에 대해서는 상호참조해결 성능이 낮아지는 문제가 있다. 본 논문에서는 512 토큰 이상의 긴 문서를 위한 BERT 기반의 end-to-end 상호참조해결 모델을 제안한다. 본 모델은 긴 문서를 512 이하의 토큰으로 쪼개어 기존의 BERT에서 단어의 1차 문맥 표현을 얻은 후, 이들을 다시 연결하여 긴 문서의 Global Positional Encoding 또는 Embedding 값을 더한 후 Global BERT layer를 거쳐 단어의 최종 문맥 표현을 얻은 후, end-to-end 상호참조해결 모델을 적용한다. 실험 결과, 본 논문에서 제안한 모델이 기존 모델과 유사한 성능을 보이면서(테스트 셋에서 0.16% 성능 향상), GPU 메모리 사용량은 1.4배 감소하고 속도는 2.1배 향상되었다.

  • PDF

심층신경망으로 가는 통계 여행, 세 번째 여행: 언어모형과 트랜스포머 (A statistical journey to DNN, the third trip: Language model and transformer)

  • 김유진;황인준;장기석;이윤동
    • 응용통계연구
    • /
    • 제37권5호
    • /
    • pp.567-582
    • /
    • 2024
  • 지난 10년의 기간 심층신경망의 비약적 발전은 언어모형의 개발과 그 발전을 함께 해 왔다. 언어모형은 초기 RNN을 이용한 encoder-decoder 모형의 형태로 개발되었으나, 2015년 attention이 등장하고, 2017년 transformer가 등장하여 혁명적 기술로 성장하였다. 본 연구에서는 언어모형의 발전과정을 간략하게 살펴보고, 트랜스포머의 작동원리와 기술적 요소에 대하여 구체적으로 살펴본다. 동시에 언어모형, 트랜스포머와 관련되는 통계모형과, 방법론에 대하여 함께 검토한다.