• 제목/요약/키워드: 메모리 효율

검색결과 1,782건 처리시간 0.036초

Efficient GPU Framework for Adaptive and Continuous Signed Distance Field Construction, and Its Applications

  • Kim, Jong-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권3호
    • /
    • pp.63-69
    • /
    • 2022
  • 본 논문에서는 적응형 및 연속적인 부호 거리장을 빠르게 계산하기 위한 새로운 GPU 기반 프레임워크를 제안하고, 이를 활용한 렌더링/충돌처리 관련 사례를 살펴본다. 삼각형 메쉬로부터 구성된 쿼드트리를 GPU 메모리로 전달하고, 이를 활용하여 삼각형에 대한 유클리디안 거리를 각 스레드 별로 병렬 처리함으로써 적응형 격자 공간에서 불연속 없이 연속적인 최단 거리를 찾는다. 이 과정에서 적응형 부호 거리장의 절단면 보기, 특정 위치에서의 거리 값 조회, 실시간 레이트레이싱 및 충돌처리 작업을 빠르고 효율적으로 수행될 수 있는지를 실험을 통해 보여준다. 제안하는 방법을 사용하면 하이폴리곤 메쉬에서도 1초 내외로 빠르게 적응형 부호 거리장을 계산할 수 있기 때문에 강체뿐만 아니라 변형체에서도 충분히 활용될 수 있는 방법이며, 다양한 모델에서도 정확하게 샘플링하고 거리 값을 나타낼 수 있는지 다양한 실험 결과를 통해 알고리즘의 안정성을 보여준다.

대용량 데이터의 전송 효율 및 기록 성능 향상을 위한 Zero Copy 기술 적용에 관한 연구 (A Study on the Application of Zero Copy Technology to Improve the Transmission Efficiency and Recording Performance of Massive Data)

  • 송민규;김효령;강용우;제도흥;위석오;이성모;김승래
    • 한국전자통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.1133-1144
    • /
    • 2021
  • Zero-copy는 메모리 무복사로도 불리는 기술로서 이에 대한 사용을 통해 사용자 영역과 커널 영역 간 컨텍스트 스위칭을 줄여 CPU의 부하를 최소화할 수 있다. 하지만 이 기술은 소규모의 랜덤한 파일을 전송하는 용도에 그치고, 대용량 파일 전송에는 아직 널리 활용되지 못하고 있다. 본 논문은 네트워크를 경유한 대용량 파일 처리에 있어서 Zero-copy의 실질적인 적용 방안에 대해 논의하고자 한다. 이를 위해 먼저 Zero-copy 기반으로 데이터를 전송, 저장할 수 있는 소규모 테스트베드 구축 및 프로그램을 개발하였다. 이후 세부 성능 평가를 통해 적용된 기술의 유용성을 세부 검증하고자 한다.

소벨 연산을 이용한 FPGA 기반 고속 윤곽선 검출 회로 구현 (FPGA-based Implementation of Fast Edge Detection using Sobel Operator)

  • 류상문
    • 한국정보통신학회논문지
    • /
    • 제26권8호
    • /
    • pp.1142-1147
    • /
    • 2022
  • 영상에 포함된 객체의 인식을 위해서는 영상에 대한 윤곽선 검출이 선행되어야 한다. 윤곽선 검출 연산이 하드웨어로 수행되면 그 수행 시간이 소프트웨어로 구현된 경우보다 비교할 수 없을 만큼 감소하게 된다. 윤곽선 검출을 위한 연산 중 하드웨어 구현에 적합한 연산은 소벨 연산이며, 소벨 연산을 효율적으로 FPGA로 구현하기 위한 많은 연구가 수행되었다. 본 논문에서는 소벨 연산을 FPGA로 구현하기 위한 기존의 구조를 개선하여, 약간의 추가적인 하드웨어 자원의 사용만으로 그 성능을 개선할 수 있는 회로 구조를 제안한다. 제안된 구조는 윤곽선 검출 대상 영상이 메모리에 저장되어 있는 경우에 적합하며 기존의 방법 대비 약 2배의 성능 향상을 이룰 수 있다.

그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 인-메모리 압축 기법 (In-memory Compression Scheme Based on Incremental Frequent Patterns for Graph Streams)

  • 이현병;신보경;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.35-46
    • /
    • 2022
  • 최근 네트워크 기술 발전과 함께 IoT 및 소셜 네트워크 서비스의 활성화로 인해 많은 그래프 스트림 데이터가 생성되고 있다. 본 논문에서는 압축률 및 압축 시간에 대해 중점적으로 연구되던 기존의 압축 기법에 그래프 마이닝을 적용하여 스트림 그래프 환경을 함께 고려한 그래프 압축 기술을 제안한다. 또한, 최신 패턴을 유지하여 실시간으로 변화하는 스트림 그래프에서 압축 효율 및 처리속도를 향상시킨다. 본 논문에서는 그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 압축 기법을 제안하였다. 제안하는 기법의 우수성을 보이기 위해 압축률과 처리시간을 기존기법과 비교하여 성능평가를 수행한다. 제안하는 기법은 그래프 데이터의 크기가 커질 때 중복되는 데이터가 많아져 기존 기법보다 빠른 처리속도를 보인다. 따라서, 빠른 처리가 요구되는 스트림 환경에서 제안하는 기법을 활용할 수 있다.

GPU를 공유하는 컨테이너 환경에서 GPU 작업의 동시 실행을 위한 GPU 자원 경쟁 관리기법 (GPU Resource Contention Management Technique for Simultaneous GPU Tasks in the Container Environments with Share the GPU)

  • 강지훈
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권10호
    • /
    • pp.333-344
    • /
    • 2022
  • 컨테이너 기반 클라우드 환경은 다수의 컨테이너가 GPU(Graphic Processing Unit)를 공유할 수 있으며, GPU 공유는 GPU 자원의 유휴 시간을 최소화하고 자원 사용률을 향상할 수 있다. 하지만, GPU는 전통적으로 클라우드 환경에서 CPU, 메모리와는 다르게 컴퓨팅 자원을 논리적으로 다중화하고 사용자에게 자원 일부를 격리된 형태로 제공할 수 없다. 또한, 컨테이너는 GPU 작업을 실행할 때만 GPU 자원을 점유하며, 각 컨테이너의 GPU 작업 실행 시점이나 작업 규모를 미리 알 수 없기 때문에 자원 사용량 또한 미리 알 수 없다. 컨테이너가 GPU 자원을 임의의 시점에 제한없이 사용한다는 특징은 다수의 컨테이너가 GPU 작업을 동시에 실행하는 환경에서 자원 경쟁 상태 관리를 매우 어렵게 만들며, GPU 작업은 대부분 GPU 내부에서 블랙박스 형태로 처리되기 때문에 GPU 작업이 실행된 이후에는 GPU 자원 경쟁을 방지하는데 제한적이다. 본 논문에서는 다수의 컨테이너가 GPU 작업을 동시에 실행할 때 자원 경쟁으로 인해 발생하는 성능 저하를 방지하기 위한 컨테이너 관리기법을 제안한다. 또한, 본 논문에서는 실험을 통해 다수의 컨테이너가 GPU 작업을 동시에 실행할 때 자원 경쟁으로 인한 성능 저하 문제를 분석하고 제안하는 컨테이너 관리기법의 효율성을 증명한다.

초소형 IoT 장치에 구현 가능한 딥러닝 양자화 기술 분석 (Analysis of Deep learning Quantization Technology for Micro-sized IoT devices)

  • 김영민;한경현;황성운
    • 사물인터넷융복합논문지
    • /
    • 제9권1호
    • /
    • pp.9-17
    • /
    • 2023
  • 많은 연산량을 가진 딥러닝은 초소형 IoT 장치나 모바일 장치에 구현하기가 어렵다. 최근에는 이러한 장치에서도 딥러닝을 구현할 수 있도록 모델의 연산량을 줄이는 딥러닝 경량화 기술이 소개되었다. 양자화는 연속적인 분포를 가지는 파라미터 값들을 고정된 비트의 이산 값으로 표현하여 모델의 메모리 및 크기 등을 줄여 효율적으로 사용할 수 있는 경량화 기법이다. 그러나 양자화로 인한 이산 값 표현으로 인해 모델의 정확도가 낮아지게 된다. 본 논문에서는 정확도를 개선할 수 있는 다양한 양자화 기술을 소개한다. 먼저 기존 양자화 기술 중 APoT와 EWGS를 선택하여 동일한 환경에서 실험을 통해 결과를 비교 분석하였다. 선택된 기술은 ResNet모델에서 CIFAR-10 또는 CIFAR-100 데이터 세트로 훈련되고 테스트 되었다. 실험 결과 분석을 통해 기존 양자화 기술의 문제점을 파악하고 향후 연구에 대한 방향성을 제시하였다.

베이스보드 매니지먼트 컨트롤러를 위한 부팅 과정 프로파일링 도구 (Booting Process Profiling Tool for Baseboard Management Controllers)

  • 김재섭;박민호;홍지만
    • 스마트미디어저널
    • /
    • 제11권11호
    • /
    • pp.84-91
    • /
    • 2022
  • 베이스보드 매니지먼트 컨트롤러(BMC, Baseboard Management Controller)는 다양한 통신 인터페이스를 사용하여 서버 모니터링, 유지보수, 제어 기능을 지원한다. 그러나, 디바이스 드라이버 초기화 과정에서 예기치 못한 문제가 발생할 경우 BMC가 정상적으로 동작하지 않을 수 있기 때문에 디바이스 드라이버 초기화 과정을 정확하게 분석하고, 분석 결과를 확인할 수 있는 기능을 제공하는 부팅 과정 프로파일링 도구는 필수적이다. 기존 부팅 과정 프로파일링 도구들은 BMC 부팅 과정 분석에 필요한 디바이스 드라이버 초기화 과정과 결과를 구체적으로 제공하지 않아 개발자가 필요에 따라 여러 도구를 조합하여 사용해야 하는 불편함이 있다. 본 논문에서는 BMC의 부팅 과정 프로파일링 도구를 제안한다. 제안하는 도구는 디바이스 드라이버 초기화 과정분석, CPU 및 메모리 사용률 분석, 커널 버전 관리 기능을 제공한다. 제안하는 도구를 사용하여 부팅 과정을 쉽게 분석할 수 있으며, 분석 결과는 부팅 시간 단축에 사용될 수 있다. 또한 제안한 도구를 Linux 기반의 BMC에 구현하고, 제안한 도구가 기존 프로파일링 도구에 비해 효율적임을 보인다.

영상 기반 항만시설물 손상 위치 추정 및 외관조사망도 작성 (Estimation of Image-based Damage Location and Generation of Exterior Damage Map for Port Structures)

  • 김방현;소상윤;조수진
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제27권5호
    • /
    • pp.49-56
    • /
    • 2023
  • 본 연구에서는 영상 기반 자동화된 항만시설물 점검을 위한 손상 위치 정보 추정 기법을 제안하였다. 3D 모델링 과정을 거치지 않고 특징 탐지 기술 및 이상치 제거 기술을 활용하여 호모그래피 행렬을 계산하고 손상 정보만 저장함으로써 메모리 효율을 높였다. 항만시설물에 특화된 손상 위치 정보 추정 알고리즘 개발을 위해 항만시설물 이미지를 이용하여 제작한 참값 좌표쌍을 통해 알고리즘을 최적화하였다. 이를 샘플 및 실제 콘크리트 벽체에 적용하여 구한 위치 오차는 각각 (X: 6.5cm, Y: 1.3cm), (X: 12.7cm, Y: 6.4cm)로 나타났다. 또한, 실제 콘크리트벽체를 대상으로 알고리즘을 적용하여 외관조사망도 형태로 표출함으로써 제안 기법의 현장 활용 가능성을 보였다.

실시간 비지정 문화재 관리 및 도난 추적 시스템 개발을 위한 효율적인 디스크 버퍼 관리 정책 분석 (The Analysis of Efficient Disk Buffer Management Policies to Develop Undesignated Cultural Heritage Management and Real-time Theft Chase)

  • 최준형;황상호;천승만
    • 한국전자통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.1299-1306
    • /
    • 2023
  • 본 논문에서는 플래시 기반 대용량 저장매체를 활용하는 비지정 문화재의 관리와 실시간 도난 추적을 위한 시스템을 제안한다. 제안하는 시스템은 IoT 기술을 활용하여 문화재의 관리 및 도난 추적을 위한 문화재 관리장치, 플래시 기반 서버 및 관제 서비스로 구성된다. 하지만 플래시 기반 저장매체는 제한된 수명을 가지므로 이를 보완하기 위한 방안이 반드시 필요하다. 따라서 본 논문에서는 대용량 플래시 기반 저장매체에 내장된 디스크 버퍼를 활용하여 단점을 극복한 시스템을 제안하며 다양한 환경의 워크로드를 통하여 디스크 버퍼 관리 정책의 성능평가를 진행하였다. 실험결과로 CLOCK와 FCFS에 비하여 LRU 정책이 10.7% 적은 플래시 기반 저장매체 쓰기 횟수를 보였다.

3차원 적층 구조 저항변화 메모리 어레이를 활용한 CNN 가속기 아키텍처 (CNN Accelerator Architecture using 3D-stacked RRAM Array)

  • 이원주;김윤;구민석
    • 전기전자학회논문지
    • /
    • 제28권2호
    • /
    • pp.234-238
    • /
    • 2024
  • 본 논문은 낮은 구동 전류 특성과 3차원 적층 구조로 확장시킬 수 있는 장점을 가진 3차원 적층형 이중 팁 RRAM을 CNN 가속기 아키텍처에 접목하는 연구를 수행한 논문이다. 3차원 적층형 이중 팁을 적층 형태의 병렬연결로 시냅스 어레이에 사용하여 멀티-레벨을 구현하였다. 이를 Network-on-chip 형태의 가속기 내에 DAC, ADC, 버퍼 및 레지스터, shift & add 회로 등 다양한 하드웨어 블록들과 함께 구성하여 CNN 가속기에 대한 시뮬레이션을 수행하였다. 시냅스 가중치와 활성화 함수의 양자화는 16-bit으로 가정하였다. 해당 가속기 아키텍처를 위한 병렬 파이프라인을 통해 CNN 연산을 시뮬레이션한 결과, 연산효율은 약 370 GOPs/W를 달성하였으며, 양자화에 의한 정확도 열화는 3 % 이내가 되는 결과를 나타냈다.