• 제목/요약/키워드: 컴퓨터 코드 최적화

검색결과 78건 처리시간 0.03초

고해상도 SAR 영상처리 고속화를 위한 병렬 성능 최적화 기법 연구 (A Study on Parallel Performance Optimization Method for Acceleration of High Resolution SAR Image Processing)

  • 이규범;김규빈;안솔보름;조진연;임병균;김동현;김정호
    • 한국항공우주학회지
    • /
    • 제46권6호
    • /
    • pp.503-512
    • /
    • 2018
  • SAR(Synthetic Aperture Radar)는 레이더를 이용하여 얻은 신호를 처리해 영상을 획득하는 기술로서, SAR 영상의 활용도와 고해상도 영상에 대한 요구가 증가하고 있는 상황이다. 따라서 본 연구에서는 고해상도 영상 데이터의 고속 처리를 위해 SAR 영상처리 알고리즘을 다중코어 기반의 컴퓨터 구조에서 최적의 성능을 낼 수 있도록 구현하기 위한 연구를 수행했다. 고해상도 영상에 따른 방대한 양의 입출력에 의한 성능 저하를 개선시키기 위해 메모리를 최대한 활용하는 성능 최적화 기법을 적용하고 OpenMP의 동적 스케쥴링 기법과 중첩 병렬성(nested parallelism)을 사용해 코드의 병렬화 비율을 높였다. 그 결과 전체 계산시간을 줄일 뿐만 아니라 병렬 성능의 최대 한계치를 크게 높일 수 있었으며, 제안된 기법을 10개 코어를 가진 다중코어 시스템에 적용한 결과 기존 대비 8배 이상의 성능 향상이 있었다. 본 연구 결과는 대용량 메모리를 가진 다중코어 시스템을 대상으로 하는 고해상도 SAR 영상처리 소프트웨어 개발에 효과적으로 활용될 수 있을 것으로 기대된다.

64-bit ARM 프로세서 상에서의 블록암호 PIPO 병렬 최적 구현 (Optimized implementation of block cipher PIPO in parallel-way on 64-bit ARM Processors)

  • 엄시우;권혁동;김현준;장경배;김현지;박재훈;심민주;송경주;서화정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.163-166
    • /
    • 2021
  • ICISC'20에서 발표된 경량 블록암호 PIPO는 비트 슬라이스 기법 적용으로 효율적인 구현이 되었으며, 부채널 내성을 지니기에 안전하지 않은 환경에서도 안정적으로 사용 가능한 경량 블록암호이다. 본 논문에서는 ARM 프로세서를 대상으로 PIPO의 병렬 최적 구현을 제안한다. 제안하는 구현물은 8평문, 16평문의 병렬 암호화가 가능하다. 구현에는 최적의 명령어 활용, 레지스터 내부 정렬, 로테이션 연산 최적화 기법을 사용하였다. 구현은 A10x fusion 프로세서를 대상으로 한다. 대상 프로세서상에서, 기존 레퍼런스 PIPO 코드는 64/128, 64/256 규격에서 각각 34.6 cpb, 44.7 cpb의 성능을 가지나, 제안하는 기법은 8평문 64/128, 64/256 규격에서 각각 12.0 cpb, 15.6 cpb, 16평문 64/128, 64/256 규격에서 각각 6.3 cpb, 8.1 cpb의 성능을 보여준다. 이는 기존 대비 각 규격별로 8평문 병렬 구현물은 약 65.3%, 66.4%, 16평문 병렬 구현물은 약 81.8%, 82.1% 더 좋은 성능을 보인다.

온라인 게임에서의 하이브리드기법을 적용한 동기화 기법 (A Synchronized Scheme Applying on Hybrid in On-Line Game)

  • 김혜영
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.7-12
    • /
    • 2011
  • 고속 네트워크의 급속한 발전과 인터넷의 확산 및 컴퓨터 성능의 고급화로 여러 명의 사용자들이 동시에 게임을 진행 할 수 있도록 하는 다중 사용자용 온라인 게임에 대한 요구와 관심이 높아지고 있다. 이러한 다중 사용자용 온라인 게임에서 중요한 요소인 사실적인 게임 진행을 실감하기 위해서는 동기화가 중요한다. 따라서 본 논문에서는 온라인 게임에서의 게임 유저들 간의 효율적인 상태 동기화를 위해 FSM (Finite State Machine)과 이벤트 잠금 (Event holding) 기법을 결합한 동기화 기법과 코드의 최적화 기법을 제안하고, 이를 적용한 게임서버 및 클라이언트를 구현하여 여러 클라이언트들과의 게임 실행을 통한 테스트를 통해 제안 기법의 효용성과 신뢰성을 보였다.

효율적인 모델 학습을 위한 심층 특징의 평균값을 활용한 의미 있는 비디오 프레임 추출 기법 (Salient Video Frames Sampling Method Using the Mean of Deep Features for Efficient Model Training)

  • 윤혁;김영기;한지형
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.318-321
    • /
    • 2021
  • 최근 정보통신의 발달과 함께 인터넷에 접속하는 사용자 수와 그에 따른 비디오 데이터의 전송량이 늘어나는 추세이다. 이렇게 늘어나는 많은 비디오 데이터를 관리하고 분석하기 위해서 최근에는 딥 러닝 기법을 많이 활용하게 된다. 일반적으로 비디오 데이터에 딥 러닝 모델을 학습할 때 컴퓨터 자원의 한계로 인해 전체 비디오 프레임에서 균등한 간격 또는 무작위로 프레임을 선택하는 방법을 많이 사용한다. 하지만 학습에 사용되는 비디오 데이터는 항상 시간 축에 따라 같은 문맥을 담고 있는 Trimmed 비디오라고 가정할 수가 없다. 만약 같지 않은 문맥을 지닌 Untrimmed 비디오에서 균등한 간격 또는 무작위로 프레임을 선택해서 사용하게 된다면 비디오의 범주와 관련이 없는 프레임이 샘플링 될 가능성이 있기 때문에 모델의 학습 및 최적화에 전혀 도움이 되지 않는다. 이를 해결하기 위해 우리는 각 비디오 프레임에서 심층 특징을 추출하여 평균값을 계산하고 이와 각 추출된 심층특징들과 코사인 유사도를 계산해서 얻은 유사도 점수를 바탕으로 Untrimmed 비디오에서 의미 있는 비디오 프레임을 추출하는 기법을 제안한다. 그리고 Untrimmed 비디오로 구성된 데이터셋으로 유명한 ActivityNet 데이터셋에 대해서 대표적인 2가지 프레임 샘플링 방식(균등한 간격, 무작위)과 비교하여 우리가 제안하는 기법이 Untrimmed 비디오에서 효과적으로 비디오의 범주에 해당하는 의미 있는 프레임 추출이 가능함을 보일 것이다. 우리가 실험에 사용한 코드는 https://github.com/titania7777/VideoFrameSampler에서 확인할 수 있다.

  • PDF

병렬 프로그램의 적응형 실행 기법 (Adaptive Execution Techniques for Parallel Programs)

  • 이재진
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제31권8호
    • /
    • pp.421-431
    • /
    • 2004
  • 본 논문은 병렬 프로그램을 실행할 때 계산량이 작은 병렬 루프를 병렬로 실행하는 경우에 생기는 프로그램의 성능 저하를 피하기 위하여, 컴파일 시나 실행 시에 성능 예측 모델을 이용하여 병렬 루프의 성능을 예측한 다음 적응형 실행 기법을 이용하여 병렬 프로그램을 실행하는 방법을 소개한다. 성능예측 알고리즘과 적응형 실행 알고리즘은 컴파일러 전처리기에 구현이 되었으며, 이 전처리기는 병렬 루프가 실행되는 방식을 컴파일 시나 실행 시에 결정하는 코드를 원래의 병렬 프로그램에 삽입한다. Fortran77로 씌어진 다섯 개의 대표적인 과학 수치계산 병렬 벤치마크 프로그램을 32개의 프로세서로 구성된 분산 공유 메모리 병렬 컴퓨터(SGI Origin2000)에 실행하여 본 논문에서 제안한 방법의 성능 평가를 하였을 때, 제안한 기법을 적응한 경우가 32, 16, 8, 및 4개의 프로세서에서 원래의 병렬 프로그램 보다 각각 26%, 20%, 16%, 및 10% 빨리 실행되었다. 이중 한 프로그램은 원래 병렬 프로그램 보다 32개 프로세서에서 두 배 이상 빠르게 실행되었다.

CUDA 기반 GPU에서 효율적인 Power Method의 구현 (Implementation of Efficient Power Method on CUDA GPU)

  • 김정환;김진수
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권2호
    • /
    • pp.9-16
    • /
    • 2011
  • GPU는 저렴한 비용으로 쉽게 대규모 데이터 병렬성을 활용할 수 있는 장점을 갖고 있어 많은 고성능 컴퓨팅 응용 분야에서 사용되고 있는 추세다. 행렬의 고유벡터를 구하는 power method는 웹 페이지의 중요도를 계산하는 PageRank 알고리즘 등 여러 응용 분야에서 활용되고 있는 방법으로써, 본 연구에서는 power method를 GPU에서 병렬화하여 구현하였으며, 성능을 최적화하기 위한 개선 방법을 제시하였다. Power method는 행렬과 벡터의 곱셈 연산이 반복적으로 수행되며 GPU에서 쉽게 병렬화가 가능하다. 그러나, 고유벡터의 수렴 여부 판단을 위한 연산 등의 작업과 다음 곱셈을 위한 벡터 크기의 조정 등의 작업이 부가적으로 필요하며, 이러한 작업은 GPU 내의 커널 코드를 여러 차례 호출하고 불필요한 데이터 이동을 유발하는 문제점이 있다. 본 연구에서는 커널 호출 회수를 줄이고 스레드 배치를 최적함과 동시에 수렴 여부 판단을 위한 연산을 최적함으로써 power method의 성능을 향상시켰다.

R410A를 사용하는 멀티에어컨 시스템을 위한 사이클 시뮬레이션 프로그램 개발 (Development of a Cycle Simulation Program for Multi-Airconditioning Systems using R410A)

  • 김영재;박인섭;김학희;윤백;길성호
    • 한국산학기술학회논문지
    • /
    • 제3권3호
    • /
    • pp.210-215
    • /
    • 2002
  • 본 연구에서 R410A를 사용하는 멀티에어컨 시스템의 성능(성능계수, 용량, 소비전력 등)을 정상 상태에서 모사할 수 있는 Multi_Cycle이라 명명된 컴퓨터 모사 프로그램을 개발하였다. 컴퓨터 시뮬레이션 프로그램을 검증하기 위해서 일련의 사례 연구를 수행하였으며, 이에 대해서 설명하였다. Mulli_Cycle은 실내기, 실외기, 압축기와 팽창 밸브 모사를 위한 부프로그램 및 냉매와 습공기의 열역학적 물성치와 전달 물성치 예측을 위한 부프로그램으로 구성되어있다. 멀티에어컨 사이클을 구성하고 있는 각 유닛의 복잡한 조자조건과 다양한 종류의 냉매를 고려해야 하는 멀티에어컨의 성능 분석시 Multi_Cycle의 사용은 많은 도움이 될 것이다. 나아가, Multi_Cycle은 멀티에어컨 시스템을 최적화하고, 경제적이고 효율적인 운전 조건을 확립하는데 매우 유용한 도구가 될 수 있을 것이다. Multi_Cycle의 주시뮬레이션 코드는 Digital Visual Fortran으로 프로그램 되었으며 그래픽 사용자 인터페이스(GUI)는 Visual Basic으로 프로그램 되었다.

  • PDF

에지 확장을 통한 제어 흐름 그래프의 효과적인 비교 방법 (An Effective Method for Comparing Control Flow Graphs through Edge Extension)

  • 임현일
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권8호
    • /
    • pp.317-326
    • /
    • 2013
  • 본 논문에서는 바이너리 프로그램의 정적인 구조를 표현하는 제어 흐름 그래프를 비교하는 방법을 제안한다. 제어 흐름 그래프를 비교하기 위해서 기본 블록에 포함된 프로그램의 명령어 및 구문 정보를 비교한 후 기본 블록 사이의 유사한 정도를 측정한다. 또한, 에지 확장을 통해 기본 블록들 간의 제어 흐름을 표현하는 그래프 에지의 유사성을 함께 반영한다. 각 기본 블록 사이의 유사도 결과를 기반으로 기본 블록을 서로 매칭하고, 기본 블록 사이의 매칭 정보를 이용해서 전체 제어 흐름 그래프의 유사도를 측정한다. 본 논문에서 제안한 방법은 자바 프로그램으로부터 추출한 제어 흐름 그래프를 대상으로 제어 흐름 구조의 유사성에 따라 두 가지 기준으로 실험을 수행하였다. 그리고, 성능을 평가하기 위해서 기존의 구조적 비교 방법을 함께 실험하였다. 실험 결과로부터 에지 확장 방법은 서로 다른 프로그램에 대해 충분한 변별력을 가지고 있음을 확인할 수 있다. 프로그램 비교에 좀 더 많은 시간이 소요되지만, 구조가 유사한 프로그램에 대한 매칭 능력에서 기존의 구조적 비교 방법에 비해 우수한 결과를 보였다. 제어 흐름 그래프는 프로그램의 분석에 다양하게 활용될 수 있으며, 제어 흐름 그래프의 비교 방법은 프로그램의 유사성 비교를 통한 코드의 최적화, 유사 코드 검출, 코드의 도용 탐지 등 다양한 분야에서 응용될 수 있을 것이라 기대된다.

웹과 네트워크 기술을 이용한 환자 맞춤식 암치료 계획 시뮬레이션 시스템 (A Customized Cancer Radiation Treatment Planning Simulation (ccRTPs) System via Web and Network)

  • 금오연
    • 한국의학물리학회지:의학물리
    • /
    • 제17권3호
    • /
    • pp.144-152
    • /
    • 2006
  • 네트워크기술을 이용한 서버-클라이언트 원격의료기술은 특히 의료시설이 낙후된 지방도시의 의료기관에 질 높은 의료서비스를 제공할 수 있는 기술이다. 이러한 기술은 중앙 집중 방식으로 진단과 검사용으로 사용되는 대형 컴퓨터 하드웨어와 소프트웨어를 매우 효율적이고 경제적으로 관리할 수 있게 하게 때문에 궁극적으로는 의료수가를 감소시키는데도 기여할 것이다. 각 환자에 대해 환자 맞춤형 방사선 치료계획은 매우 효율적인 암 치료를 가능하게 하기 때문에 환자와 의사 모두에게 매우 유익한 방법이다. 치료계획전문가들은 환자에게 너무 적은 선량을 주면 암이 계속 재발할 확률이 높고 너무 많은 선량을 주면 환자를 다치게 할 수도 있다는 것을 잘 이해한다. 최고의 해법은 가장 정확한 선량을 주는 것인데 이것은 각 환자의 CT 자료를 기반으로 정확한 선량계획 시뮬레이션 시스템을 사용하는 것이다. 우리는 네트워크 기반과 웹 기반을 이용한 환자 맞춤형 치료계획 시뮬레이션 시스템개발을 위해 관련된 4가지 컴퓨터 프로그램을 개발하고 있다. 환자의 CT자료를 이용하여 각 환자의 표적 자료를 만드는 프로그램, 이 표적자료를 바탕으로 방사선 선량 시뮬레이션을 하는 병렬 몬테카를로 프로그램, 선량주사변수들을 최적화시키는 프로그램, 그리고 계산결과를 시각화하는 프로그램들이다. 모든 소프트웨어는 약 100-200개의 개인컴퓨터로 구성된 클러스터에서 병렬모드로 운영이 된다. 이와 같이 방대한 하드웨어와 소프트웨어의 효과적인 관리를 각 병원에 맡기는 것은 효율적이지 못하기 때문에 이를 중앙에서 관리하면서 각 병원에서는 네트워크나 웹을 통하여 마치 모든 것이 자기 병원에 있는 것과 같이 편리하게 쓸 수 있게 하는 시스템으로 의사와의 계속적인 의사소통은 클라이언트-서버 시스템의 메신저 기능을 이용한다.

  • PDF

유전자 알고리즘을 이용한 DNA 서열 생성 시스템의 효율적인 구현에 대한 연구 (Implementation of efficient DNA Sequence Generate System with Genetic Algorithm)

  • 이은경;이승렬;김동순;정덕진
    • 전자공학회논문지SC
    • /
    • 제43권5호
    • /
    • pp.44-59
    • /
    • 2006
  • DNA 컴퓨터의 계산 수준을 분자 수준으로 끌어내려 막대한 병렬성을 확보하고, 보다 효율적인 정보 처리를 가능케 해 차세대 컴퓨팅 기법으로서의 위치를 확고히 하고 있다. 그러나 DNA 컴퓨팅은 실제 실험을 통해 계산 모델 및 알고리즘을 검증하기 때문에 많은 연산 시간을 필요로 한다. 따라서 빠른 계산 모델 및 알고리즘의 검증을 위해 시뮬레이터인 NACST가 개발되었다. 그러나 NACST에 포함된 서열생성 시스템의 반복적인 연산 특징 때문에 이 또한 많은 연산시간을 필요로 하게 되었다. 따라서 시뮬레이션 시간 단축을 위한 서열생성 시스템의 효율적인 하드웨어 구조가 요구된다. 이에 본 논문은 DNA 코드 최적화 부분의 연산시간이 NACST 연산시간의 약 95% 이상을 차지한다는 점을 착안하여 DNA 서열 생성 시스템에 병렬 기법과 Pipeline 기법을 적용하였고 적합도 함수 간 연산을 공유시켜 연산의 양을 대폭 줄이고 분배해 시뮬레이션 시간을 크게 줄일 수 있는 하드웨어 구조를 제안하고 검증하였다. 실험 결과 제안된 하드웨어는 기존 소프트웨어에 비해 약 467배 이상의 연산시간 감소를 보였으며 DNA 서열 생성 성능은 기존과 동일함을 보였다.