통합 검색 | Korea Science

High Performance Fortran 병렬 프로그래밍 변환기의 구현 및 성능 평가 (Implementation and Performance Evaluation of Parallel Programming Translator for High Performance Fortran)

김중권;홍만표;김동규
- 한국정보처리학회논문지
- /
- 제6권4호
- /
- pp.901-915
- /
- 1999
분산 메모리 병렬 컴퓨터의 성능을 충분히 활용하고 프로그래밍의 난이도아 기종간 프로그램의 호환성을 해결하기 위하여 시스템 독립적이고 쉽게 프로그래밍 할 수 있는 데이터 병렬 언어에 대한 연구가 최근에 활발히 진행되고 있다. 대표적인 데이터 병렬 언어인 HPF 컴파일러는 사용자가 정의한 정보를 이용하여 데이터와 연산을 프로세서에 분할하여 할당하고, 메시지 패싱을 생성하는 기능을 제공함으로써 프로그램 작성자에게 전역 주소 공간을 이용하여 병렬 프로그램을 쉽게 개발 할 수 있는 기반을 제공한다. 본 논문에서는 데이터 종속성 분석, 데이터 및 연산 분할과 메시지 패싱 코드 생성의 4단계를 통하여, HPf 입력 프로그램을 MPI 메시지 패싱 코드가 삽입된 SPMD 프로그램으로 변환하는 HPF 병렬 프로그래밍 언어 변환기인 PPTran을 구현하고 그 성능을 검증한다.
PDF

레지스터 리네이밍 방법을 사용하는 조건부 실행 비순차적 명령어 이슈 마이크로프로세서에 관한 연구 (Research on Conditional Execution Out-of-order Instruction Issue Microprocessor Using Register Renaming Method)

최규백;김문경;홍인표;이용석
- 한국통신학회논문지
- /
- 제28권9A호
- /
- pp.763-773
- /
- 2003
본 논문에서는 조건부 실행 비순차적 명령어 이슈 컴퓨터 시스템에서의 레지스터 리네이밍 방법을 제안한다. 레지스터 리네이밍은 읽기 후 쓰기 그리고 쓰기 후 쓰기 의존성을 제거하는 기술이다. 레지스터 리네이밍 방법을 사용하는 조건부 실행 비순차적 명령어 이슈 컴퓨터 시스템을 구현하기 위해서, 우리는 순차적 상태 물리적 레지스터와 미리보기 상태 물리적 레지스터들 양자를 모든 논리적 레지스터들이 공유할 수 있도록 포함하고 있는 레지스터 파일을 사용한다. 또한 본 논문에서 제안된 구조를 구현하기 위해서 순차적 상태 지시기, 리네이밍 상태 지시기, 물리적 레지스터 할당 지시기, 조건 예측 버퍼, 리오더 버퍼들을 구현한다. 이러한 모든 하드웨어를 이용해서, 레지스터 리네이밍 방법을 사용하는 조건부 실행 비순차적 명령어 이슈 컴퓨팅 시스템의 레지스터 리네이밍 및 순차적 상태의 추적을 가능하게 한다. 본 논문에서는 위의 하드웨어를 사용하여 기존 레지스터 리네이밍 방법에 비해서 적은 하드웨어 비용으로 내용 검색(associative lookup)을 제거하고 짧은 복구 시간을 제공하는 개량된 레지스터 리네이밍 방법을 제안한다.
PDF KSCI

휴대용 내장형 시스템에서 DC-DC 변환기를 고려한 동적 전압 조절 (DVS) 기법 (Dynamic Voltage Scaling (DVS) Considering the DC-DC Converter in Portable Embedded Systems)

최용석;장래혁;김태환
- 대한전자공학회논문지SD
- /
- 제44권2호
- /
- pp.95-103
- /
- 2007
동적 전압 조절(Dynamic voltage scaling, DVS) 기법은 가장 효과적이면서 가장 잘 알려진 전력 관리 기법 중 하나이다. DVS가 효율적인 여유 시간(Slack time) 분배 방법, 전압 할당 방법 등 다양한 방면에서 연구되었지만, 전압 변경 가능 프로세서 이외의 장치들에 대한 영향은 제대로 연구되지 못했다. DC-DC 변환기는 오늘날 대부분의 내장형 시스템에서 내부 장치들을 위한 다양한 값의 공급 전압 생성 및 전압 안정화 기능을 제공하는 중요한 역할을 하고 있으며, 특히 공급 전압의 계속적인 변경이 필요한 DVS를 적용하기 위해서는 필수적인 구성 요소이다. 이 논문에서는 DC-DC 변환기의 전력 소모를 포함한 시스템의 에너지 소모에 대해 분석하고 이를 바탕으로 DC-DC 변환기를 포함하는 시스템 또는 이와 유사한 형태의 에너지 소모 특성을 가지는 시스템에서 에너지 소모를 최소화하는 새로운 에너지 최적 오프라인 DVS 스케줄링 알고리즘을 제안하고, 실험 결과를 통해 제안된 알고리즘이 어떤 종류의 설정에서도 기존의 DVS 알고리즘보다 더 적은 에너지 소모의 스케줄을 생성함을 보여준다.
PDF KSCI

집중 충돌 병렬 처리를 위한 효율적인 다중 코어 트랜잭셔널 메모리 (Multi -Core Transactional Memory for High Contention Parallel Processing)

김승훈;김선우;노원우
- 전자공학회논문지CI
- /
- 제48권1호
- /
- pp.72-79
- /
- 2011
다중 코어 프로세서의 보급과 더불어 이를 효율적으로 활용하기 위한 병렬 프로그래밍의 중요성은 나날이 강조되고 있다. 트랜잭셔널 메모리는 병렬 프로그래밍의 핵심적인 요소인 동기화(Synchronization)를 위해 제안된 구조로서 lock을 사용한 동기화로 인해 발생하는 병렬성 저하, deadlock 등의 문제를 극복할 수 있다. 본 논문은 높은 수준의 contention 상황에 따른 효율적인 트랜잭셔널 메모리의 구조에 대한 이론적인 분석을 제시하며 시뮬레이션을 통해 분석의 타당성을 확인한다. 시뮬레이션 환경은 하드웨어 트랜잭셔널 메모리 (Hardware Transactional Memory) 시스템으로 구성되었으며 이론의 검증을 위해 STAMP 벤치마크와 높은 contention을 유발하는 프로그램을 시뮬레이션 하였다. 또한 트랜잭셔널 메모리를 적용한 dining philosopher problem의 모델링을 통해 효율적인 자원 할당 방안에 있어 lazy 데이터 관리 정책이 유리함을 보였다.
PDF KSCI

OpenACC와 GPU를 이용한 3차원 파동 전파 모델링 (Three-dimensional Wave Propagation Modeling using OpenACC and GPU)

김아름;이종우;하완수
- 지구물리와물리탐사
- /
- 제20권2호
- /
- pp.72-77
- /
- 2017
3차원 주파수 영역과 라플라스 영역 파동장을 얻기 위해 시간 영역에서 파동 전파 모델링을 하는 동시에 푸리에 변환과 라플라스 변환을 수행하였다. 이 과정에서 효율적인 계산을 위해 OpenACC와 GPU를 이용한 병렬 연산을 수행하였다. OpenACC를 이용하면 기존의 C, C++, Fortran 등 프로그래밍 언어에 간단한 지시어(directive)를 추가하여 GPU 연산 가속기를 사용할 수 있기 때문에 CUDA 또는 OpenCL과 같은 GPGPU 프로그래밍 언어를 배우지 않고도 GPU를 이용한 프로그래밍을 할 수 있다. OpenACC 프로그램은 GPU 메모리 공간 할당, 호스트와 디바이스 간의 데이터 복사 및 GPU 연산 과정을 자동으로 또는 사용자 정의에 따라 수행하게 된다. 수치 실험으로 OpenACC와 GPU를 사용한 3차원 파동 전파 모델링 프로그램과 단일 CPU 코어를 사용한 프로그램의 성능을 비교하였다. 상속도 모델과 SEG/EAGE 암염돔 속도 모델을 이용한 결과, OpenACC와 GPU를 사용한 경우 단일 CPU 코어를 사용하였을 때보다 계산 속도가 각각 53배와 30배 정도 향상되었다.
https://doi.org/10.7582/GGE.2017.20.2.072 인용 PDF KSCI

작업영역의 동적 할당을 통한 고화질 애니메이션의 병렬 렌더링 (Parallel Rendering of High Quality Animation based on a Dynamic Workload Allocation Scheme)

이윤석
- 한국컴퓨터정보학회논문지
- /
- 제13권1호
- /
- pp.109-116
- /
- 2008
고화질 입체 영상의 효과적인 재생을 위해 PC클러스터를 활용한 여러 형태의 병렬화 기법이 제안되었지만, 영상을 구성하는 객체의 분포가 균일하지 않은 경우 충분한 성능을 발휘하지 못하였다. 본 연구에서는 POV-Ray 렌더러를 채택한 PC클러스터 기반의 병렬 렌더링 시스템을 구축하고, 병렬화 성능을 높이기 위한 효과적인 부하 균형 기법을 개발하였다. 특히 애니메이션을 구성하는 연속 프레임 작업에서 프레임간의 연관성(coherence)이 높다는 사실에 근거하여, 임의 프레임의 각 분할 영역에 소요된 계산량을 바탕으로 다음 프레임의 부하 분포를 예측하고 이에 맞게 각 프로세서의 작업 영역을 재조정하는 기법을 제안하였다. 제안 기법의 성능을 평가하기 위해, 충분하지는 않지만 2개의 실제 애니메이션 데이터에 대한 적용 결과, 정적 분할에 비해 약 40% 가량의 성능 향상을 보였다. 또한 다양한 부하 분포에 대한 각 기법의 성능을 추정하기 위해 수행한 모의실험에서, 정적 분할 기법에 대해 부하균형, 확장성 측면에서 우월한 것으로 예측되었다.
PDF

분산공유 메모리 시스템 상에서의 효율적인 자료분산 방법 (An Efficient Data Distribution Method on a Distributed Shared Memory Machine)

민옥기
- 한국정보처리학회논문지
- /
- 제3권6호
- /
- pp.1433-1442
- /
- 1996
자료 분산은 SPMD(Single Program Multiple Data)형태의 병렬성을 제공하는 HPF (High Performance Fortran)의 주기능으로 구현 방법에 따라 컴파일러 성능을 좌우한 다. 본 논문에서는 SPAX(Scalable Parallel Architecture computer based on X-bar network)상에 자료 분산 기능을 제공하기 위한 설계 주안점과 효율적인 모델에 관하 여 기술하였다. SPAX는 분산공유 메모리 (DSM:distributed shared memory)를 사용한 계층적 클러스터링 구조를 가진다. 이러한 메모리 구조에서는 분산 메모리 자료 분산 (DMDD:Distributed Memory Data Distribution)이나 공유 메모리 자료 분산(SMDD: Shared Memory Data Distribution)방법으로는 시스템 가용성을 만족할 수 없다. 그래 서 계층적 마스터-슬래브 형태의 분산공유 메모리 자료분산(DSMDD:Distributed Shared Memory Data Distribution)모델을 설계하였다. 이 모델은 각 노드에 원격 마 스터와 슬래브들을 할당하고 노드내에서는 공유 메모리를 그리고 노드간에는 메세지 전달 인터페이스를 사용한다. 시뮬레이션을 수행한 결과, 시스템 성능 저하를 최소화 하는 노드 크기로 DSMDD를 수행하였을 때 SMDD나 DMDD보다 훨씬 더 효율적이였다. 특 히, 논리적 프로세서 갯수가 많을수록, 분산된 자료들 간의 자료 종속성이 적을수록 성능이 우수하였다.
PDF

MPEG 심리음향 모델-ll 알고리듬의 ASIC 구현을 위한 고정 소수점 연산 최적화 (Fixed-point Processing Optimization of MPEG Psychoacoustic Model-II Algorithm for ASIC Implementation)

이근섭;박영철;윤대희
- 한국통신학회논문지
- /
- 제29권11C호
- /
- pp.1491-1497
- /
- 2004
구현하기 위하여 고정 소수점 연산기에 적합하도록 최적화를 수행하였다. 최적화 과정은 크게 부호화기의 음질을 고려하여 프로세서의 데이터 워드 길이를 결정하는 과정과 자주 사용되는 초월 함수를 고정 소수점 연산을 통해 구현하는 것으로 구성된다. 데이터 워드 길이를 결정하기 위하여 심리음향 모델 과정의 고정 소수점 연산 오차와 이 오차가 비트 할당 과정에 영향을 미칠 확률 사이의 관계를 통계적 모델로 정의하였다. 여기서 정의된 모델을 사용하여 고정 소수점 연산 오차에 의한 영향이 1% 이내가 되도록 24비트의 데이터 워드를 선택하였다. 최적화된 고정 소수점 심리음향 모델을 사용한 MP3 부호화기의 음질은 부동 소수점 부호화기에 비해 W-R의 음질평가 점수를 기준으로 평균 -0.2 이내의 구분하기 힘든 수준의 음질 저하를 보였다
PDF KSCI

주문형 비디오 서비스를 위한 실시간 스케쥴링 기능 (Real-Time Scheduling Facility for Video-On-Demand Service)

손종문;김길용
- 한국정보처리학회논문지
- /
- 제4권10호
- /
- pp.2581-2595
- /
- 1997
본 논문에서는 주문형 비디오 서버가 필요로 하는 운영체제의 실시간 스케쥴링 기능을 분석 및 구현하였다. 실시간 스케쥴링 요구 조건은 비디오 데이타 전달 경로에 대한 모델 분석을 통하여 수집되었다. 특히, 병목 현상을 일으키는 하부 시스템이 전체 시스템의 실시간 스케쥴링에 미치는 영향을 분석함으로써 비디오 데이타 처리에 적합한 실시간 스케쥴러 및 프리미티브를 구현하였다. 성능 측정에서는 구현된 실시간 스케쥴러의 보장성을 실험하였다. 측정된 데이타는 프로세스가 가진 대부분의 시간 제약 조건이 만족됨을 보였다. 그러나 인터럽터 방식의 네트워크 프로토콜 처리는 실시간 스케쥴링의 가장 큰 장애 요소이다. 또한, 프로세스 수행 시간 간격을 측정함으로써 비실시간 스케쥴러와 실시간 스케쥴러의 차이점을 비교하였다. 측정된 결과에 의하면 비실시간 스케쥴러을 사용하면 프로세스에 할당되는 프로세서 시간을 예측하기 어렵기 때문에 효율적인 비디오 서비스를 위해서는 반드시 실시간 스케쥴러가 사용되어야 함을 보였다.
PDF

글로벌 큐를 통한 임베디드 멀티코어 프로세서의 멀티 DNN 연산 성능 향상 (Improving Multi-DNN Computational Performance of Embedded Multicore Processors through a Global Queue)

조호진;김명선
- 한국정보통신학회논문지
- /
- 제24권6호
- /
- pp.714-721
- /
- 2020
DNN은 로봇 및 자율주행차 등의 임베디드 시스템에서 활용 분야가 넓어지고 있다. 최근 높은 인식 정확도를 위하여 연산 복잡도가 크게 증가되고 비주기적으로 다수의 DNN을 사용하는 형태가 증가되고 있다. 따라서 임베디드 환경에서 다수의 DNN을 처리할 수 있는 능력은 중요한 이슈가 되었다. 이에 따라 멀티코어 기반 플랫폼들이 출시되고 있다. 하지만 대부분의 DNN 모델들은 배치 프로세스로 운용되어, 여러 DNN이 함께 멀티코어에서 운용될 때 어떻게 코어에 할당되느냐에 따라 각 DNN 간 수행시간 편차가 클 수 있고 시스템 전체적인 DNN 수행 시간이 길어질 수 있다. 본 논문에서는 각 DNN들을 배치 형태가 아닌 레이어별로 재구성한 후 글로벌 큐를 통하여 멀티코어에 분산시킬 수 있는 프레임워크를 제공하여 이러한 문제를 해결한다. 실험 결과 전체 DNN 수행 시간은 31% 감소하였고 다수의 동일 DNN을 운용 시 그 수행시간 편차는 최대 95.1% 감소하였다.
https://doi.org/10.6109/jkiice.2020.24.6.714 인용 PDF KSCI

검색결과 141건 처리시간 0.021초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)