• 제목/요약/키워드: 파이프라이닝

검색결과 53건 처리시간 0.019초

VLIW 구조를 위한 컴파일러의 구현 (Implementation of a Compiler for VLIW rchitecture)

  • 최성욱;김경훈;박명순
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제5권1호
    • /
    • pp.109-121
    • /
    • 1999
  • VLIW(Very Long Instruction Word)기술을 이용한 프로세서는 최근에 다른 어떠한 형태의 프로세서보다 좋은 성능을 보일 것으로 기대되고 있다. 컴파일러가 전역적인 분석을 진행하여 명령어 수준의 병렬성을 , VLIW 구조를 위한 많은 컴파일 기술이 연구되어왔다. 컴파일 기술의 연구에 대해 보다 신뢰성 있는 결과를 얻기 위해서는 자신의 새로운 기술이 첨가될 수 있는 기본 토대로서 VLIW 컴파일러 및 실험환경을 구축하는 것이 필요하다. 본 논문에서는 VLIW 프로세서를 위해 GURPR을 기반으로 한 소프트웨어 파이프라이닝등 기존의 병렬성 증진 최적화 기법등을 포함한 병렬화 컴파일러를 개발하였고, 시뮬레이터 환경에서 테스트하였다. 실험 결과, 몇몇 벤치마크는 최대 30% 까지 실행시간이 시간이 단축될 수 있음을 보였다. 본 컴파일러 시스템은 컴파일링 기술에 대한 연구에 있어 기존 모듈을 개선하는 등에 대해 많은 도움을 줄 것이며 향후 새로운 연구결과와 구현이 본 컴파일러 환경에 추가되어 성능 향상 정도를 실험할 수 있을 것으로 기대하고 있다.

저토피고 대단면 정거장터널의 설계 (Design on the large section of station tunnel under shallow overburden)

  • 정윤영;최해준;김병주;유봉운;김용일;오성진
    • 한국터널지하공간학회 논문집
    • /
    • 제9권2호
    • /
    • pp.171-182
    • /
    • 2007
  • 도심지 개착구간의 교통 및 환경적인 영향을 최소화하기 위하여 단면적 $200\;m^2$ 이상의 정거장터널이 퇴적암반 중에 계획되었으나 토피고가 13 m 이하인 설계조건에 직면하게 되었다. 본 연구에서는 패턴설계가 아닌 시공사례와 아칭효과 발현을 기초로 세 가지 요소 - 단면형상의 영향, 작용하중의 적용방법, 지보방안과 터널안정성분석 - 를 중심으로 설계방향이 논의되었다. 단면형상의 역학적인 영향에 기초하여 기본설계안과 연구단면안이 유도되었고, 지보방안은 터널천반부의 침하방지 및 역학적인 평형상태를 유지하기위한 파이프루프 보조공법과 NATM의 지보원리를 활용하였다. 두 설계안의 비교분석으로부터, 터널라이닝을 개착구조물의 연장선상에서 제약한 설계조건과 터널안정성 및 철근배근의 시공성에 대해 기본설계안이 적합한 방안임을 확인할 수 있었다. 그리고 동일한 건축한계로 아치부의 응력집중이 발생되지 않는 안정적인 응력분포를 나타내는 연구단면안의 분석결과에서 보듯이 향후 대단면터널 설계기술의 향상을 위해 단면형상의 영향과 이완하중의 적용방안이 심도 있게 검토되어야 함을 알 수 있다.

  • PDF

온톨로지 기반 사용자 제시 조건을 이용한 시맨틱 서비스 조합 (Pipelining Semantically-operated Services Using Ontology-based User Constraints)

  • 정한민;이미경;류범종
    • 한국콘텐츠학회논문지
    • /
    • 제9권10호
    • /
    • pp.32-39
    • /
    • 2009
  • 현재까지 제안된 웹 서비스나 웹 서비스에 시맨틱 마크업이 추가된 시맨틱 웹 서비스와 달리 시맨틱 서비스 (Semantically-operated Service)는 온톨로지를 이용하여 검색 기능 또는 추론 기능을 제공하는 서비스로 정의할 수 있다. 온톨로지 기반이므로 URI (Uniform Resource Identifier)를 지원하며 온톨로지 스키마에 정의된 클래스와 속성 (Property)을 사용하여 미리 정의된 작업을 수행한다. 시맨틱 서비스는 입력 인자가 온톨로지에 정의된 클래스들을 포함하므로 시맨틱 서비스 조합 (Pipelining) 시에 반드시 온톨로지를 참조할 필요가 있다. 본 연구는 시맨틱 정보 위주의 사용자 제시 조건을 입력받아 시맨틱 브로커를 이용하는 방식으로 시맨틱 서비스 관리 서버에 등록된 시맨틱 서비스들 내의 온톨로지 정보와 관리 정보를 참조하여 조건에 맞는 시맨틱 서비스를 조합하는 방법을 제안한다. 사용자 제시 조건으로는 입력 인스턴스, 출력 클래스, 시각화 유형 (Visualization Type), 시맨틱 서비스명, 속성명이 있다. 시맨틱 서비스 조합은 사용자 제시 조건을 기반으로 모든 과정이 자동적으로 이루어지며, 그 결과는 복합 시맨틱 서비스와 일부 워크플로우를 포함하는 시맨틱 서비스 파이프라인들로서 사용자에게 순위화되어 제시된다. 사용자는 시맨틱 브로커에 의해 제시된 시맨틱 서비스 파이프라인들을 실행해 봄으로써 원하는 시맨틱 서비스 조합을 찾을 수 있다. 결국, 본 연구를 통해 개발된 시맨틱 서비스 조합 시스템은 다양한 곳에서 개발된 시맨틱 서비스들을 자동으로 조합하여 새로운 시맨틱 서비스를 개발하고자 하는 서비스 기획자들을 지원하는데 획기적인 도움을 줄 것으로 기대한다.

멀티-기가비트 WPAN 시스템을 위한 고속 QC-LDPC 복호기 구조 (High-Throughput QC-LDPC Decoder Architecture for Multi-Gigabit WPAN Systems)

  • 이한호;사부흐
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.104-113
    • /
    • 2013
  • 60GHz 멀티-기가비트 WPAN 시스템을 위한 고속 QC-LDPC 복호기의 구조를 제안한다. 제안한 QC-LDPC 복호기 설계를 위하여 4 블록-병렬 계층 복호 기술과 fixed wire network 기술이 적용 되었다. 2단 파이프라이닝과 4 블록-병렬 계층 복호기술은 동작 주파수와 데이터 처리량을 개선시키는데에 큰 효과가 있다. 또한 본 제안한 복호기 구조에서 스위치 네트워크를 구현하여 위하여 fixed wire network로 간단하게 구현될 수 있으면 하드웨어 복잡도를 크게 감소시킬 수 있다. 제안한 672-비트, rate-1/2인 QC-LDPC 복호기 구조는 90-nm CMOS 표준 셀을 이용해 설계 및 합성하였다. 성능 분석 결과 제안한 QC-LDPC 복호기 구조는 794K 게이트를 가지며 클락 속도 290MHz 에서 작동한다. 12-iteration일 때 데이터 처리율은 3.9 Gbps 이며 60GHz WPAN 시스템에 적용되어 사용 될 수 있다.

EGML 기반 이동 객체 검출 알고리듬의 하드웨어 구현 (A Hardware Implementation of EGML-based Moving Object Detection Algorithm)

  • 김경훈;안효식;신경욱
    • 한국정보통신학회논문지
    • /
    • 제19권10호
    • /
    • pp.2380-2388
    • /
    • 2015
  • 영상에서 움직임이 있는 객체 영역을 검출하기 위한 이동 객체 검출(moving object detection; MOD) 알고리듬을 EGML(effective Gaussian mixture learning) 기반 배경 차분 방법을 적용하여 하드웨어로 설계하였다. EGML 계산 일부의 근사화를 통해 하드웨어 복잡도를 줄였으며, 파이프라이닝 적용을 통해 동작속도를 개선하였다. Verilog-HDL을 이용하여 하드웨어를 설계하였으며, MATLAB/Simulink와 FPGA가 연동된 FPGA- in-the-loop 환경에서 하드웨어 동작을 검증하였다. 설계된 MOD 프로세서는 XC5VSX95T FPGA 디바이스에서 2,218 슬라이스로 구현되었으며, 102 MHz의 클록 주파수로 동작하여 102 MS/s의 처리율을 갖는 것으로 평가되었다. IEEE CDW-2012 데이터 세트의 12가지 영상에 대해 MOD 프로세서의 성능을 분석한 결과, 평균 recall 값은 0.7631, 평균 precision 값은 0.7778, 그리고 평균 F-measure 값은 0.7535로 각각 평가되었다.

무선 센서 네트워크상의 소프트웨어 업데이트를 위한 고속 코드 전파 프로토콜 (A High Speed Code Dissemination Protocol for Software Update in Wireless Sensor Network)

  • 차정우;김일휴;김창훈;권영직
    • 한국산업정보학회논문지
    • /
    • 제13권5호
    • /
    • pp.168-177
    • /
    • 2008
  • 무선 센서 네트워크상의 소프트웨어 업데이트를 위한 코드 전파 기법은 매우 중요한 기술 중 하나이다. 본 논문에서는 네트워크 코딩 기법을 이용한 새로운 업데이트 코드 전파 기법을 제안한다. 제안된 코드전파 기법은 기존의 파이프라이닝 방식에 비해 데이터 송수신 횟수에 있어 네트워크 환경에 따라 약 20$\sim$25%의 성능 향상을 보인다. 따라서 본 논문에서 제안한 코드 업데이트 기법을 사용할 경우 속도, 에너지, 네트워크 혼잡도 측면에서 효율적인 소프트웨어 업데이트를 수행할 수 있다. 뿐만 아니라 본 논문에서 제안한 방식은 네트워크 코딩의 overhearing 문제점인 원본 데이터의 분실이나 데이터의 미 수신시 발생하는 디코딩문제를 미리 정의된 메시지를 이용, 방지함으로써 신뢰성 있는 데이터 전송을 가능하게 한다.

  • PDF

ILP 명령 스케쥴링에서의 복사 제거를 위한 낙관적 융합 기법 (Optimistic Colescing Technique for Copy Elimination in ILP Instruction Scheduling)

  • 박진표;문수묵
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권5호
    • /
    • pp.692-701
    • /
    • 1999
  • 수퍼스칼라(superscalar)나 VLIW 와 같은 명령어 수준 병렬화(ILP) 프로세서의 성능을 극대화하는 과감한 명령어 스케쥴링은 소프트웨어 파이프라이닝과같은 스케쥴링 과정을 거치면서 일반적인 복사 명령어 제거 기법으로 없앨 수 없는 서로 간섭하는 복사 명령을 많이 만들어내는데 루프 내부에 생성된 이러한 복사명령은 적절한 루프 펼침을 수행하여 간섭관계를 없앰으로서 제거할 수 있다. 본 논문에서는 이와 같이 루프 펼침이 수행된 루프 내부의 복사명령을 제거하는 기법으로 그래프 컬러링 상에 구현한 낙관적 융합기법을 제안한다. 그래프 컬러링에서의 융합기법은 간선의 개수가 많은 노드를 만들어 낼수 있으므로 채색성에 부정적인 영향을 주는 것으로 알려져 왔으나 본 기법에서는 융합되는 노드에 동시에 간섭하는 노드의 간선의 수가 줄어드는 긍정적인 영향을 최대한 이용하여 채색성을 높이고 융합된 노드에 대한 실제 버림(spill)이 일어나는 경우 유효 범위 분절(live range splitting)을 통하여 버림의 부담을 최대한 줄이도록 하였으며 이를 VLIW 스케쥴링 된 SPEC 정수벤치마크 루프내부의 복사 명령 제거에 적용한 결과 제거 가능한 복사 명령의 99%를 제거하면서도 버림명령은 다른 융합 기법과 비교하여 가장 적게 발생하는 우수한 결과를 얻을수 있었다.

3G+ CDMA망에서의 기술 진화: 응용 서비스 QoS 성능 연구 (3G+ CDMA Wireless Network Technology Evolution: Application service QoS Performance Study)

  • 김재현
    • 대한전자공학회논문지TC
    • /
    • 제41권10호
    • /
    • pp.1-9
    • /
    • 2004
  • CDMA 2000 서비스의 주요 성공여부는 사용자 측면에서 응용서비스의 성능에 좌우한다고 할 수 있다. 본 논문에서는 CDMA 네트워크에서의 단대단 성능을 평가하기 위하여 단대단 시뮬레이션 모델을 개발하고 이를 사용하여 음성과 데이터 서비스의 사용자 측면에서 응용서비스의 성능을 분석하였다. 시뮬레이션 성능분석 모델들은 응용서비스 트래픽 특성 모델, 네트워크 구조 (architecture) 모델, 네트워크 구성요소 모델, 각 계층별 프로토콜 모델들을 포함한다. 다양한 전송계층의 구조에 따른 사용자 측면의 응용계층 성능을 평가하기 위하여 액세스망(RAN: Radio Access Network)과 코어망(CN: Core Network)에서 ATM 과 IP 전송방식을 고려하였다. 음성 서비스 분석 결과로 보코터 바이패스를 사용하는 경우 다른 방식에 비하여 30%의 성능 개선을 보이는 것을 알 수 있었다. 데이터 서비스 성능(웹 서비스)의 경우, 연속적 TCP연결 (persistent TCP connection)과 파이프라이닝 효과에 기인하여 HTTP v.1.1이 HTTP v.1.0에 비하여 성능이 우수하였다. 또한, RAN 구조에서 웹 브라우징 서비스의 경우 IP 전송기술이 ATM 에 비하여 데이터 패킷에 대한 패킷 오버헤드가 상대적으로 적어 우수함을 보였으며, 패킷크기가 작은 음성 서비스의 경우 반대의 효과를 볼 수 있었다. 비록 시뮬레이션 결과를 통하여 3G-lX EV 시스템이 3G-lX RTT에 비하여 우수한 패킷지연 성능을 보여주었지만, 기술적 진화의 모든 단계에서 단대단 사용자 단계의 성능에 영향을 주는 다양한 네트워크의 구성요소 및 계층에 대하여 고려하여야 할 것이다.

VLIW 기반 고성능 DSP에서의 SAD 알고리즘 최적화 스케줄링 (Optimal Scheduling of SAD Algorithm on VLIW-Based High Performance DSP)

  • 유희재;정수환;정선태
    • 한국콘텐츠학회논문지
    • /
    • 제7권12호
    • /
    • pp.262-272
    • /
    • 2007
  • SAD(Sum of Absolute Difference) 알고리즘은 동영상 인코더에서 가장 많은 시간이 소용되는 것으로 잘 알려진 움직임 추정에서 가장 자주 계산이 수행되는 알고리즘으로, 동영상 인코딩 수행시간을 줄이기 위해서 우선적으로 최적화 구현되어야 하는 알고리즘이다. 본 논문에서는 VLIW 기반 고성능 DSP 프로세서에서의 조건 분기를 갖는 SAD 알고리즘의 최적 스케줄링 구현 방법을 제안한다. 제안 방법은 먼저 조건 분기를 갖는 중첩 루프를 VLIW 구조가 제공하는 ILP(Instruction Level Parallelism) 능력을 잘 활용할 수 있도록 충분한 크기의 루프 몸체를 가지며 또한 빨리 루프를 탈출 할 수 있는 조건 분기를 갖는 단일 루프로 변환한 후에, 모듈로 스케줄링 기법을 적용하여 VLIW 기반 프로세서에서 최적화 스케줄링 구현을 한다. 제안된 구현 방안을 TMS320C6713에서 구현하고, 코드 크기 및 수행 시간에 대한 성능 분석을 하였다. 구현된 최적화 SAD 루틴은 코드 크기도 크지 않아 임베디드 응용에 적합하며, 이 SAD 구현을 사용한 H.263 인코더가 그렇지 않은 H.263 인코더보다 훨씬 좋은 성능을 보임을 실험을 통해 확인하였다.

CRT를 이용한 하이래딕스 RSA 모듈로 멱승 처리기의 구현 (Implementation of High-radix Modular Exponentiator for RSA using CRT)

  • 이석용;김성두;정용진
    • 정보보호학회논문지
    • /
    • 제10권4호
    • /
    • pp.81-93
    • /
    • 2000
  • 본 논문에서는 RSA 암호 시스템의 핵심 연산인 모듈로 멱승의 처리속도를 향상시키기 위한 방법으로 하이래딕스 (High-Radix) 연산 방식과 CRT(Chinese Remainder Theorem)를 적용한 새로운 하드웨어 구조를 제안한다. 모듈로 멱승의 기본 연산인 모듈로 곱셈은 16진 연산 방법을 사용하여 PE(Processing Element)의 개수를 1/4고 줄임으로써, 기존의 이 진 연산 방식에 비해 클럭 수차 파이프라이닝 플립플롭의 지연시간을 1/4로 줄였다. 복호화시에는 합성수인 계수 N 의 인수, p, q를 알고 있는 점을 이용하여 속도를 향상시키는 일반적인 방법인 CRT 알고리즘을 적용하였다. 즉, s비트 의 키에 대해, s/2비트 모듈로 곱셈기 두 개를 병렬로 동시 수행함으로써 처리 속도를 CRT를 사용하지 않을 때보다 4 배정도 향상시켰다. 암호화의 경우는 두 개의 s/2비트 모듈로 곱셈기를 직렬로 연결하여 s/비트에 대한 연산이 가능하도록 하였으며 공개키는 E는 17비트까지의 지수를 허용하여 빠른 속도를 유지하였다. 모듈로 곱셈은 몽고메리 알고리즘을 변형하여 사용하였으며, 그 내부 계산 구조를 보여주는 데이터 종속 그래프(Dependence Graph)를 수평으로 매핑하여 1차원 선형 어레이 구조로 구성하였다. 그 결과 삼성 0.5um CMOS 스탠다드 셀 라이브러리를 근거로 산출한 때, 1024 비트 RSA 연산에 대해서 160Mhz의 클럭 주파수로 암호화 시에 15Mbps, 복호화 시에 1.22Mbs의 성능을 가질 것으로 예측되며, 이러한 성능은 지금가지 발표된 국내의의 어느 논문보다도 빠른 RSA 처리 시간이다.