• 제목/요약/키워드: small hardware

검색결과 560건 처리시간 0.029초

실시간 얼굴 검출을 위한 Cascade CNN의 CPU-FPGA 구조 연구 (Cascade CNN with CPU-FPGA Architecture for Real-time Face Detection)

  • 남광민;정용진
    • 전기전자학회논문지
    • /
    • 제21권4호
    • /
    • pp.388-396
    • /
    • 2017
  • 얼굴 검출에는 다양한 포즈, 빛의 세기, 얼굴이 가려지는 현상 등의 많은 변수가 존재하므로, 높은 성능의 검출 시스템이 요구된다. 이에 영상 분류에 뛰어난 Convolutional Neural Network (CNN)이 적절하나, CNN의 많은 연산은 고성능 하드웨어 자원을 필요로한다. 그러나 얼굴 검출을 위한 소형, 모바일 시스템의 개발에는 저가의 저전력 환경이 필수적이고, 이를 위해 본 논문에서는 소형의 FPGA를 타겟으로, 얼굴 검출에 적절한 3-Stage Cascade CNN 구조를 기반으로하는 CPU-FPGA 통합 시스템을 설계 구현한다. 가속을 위해 알고리즘 단계에서 Adaptive Region of Interest (ROI)를 적용했으며, Adaptive ROI는 이전 프레임에 검출된 얼굴 영역 정보를 활용하여 CNN이 동작해야 할 횟수를 줄인다. CNN 연산 자체를 가속하기 위해서는 FPGA Accelerator를 이용한다. 가속기는 Bottleneck에 해당하는 Convolution 연산의 가속을 위해 FPGA 상에 다수의 FeatureMap을 한번에 읽어오고, Multiply-Accumulate (MAC) 연산을 병렬로 수행한다. 본 시스템은 Terasic사의 DE1-SoC 보드에서 ARM Cortex A-9와 Cyclone V FPGA를 이용하여 구현되었으며, HD ($1280{\times}720$)급 입력영상에 대해 30FPS로 실시간 동작하였다. CPU-FPGA 통합 시스템은 CPU만을 이용한 시스템 대비 8.5배의 전력 효율성을 보였다.

중소형 사이트를 위한 다수의 전면 서버를 갖는 고가용성 웹 서버 클러스터 (High-Availability Web Server Cluster Employing Multiple Front-Ends for Small and Middle-sized Web Sites)

  • 문종배;김명호
    • 정보처리학회논문지A
    • /
    • 제11A권5호
    • /
    • pp.355-364
    • /
    • 2004
  • 인터넷이 새로운 산업의 형태로 발전하면서 웹사이트에 클러스터링 기술을 많이 적용하고 있다. 고성능 하드웨어 스위치를 사용하면 성능이 우수하지만 중소형 사이트를 구성하는 데에는 비용 부담이 많이 된다. 최근에는 무료이면서 성능이 뛰어난 리눅스 가상 서버(Linux Virtual Server)를 이용한 클러스터를 많이 구축하고 있다. 그러나 리눅스 가상 서버는 하나의 전면서버를 가지는 중앙집중식 부하분배 구조이므로 사용자 요청의 급격한 증가로 병목현상을 일으킬 수 있다. 따라서 본 논문에서는 다수의 전면서버를 두어 리눅스 가상 서버의 병목현상을 없애는 방법을 제안한다. 모든 클러스터 노드들은 전면서버와 후면서버의 역할을 모두 할 수 있도록 구성한다. 서버의 부하가 많지 않으면 자기 노드에서 직접 처리하여 사용자에게 응답할 수 있도록 하고, 부하가 많은 경우 부하가 가장 작은 노드를 선택하여 사용자 요청을 전달한다 그리고 클러스터 서버들의 부하를 고려한 스케줄링 알고리즘을 제안하여 서버들 사이의 부하를 고르게 한다. 실험결과 기존 웹 서버 클러스터들은 서버의 수가 증가하면서 성능향상 폭이 감소하지만, 본 논문에서 제안한 웹 서버 클러스터는 선형적으로 증가하는 것을 보였다. 리눅스 가상 서버 환경에서 다수의 전면서버를 구성함으로써 병목현상을 없애고, 비용 부담이 없고 고성능의 중소형 사이트를 구축할 수 있다.

아두이노 멀티 태스킹을 위한 수퍼루프 방식과 FreeRTOS 방식의 비교 분석 (Comparative Analysis between Super Loop and FreeRTOS Methods for Arduino Multitasking)

  • 공동환;신승중
    • 한국인터넷방송통신학회논문지
    • /
    • 제18권6호
    • /
    • pp.133-137
    • /
    • 2018
  • 아두이노는 소형 마이컴으로 다양한 산업에 사용되고 있으며 특히, 오픈소스 하드웨어 IoT 디바이스로 널리 사용되고 있다. 아두이노의 멀티태스킹 방식은 크게 수퍼루프 타이밍과 RTOS 쓰레드 방식으로 나뉘며 수퍼루프 타이밍 방식은 구현이 단순하고 이해하기 쉽다는 장점이 있지만 하나의 작업이 길어지면 다음 작업의 실행에 영향을 줄 수 있다는 단점을 가진다. 또 RTOS 쓰레드 방식은 다른 작업시간에 영향을 받지 않고 실행할 수 있다는 장점을 갖지만 소형 마이컴인 아두이노는 쓰레드의 개수가 늘어나면 쓰레드의 컨텍스트 스위칭타임으로 수퍼루프 타이밍 방식에는 없는 부가 시간이 발생하는 단점이 있다. 본 논문은 이와 같은 서로 다른 특징들을 분석하기 위하여 아두이노 우노 R3와 FreeRTOS를 사용하였으며 실험을 위한 태스크는 빌트인 LED 포트에 8000번의 디지털 신호를 보내도록 작성하였다. 같은 크기의 태스크를 두 방식으로 실행하면 수퍼루프 방식이 FreeRTOS 멀티태스킹 보다 3ms 빠른 실행을 보인다. 여러 개의 태스크를 동시에 실행하면 수퍼루프 방식의 태스크는 순차 실행으로 첫 태스크와 마지막 태스크의 실행시간 차가 크게 나타나며 FreeRTOS 방식은 모두 중첩되어 동시에 실행 가능하지만 30ms 정도의 컨텍스트 스위칭타임의 실행 시간지연이 발생한다.

Low-GloSea6 기상 예측 모델 기반의 비선형 회귀 기법 적용 연구 (A Study on Applying the Nonlinear Regression Schemes to the Low-GloSea6 Weather Prediction Model)

  • 박혜성;조예린;신대영;윤은옥;정성욱
    • 한국정보전자통신기술학회논문지
    • /
    • 제16권6호
    • /
    • pp.489-498
    • /
    • 2023
  • 하드웨어의 성능 및 컴퓨팅 기술의 발전 덕분에 기후환경 변화를 대비하기 위해 기후예측 모델 또한 발전하고 있다. 한국 기상청은 GloSea6를 도입하여 슈퍼컴퓨터를 이용하여 기상 예측을 하고있으며, 각 대학 및 연구 기관에서는 중소규모 서버에서 사용하기 위해 저해상도 결합모델인 Low-GloSea6를 사용하여 기상 연구에 활용하고 있다. 본 논문에서는 중소규모 서버에서의 기상 연구의 원활한 연구를 위해 Low-GloSea6의 Intel VTune Profiler를 사용한 분석을 진행하였으며 1125.987초의 CPU Time을 수행하는 대기모델의 tri_sor_dp_dp 함수를 Hotspot으로 검출하였다. 수치적 연산을 진행하는 기존 함수에 머신러닝 기법의 하나인 비선형 회귀모델을 적용 및 비교하여 머신러닝 적용 가능성을 확인하였다. 기존 tri_sor_dp_dp 함수의 실제 연산되는 값인 1e-3 ~ 1e-20의 범위를 가지는 Output Data인 변수 "Px"를 기준으로 평가하였을때 K-최근접 이웃 회귀 모델은 MAE가 1.3637e-08, SMAPE가 123.2707%로 가장 우수하게 나타났으며 RMSE의 경우 Light Gradient Boosting Machine 회귀 모델이 2.8453e-08로 가장 우수한 성능을 보이는 것으로 측정되었다. 따라서 Low-GloSea6 수행 과정 중 tri_sor_dp_dp 함수의 데이터를 추출 후 비선형 회귀 모델을 적용한 결과로 기존의 tri_sor_dp_dp 함수의 수치적 연산 값과 K-최근접 이웃 회귀 모델을 비교하였을 때 SMAPE가 123.2707%의 오차가 발생하는 것으로 측정되어 기존 모듈의 대체 가능성이 있다는 것을 확인하였다.

다중 SL-AVS 동기화 유지기법 (Multiple SL-AVS(Small size & Low power Around View System) Synchronization Maintenance Method)

  • 박현문;박수현;서해문;박우출
    • 한국시뮬레이션학회논문지
    • /
    • 제18권3호
    • /
    • pp.73-82
    • /
    • 2009
  • CMOS 카메라는 저가격, 저전력, 소형화의 장점을 이용해 휴대폰카메라, 자동차 산업, 의학 및 센서 네트워크, 로봇제어, 보안 분야의 연구에서 이용되고 있다. 특히 다중카메라(Multi-Camera)기반의 $360^{\circ}$ 전방향 카메라(Omni-directional Camera)의 소프트웨어, 통신간섭 및 지연과 복잡한 영상제어 문제가 있으며, 하드웨어 분야에서는 다중카메라의 효율적인 관리 및 소형화의 문제를 지닌다. 기존 시스템은 다수 카메라를 제어하고 카메라 영상을 송수신하기 위해 카메라별 고성능 MCU로 구성된 임베디드 시스템(embedded system)과 별도의 제어 시스템(control system) 같이 다계층 시스템(Multi-layer system)으로 구성된다. 하지만 본 시스템은 단일구조로 저성능 MCU 기반에 고속 동기화기법으로 카메라 제어 및 영상 수집이 가능하도록 SLAVS(Small size/Low power Around View System)을 제안하였다. 화각 $110^{\circ}$ CMOS 카메라 여러 대를 이용하여 $360^{\circ}$전방향을 촬영하는 저성능 MCU로 카메라의 제어 및 영상 수집이 가능한 전방향 카메라 초기모형이다. 결과적으로 저전력 CMOS 카메라 4대를 하나의 MCU에 연결하여 개별 카메라에 대한 동기 유지, 제어 및 송수신을 구현하고 이를 기존의 시스템과 비교하였다. MCU를 통한 개별 인터럽트 처리로 카메라별 동기를 제어, 기억하여 Target과 CMOS 카메라와 MCU간의 재동기를 최소화하여 데이터 전송의 효율성을 높였다. 또한, 사용자 선택에 따라 4개의 영역으로 구분된 영상을 각기 또는 하나로 Target에 제공할 수 있도록 하였다. 마지막으로 개발된 카메라 시스템의 동기 및 데이터 전송 시간, 이미지 데이터 유실 등의 성능 비교, 분석을 하였다.

Memory Organization for a Fuzzy Controller.

  • Jee, K.D.S.;Poluzzi, R.;Russo, B.
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 1993년도 Fifth International Fuzzy Systems Association World Congress 93
    • /
    • pp.1041-1043
    • /
    • 1993
  • Fuzzy logic based Control Theory has gained much interest in the industrial world, thanks to its ability to formalize and solve in a very natural way many problems that are very difficult to quantify at an analytical level. This paper shows a solution for treating membership function inside hardware circuits. The proposed hardware structure optimizes the memoried size by using particular form of the vectorial representation. The process of memorizing fuzzy sets, i.e. their membership function, has always been one of the more problematic issues for the hardware implementation, due to the quite large memory space that is needed. To simplify such an implementation, it is commonly [1,2,8,9,10,11] used to limit the membership functions either to those having triangular or trapezoidal shape, or pre-definite shape. These kinds of functions are able to cover a large spectrum of applications with a limited usage of memory, since they can be memorized by specifying very few parameters ( ight, base, critical points, etc.). This however results in a loss of computational power due to computation on the medium points. A solution to this problem is obtained by discretizing the universe of discourse U, i.e. by fixing a finite number of points and memorizing the value of the membership functions on such points [3,10,14,15]. Such a solution provides a satisfying computational speed, a very high precision of definitions and gives the users the opportunity to choose membership functions of any shape. However, a significant memory waste can as well be registered. It is indeed possible that for each of the given fuzzy sets many elements of the universe of discourse have a membership value equal to zero. It has also been noticed that almost in all cases common points among fuzzy sets, i.e. points with non null membership values are very few. More specifically, in many applications, for each element u of U, there exists at most three fuzzy sets for which the membership value is ot null [3,5,6,7,12,13]. Our proposal is based on such hypotheses. Moreover, we use a technique that even though it does not restrict the shapes of membership functions, it reduces strongly the computational time for the membership values and optimizes the function memorization. In figure 1 it is represented a term set whose characteristics are common for fuzzy controllers and to which we will refer in the following. The above term set has a universe of discourse with 128 elements (so to have a good resolution), 8 fuzzy sets that describe the term set, 32 levels of discretization for the membership values. Clearly, the number of bits necessary for the given specifications are 5 for 32 truth levels, 3 for 8 membership functions and 7 for 128 levels of resolution. The memory depth is given by the dimension of the universe of the discourse (128 in our case) and it will be represented by the memory rows. The length of a world of memory is defined by: Length = nem (dm(m)+dm(fm) Where: fm is the maximum number of non null values in every element of the universe of the discourse, dm(m) is the dimension of the values of the membership function m, dm(fm) is the dimension of the word to represent the index of the highest membership function. In our case then Length=24. The memory dimension is therefore 128*24 bits. If we had chosen to memorize all values of the membership functions we would have needed to memorize on each memory row the membership value of each element. Fuzzy sets word dimension is 8*5 bits. Therefore, the dimension of the memory would have been 128*40 bits. Coherently with our hypothesis, in fig. 1 each element of universe of the discourse has a non null membership value on at most three fuzzy sets. Focusing on the elements 32,64,96 of the universe of discourse, they will be memorized as follows: The computation of the rule weights is done by comparing those bits that represent the index of the membership function, with the word of the program memor . The output bus of the Program Memory (μCOD), is given as input a comparator (Combinatory Net). If the index is equal to the bus value then one of the non null weight derives from the rule and it is produced as output, otherwise the output is zero (fig. 2). It is clear, that the memory dimension of the antecedent is in this way reduced since only non null values are memorized. Moreover, the time performance of the system is equivalent to the performance of a system using vectorial memorization of all weights. The dimensioning of the word is influenced by some parameters of the input variable. The most important parameter is the maximum number membership functions (nfm) having a non null value in each element of the universe of discourse. From our study in the field of fuzzy system, we see that typically nfm 3 and there are at most 16 membership function. At any rate, such a value can be increased up to the physical dimensional limit of the antecedent memory. A less important role n the optimization process of the word dimension is played by the number of membership functions defined for each linguistic term. The table below shows the request word dimension as a function of such parameters and compares our proposed method with the method of vectorial memorization[10]. Summing up, the characteristics of our method are: Users are not restricted to membership functions with specific shapes. The number of the fuzzy sets and the resolution of the vertical axis have a very small influence in increasing memory space. Weight computations are done by combinatorial network and therefore the time performance of the system is equivalent to the one of the vectorial method. The number of non null membership values on any element of the universe of discourse is limited. Such a constraint is usually non very restrictive since many controllers obtain a good precision with only three non null weights. The method here briefly described has been adopted by our group in the design of an optimized version of the coprocessor described in [10].

  • PDF

Design and Implementation of IoT based Low cost, Effective Learning Mechanism for Empowering STEM Education in India

  • Simmi Chawla;Parul Tomar;Sapna Gambhir
    • International Journal of Computer Science & Network Security
    • /
    • 제24권4호
    • /
    • pp.163-169
    • /
    • 2024
  • India is a developing nation and has come with comprehensive way in modernizing its reducing poverty, economy and rising living standards for an outsized fragment of its residents. The STEM (Science, Technology, Engineering, and Mathematics) education plays an important role in it. STEM is an educational curriculum that emphasis on the subjects of "science, technology, engineering, and mathematics". In traditional education scenario, these subjects are taught independently, but according to the educational philosophy of STEM that teaches these subjects together in project-based lessons. STEM helps the students in his holistic development. Youth unemployment is the biggest concern due to lack of adequate skills. There is a huge skill gap behind jobless engineers and the question arises how we can prepare engineers for a better tomorrow? Now a day's Industry 4.0 is a new fourth industrial revolution which is an intelligent networking of machines and processes for industry through ICT. It is based upon the usage of cyber-physical systems and Internet of Things (IoT). Industrial revolution does not influence only production but also educational system as well. IoT in academics is a new revolution to the Internet technology, which introduced "Smartness" in the entire IT infrastructure. To improve socio-economic status of the India students must equipped with 21st century digital skills and Universities, colleges must provide individual learning kits to their students which can help them in enhancing their productivity and learning outcomes. The major goal of this paper is to present a low cost, effective learning mechanism for STEM implementation using Raspberry Pi 3+ model (Single board computer) and Node Red open source visual programming tool which is developed by IBM for wiring hardware devices together. These tools are broadly used to provide hands on experience on IoT fundamentals during teaching and learning. This paper elaborates the appropriateness and the practicality of these concepts via an example by implementing a user interface (UI) and Dashboard in Node-RED where dashboard palette is used for demonstration with switch, slider, gauge and Raspberry pi palette is used to connect with GPIO pins present on Raspberry pi board. An LED light is connected with a GPIO pin as an output pin. In this experiment, it is shown that the Node-Red dashboard is accessing on Raspberry pi and via Smartphone as well. In the final step results are shown in an elaborate manner. Conversely, inadequate Programming skills in students are the biggest challenge because without good programming skills there would be no pioneers in engineering, robotics and other areas. Coding plays an important role to increase the level of knowledge on a wide scale and to encourage the interest of students in coding. Today Python language which is Open source and most demanding languages in the industry in order to know data science and algorithms, understanding computer science would not be possible without science, technology, engineering and math. In this paper a small experiment is also done with an LED light via writing source code in python. These tiny experiments are really helpful to encourage the students and give play way to learn these advance technologies. The cost estimation is presented in tabular form for per learning kit provided to the students for Hands on experiments. Some Popular In addition, some Open source tools for experimenting with IoT Technology are described. Students can enrich their knowledge by doing lots of experiments with these freely available software's and this low cost hardware in labs or learning kits provided to them.

비선형 감마 커브 구현을 위한 작은 크기와 4bit(LSB) 오차를 가진 10비트 감마 라인 시스템의 설계 (Design of 10bit gamma line system with small size of gate count and 4bit error(LSB) to implement non-linear gamma curve)

  • 장원우;김현식;이성목;김인규;강봉순
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.353-356
    • /
    • 2005
  • 이 논문에서, 제시된 감마$({\gamma})$ 라인 시스템은 해당 공식에 의해 만들어진 비선형 감마 곡선과 하드웨어로 구현된 결과 사이의 오차를 최소화하기 위해 만들어졌다. 제시된 알고리즘과 시스템은 특정 감마값이 2.2, 즉 {0,1}$^{2.2}$에 의해 생성되는 공식과 입, 출력 데이터 크기가 10bit를 기반으로 한다. 오차를 최소화하기 위해, 시스템은 데이터 점들 사이를 지나 적합한 다항식을 만드는 수치해석 방법, 최소 자승 다항식을 사용하였다. 제한된 감마 라인은, 정밀도를 높이기 위해, 서로 각각의 중첩된 범위를 가지는 2차 다항식 9개로 구성되어 있다. $MATLAB^{TM}$ 7.0으로 검증된 알고리즘을 바탕으로, 제한된 시스템은 Verilog-HDL으로 구현되었다. 시스템은 2클럭 지연을 가지며 1 클럭마다 결과가 생성된다. 오차 범위(LSB)는 -4에서 +3이다. 표준편차는 1.287956238을 가진다. 시스템의 전체 게이트 값은 2,083이며, 최대 타이밍은 15.56[ns] 이다.

  • PDF

공간-주파수 OFDM 전송 다이버시티 기법 기반 무선 LAN 기저대역 프로세서의 구현 (Implementation of WLAN Baseband Processor Based on Space-Frequency OFDM Transmit Diversity Scheme)

  • 정윤호;노승표;윤홍일;김재석
    • 대한전자공학회논문지SD
    • /
    • 제42권5호
    • /
    • pp.55-62
    • /
    • 2005
  • 본 논문에서는 공간-주파수 OFDM (SF-OFDM) 기법을 위한 효율적인 심볼 검출 알고리즘이 제안되고, 이를 기반으로 하는 SF-OFDM 무선 LAN 기저대역 프로세서의 구현 결과가 제시된다. SF-OFDM 기법에서 부반송파의 개수가 적은 경우 부채널간 간섭이 발생하게 되며, 이러한 간섭은 다이버시티 시스템의 성능을 크게 저하시킨다. 제안된 알고리즘은 부채널간 간섭을 병렬적으로 제거함으로써 기존 알고리즘에 비해 큰 성능 이득을 얻는다. 컴퓨터 모의실험을 통한 비트오류율 (BER) 성능 평가 결과 두개의 송${\cdot}$수신 안테나를 사용하는 경우 10-4의 BER에서 기존 알고리즘에 비해 약 3 dB의 성능이득을 얻음을 확인하였다. 제안된 심볼 검출 알고리즘이 적용된 SF-OFDM 무선 LAN 시스템의 패킷오류율 (PER), link throughput 및 coverage 성능이 분석되었다. 최대 전송률의 $80\%$를 목표 throughput으로 설정 했을 때, SF-OFDM 기반 무선 LAN 시스템은 기존의 IEEE 802.11a 무선 LAN 시스템에 비해 약 5.95 dB의 SNR 이득과 3.98 미터의 coverage 이득을 얻을 수 있었다. 제안된 알고리즘이 적용된 SF-OFDM 무선 LAN 기저대역 프로세서는 하드웨어 설계 언어를 통해 설계되었으며, 0.18um 1.8V CMOS 표준 셀 라이브러리를 통해 합성되었다. 제시된 division-free 하드웨어 구조와 함께, 구현된 프로세서의 총 게이트 수는 약 945K개였으며, FPGA 테스트 시스템을 통해 실시간 검증 및 평가되었다.

Big Data Based Dynamic Flow Aggregation over 5G Network Slicing

  • Sun, Guolin;Mareri, Bruce;Liu, Guisong;Fang, Xiufen;Jiang, Wei
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권10호
    • /
    • pp.4717-4737
    • /
    • 2017
  • Today, smart grids, smart homes, smart water networks, and intelligent transportation, are infrastructure systems that connect our world more than we ever thought possible and are associated with a single concept, the Internet of Things (IoT). The number of devices connected to the IoT and hence the number of traffic flow increases continuously, as well as the emergence of new applications. Although cutting-edge hardware technology can be employed to achieve a fast implementation to handle this huge data streams, there will always be a limit on size of traffic supported by a given architecture. However, recent cloud-based big data technologies fortunately offer an ideal environment to handle this issue. Moreover, the ever-increasing high volume of traffic created on demand presents great challenges for flow management. As a solution, flow aggregation decreases the number of flows needed to be processed by the network. The previous works in the literature prove that most of aggregation strategies designed for smart grids aim at optimizing system operation performance. They consider a common identifier to aggregate traffic on each device, having its independent static aggregation policy. In this paper, we propose a dynamic approach to aggregate flows based on traffic characteristics and device preferences. Our algorithm runs on a big data platform to provide an end-to-end network visibility of flows, which performs high-speed and high-volume computations to identify the clusters of similar flows and aggregate massive number of mice flows into a few meta-flows. Compared with existing solutions, our approach dynamically aggregates large number of such small flows into fewer flows, based on traffic characteristics and access node preferences. Using this approach, we alleviate the problem of processing a large amount of micro flows, and also significantly improve the accuracy of meeting the access node QoS demands. We conducted experiments, using a dataset of up to 100,000 flows, and studied the performance of our algorithm analytically. The experimental results are presented to show the promising effectiveness and scalability of our proposed approach.