통합 검색 | Korea Science

강화학습의 학습 가속을 위한 함수 근사 방법 (Function Approximation for accelerating learning speed in Reinforcement Learning)

이영아;정태충
- 한국지능시스템학회논문지
- /
- 제13권6호
- /
- pp.635-642
- /
- 2003
강화학습은 제어, 스케쥴링 등 많은 응용분야에서 성공적인 학습 결과를 얻었다. 기본적인 강화학습 알고리즘인 Q-Learning, TD(λ), SARSA 등의 학습 속도의 개선과 기억장소 등의 문제를 해결하기 위해서 여러 함수 근사방법(function approximation methods)이 연구되었다. 대부분의 함수 근사 방법들은 가정을 통하여 강화학습의 일부 특성을 제거하고 사전지식과 사전처리가 필요하다. 예로 Fuzzy Q-Learning은 퍼지 변수를 정의하기 위한 사전 처리가 필요하고, 국소 최소 자승법은 훈련 예제집합을 이용한다. 본 논문에서는 온-라인 퍼지 클러스터링을 이용한 함수 근사 방법인 Fuzzy Q-Map을 제안하다. Fuzzy Q-Map은 사전 지식이 최소한으로 주어진 환경에서, 온라인으로 주어지는 상태를 거리에 따른 소속도(membership degree)를 이용하여 분류하고 행동을 예측한다. Fuzzy Q-Map과 다른 함수 근사 방법인 CMAC와 LWR을 마운틴 카 문제에 적용하여 실험 한 결과 Fuzzy Q-Map은 훈련예제를 사용하지 않는 CMAC보다는 빠르게 최고 예측율에 도달하였고, 훈련 예제를 사용한 LWR보다는 낮은 예측율을 보였다.
https://doi.org/10.5391/JKIIS.2003.13.6.635 인용 PDF KSCI

복수의 부분작업을 처리할 수 있는 확정된 Q-Learning (Extended Q-Learning under Multiple Subtasks)

오도훈;이현숙;오경환
- 인지과학
- /
- 제12권1_2호
- /
- pp.25-34
- /
- 2001
지식을 관리하는 것에 주력했던 기존의 인공지능 연구 방향은 동적으로 움직이는 외부 환경에서 적응할 수 있는 시스템 구축으로 변화하고 있다. 이러한 시스템의 기본 능력을 이루는 많은 학습방법 중에서 비교적 최근에 제시된 강화학습은 일반적인 사례에 적용하기 쉽고 동적인 환경에서 뛰어난 적응 능력을 보여주었다. 이런 장점을 바탕으로 강화학습은 에이전트 연구에 많이 사용되고 있다. 하지만, 현재까지 연구결과는 강화학습으로 구축된 에이전트로 해결할 수 있는 작업의 난이도에 한계가 있음을 보이고 있다. 특히, 복수의 부분 작업으로 구성되어 있는 작업을 처리할 경우에 기본의 강화학습 방법은 문제 해결에 한계를 보여주고 있다. 본 논문에서는 복수의 부분 작업으로 구성된 작업이 왜 처리하기 힘든가를 분석하고, 이런 문제를 처리할 수 있는 방안을 제안한다. 본 논문에서 제안하고 있는 EQ-Learning의 강화학습 방법의 대표적인 Q-Learning을 확장시켜 문제를 해결한다. 이 방법은 각각의 부분 작업 해결 방안을 학습시키고 그 학습 결과들의 적절한 순서를 찾아내 전체 작업을 해결한다. EQ-Learning의 타당성을 검증하기 위해 격자 공간에서 복수의 부분작업으로 구성된 미로 문제를 통하여 실험하였다.
PDF

Y-HisOnto: Q&A 시스템에서의 활용을 위한 역사 온톨로지 모형 (Y-HisOnto: A History Ontology Model for Q&A System)

이인근;정재은;황도삼
- 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
- /
- 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
- /
- pp.156-159
- /
- 2013
본 논문에서는 시간 개념이 포함된 역사적 지식을 표현할 수 있는 사건 온톨로지(event ontology) 기반의 역사 온톨로지 모형인 Y-HisOnto 를 제안한다. 제안한 역사 온톨로지 모형은 기존의 온톨로지에서 사용되는 이진 관계(binary-relationship)로 표현된 단편적 지식들을 조합하여 다진 관계(n-ary relationship)를 이용하여 역사적 사건 관련 지식을 표현한다. 제안한 온톨로지 모형에 기반하여 사건 중심의 지식을 온톨로지로 구축하고, 사건 관련 질의에 대해 온톨로지 논리 검색 실험을 수행함으로써 제안한 온톨로지 모형이 Q&A 시스템에서 효과적으로 활용될 수 있음을 확인한다.
PDF

과학기술위성 2호 탑재체데이터 수신시스템의 성능 시험 (Performance Test of Paylad Data Receiving Equipment for STSAT-2)

이종주;서인호;이철;오치욱;김경희;박성옥
- 한국항공우주학회지
- /
- 제35권4호
- /
- pp.347-352
- /
- 2007
논문에서는 과학기술위성 2호용으로 개발된 탑재체데이터 수신시스템(Data Receiving Equipment, DRE)을 소개하고 개발된 준비행모델(Proto Flight Model, PFM)에서의 기능 및 성능 시험 결과를 제시 한다. 탑재체데이터 수신시스템은 X 대역 수신기, 데이터 합성장치(Data Combine Equipment, DCE)와 수신 저장 컴퓨터(Receiving and Archiving Computer, RAC)로 구성되어 있다. DCE는 I&Q 신호 합성기와 ECL 신호 분배기로 구성 된다. RAC은 데이터 수신 카드(Data Receiving Card, DRC)와 소프트웨어인 ST2RAS(STSAT-2 Receiving and Archiving Software, ST2RAS)로 구성된다. X 대역 수신기를 통해서 수신된 I, Q 데이터는 DCE를 통해서 I&Q 데이터로 합성된다. 합성된 데이터는 데이터 수신 카드를 통해서 수신 저장 컴퓨터의 RAID(Redundant Array of Inexpensive Disk)에 저장되고, 이 데이터는 ST2RAS의 전처리를 통해서 위성의 상태 정보와 탑재체 정보로 분리된다. 탑재체데이터 수신시스템에 대한 기능 시험과 열진공 시험을 통해서 10-6 의 BER(Bit Error Rate) 요구사항을 만족하는 결과를 확인하였다.
https://doi.org/10.5139/JKSAS.2007.35.4.347 인용 PDF KSCI

다수 로봇의 목표물 탐색을 위한 Area-Based Q-learning 알고리즘 (Area-Based Q-learning Algorithm to Search Target Object of Multiple Robots)

윤한얼;심귀보
- 한국지능시스템학회논문지
- /
- 제15권4호
- /
- pp.406-411
- /
- 2005
본 논문에서는 다수 로봇의 목표물 탐색을 위한 area-based Q-learning 알고리즘에 대해 논한다. 선험적 정보가 없는 공간내의 목표물을 탐색하기 위해, 로봇들은 주위의 환경을 인식하고 스스로 다음 행동에 대한 결정을 내릴 수 있어야 한다. Area-based Q-learning에서, 먼저 각 로봇은 정육각형을 이루도록 배치된 6개의 적외선 센서를 통해 자신과 주변 환경 사이의 거리를 구한다. 다음으로 이 거리데이터들로부터 6방향의 면적(area)을 계산하여, 보다 넓은 행동반경을 보장해주는 영역으로 이동(action)한다. 이동 후 다시 6방향의 면적을 계산, 이전 상태에서의 이동에 대한 Q-value를 업데이트 한다. 본 논문의 실험에서는 5대의 로봇을 이용하여 선험적 지식이 없고, 장애물이 놓여 있는 공간에서의 목표물 탐색을 시도하였다. 결론에서는 3개의 제어 알고리즘-랜덤 탐색, area-based action making (ABAM), hexagonal area-based Q-learning - 을 이용하여 목표물 탐색을 시도한 결과를 보인다.
https://doi.org/10.5391/JKIIS.2005.15.4.406 인용 PDF KSCI

Electrically tunable current mode high Q- bandpass filter

Tongkulboriboon, Seangrawee;Petchakit, Wijittra;Kiranon, Wiwat
- 제어로봇시스템학회:학술대회논문집
- /
- 제어로봇시스템학회 2005년도 ICCAS
- /
- pp.237-240
- /
- 2005
A novel current mode high Q bandpass filter with electronically tuable values of Q based on second generation current controlled conveyor CCCIIs is presented. The circuit offers the advantages of using a few passive elements. The center frequency and pole-Q can be independently adjusted by via dc bias current of CCCIIs, It is shown from SPICE simulation that the results agree well with theoretical analysis
PDF

로보트 매니퓰레이터에 대한 비선형 제어 (Nonlinear control for robot manipulator)

이종용;이승원;이상효
- 제어로봇시스템학회:학술대회논문집
- /
- 제어로봇시스템학회 1990년도 한국자동제어학술회의논문집(국내학술편); KOEX, Seoul; 26-27 Oct. 1990
- /
- pp.263-268
- /
- 1990
This paper deals with the manipulator with actuator described by equation D over bar(q) $q^{...}$ = u-p over bar (q, $q^{.}$, $q^{..}$) with a control input u. We imploy a simple method of control design which bas two stages. First, a global linearization is performed to yield a decoupled controllable linear system. Then a controller is designed for this linear system. We provide a rigorous analysis Of the effect of uncertain dynamics, which we study using robustness results In time domain based on a Lyapunav equation and the total stability theorem. I)sing this approach we simulate the performance of controller about a robotic manipulator with actuator.tor.r.
PDF

자율 이동 로봇의 주행을 위한 영역 기반 Q-learning (Region-based Q- learning For Autonomous Mobile Robot Navigation)

차종환;공성학;서일홍
- 제어로봇시스템학회:학술대회논문집
- /
- 제어로봇시스템학회 2000년도 제15차 학술회의논문집
- /
- pp.174-174
- /
- 2000
Q-learning, based on discrete state and action space, is a most widely used reinforcement Learning. However, this requires a lot of memory and much time for learning all actions of each state when it is applied to a real mobile robot navigation using continuous state and action space Region-based Q-learning is a reinforcement learning method that estimates action values of real state by using triangular-type action distribution model and relationship with its neighboring state which was defined and learned before. This paper proposes a new Region-based Q-learning which uses a reward assigned only when the agent reached the target, and get out of the Local optimal path with adjustment of random action rate. If this is applied to mobile robot navigation, less memory can be used and robot can move smoothly, and optimal solution can be learned fast. To show the validity of our method, computer simulations are illusrated.
PDF

심층강화학습 기반 자율주행차량의 차로변경 방법론 (Lane Change Methodology for Autonomous Vehicles Based on Deep Reinforcement Learning)

박다윤;배상훈;;박부기;정보경
- 한국ITS학회 논문지
- /
- 제22권1호
- /
- pp.276-290
- /
- 2023
현재 국내에서는 자율주행차량의 상용화를 목표로 다양한 노력을 기울이고 있으며 자율주행차량이 운영 가이드라인에 따라 안전하고 신속하게 주행할 수 있는 연구들이 대두되고 있다. 본 연구는 자율주행차량의 경로탐색을 미시적인 관점으로 바라보며 Deep Q-Learning을 통해 자율주행차량의 차로변경을 학습시켜 효율성을 입증하고자 한다. 이를 위해 SUMO를 사용하였으며, 시나리오는 출발지에서 랜덤 차로로 출발하여 목적지의 3차로까지 차로변경을 통해 우회전하는 것으로 설정하였다. 연구 결과 시뮬레이션 기반의 차로변경과 Deep Q-Learning을 적용한 시뮬레이션 기반의 차로변경으로 구분하여 분석하였다. 평균 통행 속도는 Deep Q-Learning을 적용한 시뮬레이션의 경우가 적용하지 않은 경우에 비해 약 40% 향상되었으며 평균 대기 시간은 약 2초, 평균 대기 행렬 길이는 약 2.3대 감소하였다.
https://doi.org/10.12815/kits.2023.22.1.276 인용 PDF

Q 학습을 이용한 교통 제어 시스템 (Traffic Control using Q-Learning Algorithm)

장정;승지훈;김태영;정길도
- 한국산학기술학회논문지
- /
- 제12권11호
- /
- pp.5135-5142
- /
- 2011
이 논문에서는 도심 지역의 교통 제어 시스템의 동적 응답 성능 향상을 위하여 적응형 Q-Learning 강화 학습 메커니즘을 설계 하였다. 도로, 자동차, 교통 제어 시스템을 지능 시스템으로 모델링 하고, 자동차와 도로 사이는 무선 통신을 이용한 네트워크가 구성된다. 도로와 대로변에 필요한 센터네트워크가 설치되고 Q-Learning 강화 학습은 제안한 메커니즘의 구현을 위해 핵심 알고리즘으로 채택하였다. 교통 신호 제어 규칙은 자동차와 도로에서 매 시간 업데이트된 정보에 따라서 결정되며, 이러한 방법은 기존의 교통 제어 시스템에 비하여 도로를 효율적으로 활용하며 결과적으로 교통 흐름을 개선 한다. 알고리즘을 활용한 최적의 신호 체계는 온라인상에서 자동으로 학습함으로서 구현된다. 시뮬레이션을 통하여 제안한 알고리즘이 기존 시스템에 비하여 효율성 개선과 차량의 대개 시간에 대한 성능 지수가 모두 30% 이상 향상되었다. 실험 결과를 통하여 제안한 시스템이 교통 흐름을 최적화함을 확인하였다.
https://doi.org/10.5762/KAIS.2011.12.11.5135 인용 PDF KSCI

검색결과 1,012건 처리시간 0.037초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)