• 제목/요약/키워드: 학습강화

검색결과 1,581건 처리시간 0.022초

원격지도학습데이터의 오류를 처리하는 강화학습기반 관계추출 모델 (Relation Extraction Model for Noisy Data Handling on Distant Supervision Data based on Reinforcement Learning)

  • 윤수지;남상하;김은경;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.55-60
    • /
    • 2018
  • 기계학습 기반인 관계추출 모델을 설계할 때 다량의 학습데이터를 빠르게 얻기 위해 원격지도학습 방식으로 데이터를 수집한다. 이러한 데이터는 잘못 분류되어 학습데이터로 사용되기 때문에 모델의 성능에 부정적인 영향을 끼칠 수 있다. 본 논문에서는 이러한 문제를 강화학습 접근법을 사용해 해결하고자 한다. 본 논문에서 제안하는 모델은 오 분류된 데이터로부터 좋은 품질의 데이터를 찾는 문장선택기와 선택된 문장들을 가지고 학습이 되어 관계를 추출하는 관계추출기로 구성된다. 문장선택기는 지도학습데이터 없이 관계추출기로부터 피드백을 받아 학습이 진행된다. 이러한 방식은 기존의 관계추출 모델보다 좋은 성능을 보여주었고 결과적으로 원격지도학습데이터의 단점을 해결한 방법임을 보였다.

  • PDF

강화학습에서 점진적인 심화를 이용한 고누게임의 개선 (Improvement of the Gonu game using progressive deepening in reinforcement learning)

  • 신용우
    • 한국게임학회 논문지
    • /
    • 제20권6호
    • /
    • pp.23-30
    • /
    • 2020
  • 게임에서는 많은 경우의 수들을 가지고 있다. 그래서 학습을 많이 하여야 한다. 본 논문은 학습속도를 개선하기 위하여 강화학습을 이용했다. 그러나 강화학습은 많은 경우의 수들을 가지므로 학습 초기에 속도가 느려진다. 그래서 미니맥스 알고리즘을 이용하여 학습의 속도를 향상하였다. 개선된 성능을 비교하기 위해 고누게임을 제작하여 실험하였다. 실험결과는 승률은 높았지만, 동점의 결과가 발생하게 되었다. 점진적인 심화를 이용하여 게임트리를 더 탐색하여 동점인 경우를 줄이고 승률이 약 75% 향상되었다.

스마트 빌딩 시스템을 위한 심층 강화학습 기반 양방향 전력거래 협상 기법 (Bi-directional Electricity Negotiation Scheme based on Deep Reinforcement Learning Algorithm in Smart Building Systems)

  • 이동구;이지영;경찬욱;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권5호
    • /
    • pp.215-219
    • /
    • 2021
  • 본 논문에서는 스마트 빌딩 시스템과 전력망이 각각의 전력거래 희망가격을 제안하고 조정하는 양방향 전력거래 협상 기법에 심층 강화학습 기법을 적용한 전력거래 기법을 제안한다. 심층 강화학습 기법 중 하나인 deep Q network 알고리즘을 적용하여 스마트 빌딩과 전력망의 거래 희망가격을 조정하도록 하였다. 제안하는 심층 강화학습 기반 양방향 전력거래 협상 알고리즘은 학습과정에서 평균 43.78회의 협상을 통해 가격 협의에 이르는 것을 실험을 통해 확인하였다. 또한, 본 연구에서 설정한 협상 시나리오에 따라 스마트 빌딩과 전력망이 거래 희망가격을 조정하는 과정을 실험을 통해 확인하였다.

Self-Imitation Learning을 이용한 개선된 Deep Q-Network 알고리즘 (Improved Deep Q-Network Algorithm Using Self-Imitation Learning)

  • 선우영민;이원창
    • 전기전자학회논문지
    • /
    • 제25권4호
    • /
    • pp.644-649
    • /
    • 2021
  • Self-Imitation Learning은 간단한 비활성 정책 actor-critic 알고리즘으로써 에이전트가 과거의 좋은 경험을 활용하여 최적의 정책을 찾을 수 있도록 해준다. 그리고 actor-critic 구조를 갖는 강화학습 알고리즘에 결합되어 다양한 환경들에서 알고리즘의 상당한 개선을 보여주었다. 하지만 Self-Imitation Learning이 강화학습에 큰 도움을 준다고 하더라도 그 적용 분야는 actor-critic architecture를 가지는 강화학습 알고리즘으로 제한되어 있다. 본 논문에서 Self-Imitation Learning의 알고리즘을 가치 기반 강화학습 알고리즘인 DQN에 적용하는 방법을 제안하고, Self-Imitation Learning이 적용된 DQN 알고리즘의 학습을 다양한 환경에서 진행한다. 아울러 그 결과를 기존의 결과와 비교함으로써 Self-Imitation Leaning이 DQN에도 적용될 수 있으며 DQN의 성능을 개선할 수 있음을 보인다.

고속도로 자율주행 시 보상을 최대화하기 위한 강화 학습 활성화 함수 비교 (Comparison of Reinforcement Learning Activation Functions to Maximize Rewards in Autonomous Highway Driving)

  • 이동철
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권5호
    • /
    • pp.63-68
    • /
    • 2022
  • 자율주행 기술은 최근 심층 강화학습의 도입으로 큰 발전을 이루고 있다. 심층 강화 학습을 효과적으로 사용하기 위해서는 적절한 활성화 함수를 선택하는 것이 중요하다. 그 동안 많은 활성화 함수가 제시되었으나 적용할 환경에 따라 다른 성능을 보여주었다. 본 논문은 고속도로에서 자율주행을 학습하기 위해 강화 학습을 사용할 때 어떤 활성화 함수를 사용하는 것이 효과적인지 12개의 활성화 함수 성능을 비교 평가한다. 이를 위한 성능 평가 방법을 제시하였고 각 활성화 함수의 평균 보상 값을 비교하였다. 그 결과 GELU를 사용할 경우 가장 높은 평균 보상을 얻을 수 있었으며 SiLU는 가장 낮은 성능을 보여주었다. 두 활성화 함수의 평균 보상 차이는 20%였다.

사이버가정학습 효과성에 대한 연구 (A Study on the Effectiveness of the Cyber Home Learning System)

  • 배영권;고대곤
    • 정보교육학회논문지
    • /
    • 제12권3호
    • /
    • pp.253-265
    • /
    • 2008
  • 최근 교육현장에서는 사교육비 절감과 소외계층에 대한 교육복지 효과를 위해 교육 정책적으로 사이버가정학습을 전국적으로 실시하고 있다. 이에 본 연구는 현재 시행되고 있는 사이버가정학습의 효과성을 검토하기 위하여 OO시 교육청 산하의 초, 중등학교의 학생, 사이버교사를 상대로 온라인 설문을 실시하여 그 효과성을 검증하였다. 연구 결과 현재 시행되고 있는 사이버가정학습에 대해 전반적인 만족도와 효과성은 높은 것으로 들어났으며 보다 효과적인 사이버가정학습이 되기 위해서는 단위학교 학습을 확대 실시할 필요가 있으며, 교사 연수 강화와 사이버교사에 대한 인센티브 강화, 사이버가정학습에 대한 홍보 강화, 다양한 교육정보 및 콘텐츠 제공이 필요하고 커뮤니티, 쪽지, 채팅 등의 다양한 활동이 강화될 필요가 있음을 알 수 있었다. 본 연구를 통해 보다 효과적인 사이버가정학습이 정착되도록 하는데 작은 밑거름이 되기를 기대한다.

  • PDF

多入力 시스템의 자율학습제어를 위한 차등책임 적응비평학습 (Differentially Responsible Adaptive Critic Learning ( DRACL ) for the Self-Learning Control of Multiple-Input System)

  • 김형석
    • 전자공학회논문지S
    • /
    • 제36S권2호
    • /
    • pp.28-37
    • /
    • 1999
  • 재 강화 학습 방법을 다수의 제어입력을 가진 시스템에 대한 자율적 제어 기법 습득에 활용하기 위해서 차등책임 적응비평 학습구조를 제안하였다. 재 강화 학습은 여러 단계의 제어동작 끝에 얻어지는 최종 비평값을 활용하여 그 전에 행해졌던 제어 동작을 강화 혹은 약화 학습하는 자율적 학습방법이다. 대표적인 재강화학습 방법은 적응비평학습 구조를 이용하는 방법인데 비평모듈과 동작모듈을 이용하여 외부 비평 값을 최대로 활용함으로써 학습효과를 극대화시키는 방법이다. 이 학습방법에서는 단일한 제어입력을 갖는 시스템으로만 적용이 제한된다는 단점이 있다. 제안한 차등책임 적응비평 학습 구조에서는 비평함수를 제어 입력 인자의 함수로 구축한 다음 제어인자에 대한 차별 화된 비평 값을 부분미분을 통하여 산출함으로써 다수의 제어입력을 가진 시스템의 제어기술 학습이 가능하게 하였다. 제안한 학습제어 구조는 학습속도가 빠른 CMAC 신경회로망을 이용하여 구축하였으며 2개의 제어입력을 갖는 2-D Cart-Pole 시스템과 3 개의 제어입력을 갖는 인간구조 로봇시스템의 앉는 동작의 학습제어 시뮬레이션을 통하여 효용성을 확인하였다.

  • PDF

RLS 기반 Actor-Critic 학습을 이용한 로봇이동 (Robot Locomotion via RLS-based Actor-Critic Learning)

  • 김종호;강대성;박주영
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2005년도 추계학술대회 학술발표 논문집 제15권 제2호
    • /
    • pp.234-237
    • /
    • 2005
  • 강화학습을 위한 많은 방법 중 정책 반복을 이용한 actor-critic 학습 방법이 많은 적용 사례를 통해서 그 가능성을 인정받고 있다. Actor-critic 학습 방법은 제어입력 선택 전략을 위한 actor 학습과 가치 함수 근사를 위한 critic 학습이 필요하다. 본 논문은 critic의 학습을 위해 빠른 수렴성을 보장하는 RLS(recursive least square)를 사용하고, actor의 학습을 위해 정책의 기울기(policy gradient)를 이용하는 새로운 알고리즘을 제안하였다. 그리고 이를 실험적으로 확인하여 제안한 논문의 성능을 확인해 보았다.

  • PDF

컴퓨터 대수체계(CAS) Module이 포함된 graphing Calculator를 활용한 교실 수업모형 -연립 일차방정식과 이차함수를 중심으로, Casio fx2.0-

  • 허만성
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제10권
    • /
    • pp.505-517
    • /
    • 2000
  • 수학 학습에서 컴퓨터와 계산기의 활용은 시각화의 강화로부터 직관력과 사고력의 향상을 가져왔다. 컴퓨터 대수체계(Computer Algebra System)가 탑재된 수학 학습용 컴퓨터 프로그램과 계산기가 활발히 사용되고 있으며, 교수매체로서의 활용은 지식 정보전달 체계와 학습자의 지식 구성방법에 새로운 패러다임을 형성하였다. 특히 수학학습용 그래픽 계산기(Graphing Calculator)는 휴대형(Hand-held Technology)으로 학습공간의 이동(Mobil Education)이 가능하며, 수학학습 전용기라는데 의미를 둘 수 있다. Symbolic Graphing Calculator를 활용한 수업에서 학습자는 계산기를 가지고, 기호연산 실행 조작을 통해 자신의 사고과정을 표현하고, Symbolic Graphing Calculator는 실행 조작에 즉각적으로 과정과 결과를 제공하며, 다른 표상과 상호작용을 함으로써 학습자 스스로의 규제가 강화된 과정을 통해 지식을 구성하게 된다. 이때 교사는 지식 정보전달 체계인 대화형 실행매체(IMTs)를 작성하여 학습자의 지식 형성에 안내자의 역할을 하게 된다. 이번 워크샵에서는 CASIO fx 2.0을 활용한 교실 수업모형을 그래프 표상과 연계한 방정식의 풀이과정을 통해 알아본다.

  • PDF

강화 학습을 이용한 자율주행 차량의 횡 방향 제어 (Lateral Control of An Autonomous Vehicle Using Reinforcement Learning)

  • 이정훈;오세영;최두현
    • 전자공학회논문지C
    • /
    • 제35C권11호
    • /
    • pp.76-88
    • /
    • 1998
  • 강화 학습은 이산적인 공간을 가상하여 많은 연구가 행해졌지만, 많은 실제적인 제어 문제는 연속적인 공간에서 이루어진다. 평가 함수와 행동 함수를 연속함수로 하면 강화 학습 구조를 연속 공간에서 사용할 수 있다. 그러나 이 경우 두 가지 고려해야 할 점이 있다. 하나는 어떤 종류의 함수 표현 법을 사용할 것인가 하는 문제고, 다른 하나는 첨가하는 잡음의 양을 결정하는 것이다. 평가 함수와 정책 함수(제어기)에는 신경회로를 사용하였다. 강화 예측기로 다음 순간의 강화 신호를 예측하고, 아울러 첨가하는 잡음의 양도 결정하였다. 제안된 강화 학습 구조를 사용하여 차량의 횡 방향 제어 모의 실험에서 온라인 학습의 특성을 확인하였다. 제안된 구조를 실차 실험에도 적용하여 유용성과 타당성을 검증하였다.

  • PDF