• 제목/요약/키워드: Q-학습

검색결과 294건 처리시간 0.035초

기계학습 및 기본 알고리즘 연구 (A Study on Machine Learning and Basic Algorithms)

  • 김동현;이태호;이병준;김경태;윤희용
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.35-36
    • /
    • 2018
  • 본 논문에서는 기계학습 및 기계학습 기법 중에서도 Markov Decision Process (MDP)를 기반으로 하는 강화학습에 대해 알아보고자 한다. 강화학습은 기계학습의 일종으로 주어진 환경 안에서 의사결정자(Agent)는 현재의 상태를 인식하고 가능한 행동 집합 중에서 보상을 극대화할 수 있는 행동을 선택하는 방법이다. 일반적인 기계학습과는 달리 강화학습은 학습에 필요한 사전 지식을 요구하지 않기 때문에 불명확한 환경 속에서도 반복 학습이 가능하다. 본 연구에서는 일반적인 강화학습 및 강화학습 중에서 가장 많이 사용되고 있는 Q-learning 에 대해 간략히 설명한다.

  • PDF

온라인 협력학습 회계수업 적용방안 및 효과에 관한 사례연구 (A Case Study on the Effect of Online Cooperative Learning applied in Accounting Class)

  • 송승아
    • 한국콘텐츠학회논문지
    • /
    • 제22권4호
    • /
    • pp.535-546
    • /
    • 2022
  • 본 연구는 S 대학교의 온라인 협력학습 질의응답에 관한 설문조사 결과를 바탕으로 온라인 비대면 교육 학업성취도 향상을 위한 요소들을 탐색하고자 하였다. 코로나 상황으로 전면 비대면 온라인 수업 시행으로 인한 교수자와 학습자 모두 심리적 고립감을 느끼기 쉬우며 학습 무기력 상태에서 혼자 공부하여야 하고 문제를 해결해 가야 하는 어려운 시기에 온라인 교육의 장점은 살리고 단점은 최소화하는 방법의 하나로 온라인 협력 학습 방법론을 적용한 수업 사례를 공유함으로써 여러 교수자와 학습자에게 미래 교육의 방향성을 제시하고자 하였다. 비대면 온라인 학습과 온라인 협력학습, 학습 촉진 방법론에 관한 선행연구를 검토하였고 구체적인 학습 촉진 방법으로 온라인 질의응답 방법론을 채택하여 연구를 진행하였다. 묻고 답하기(Q&A) 과정에서 학습자는 자신의 학습 내용을 점검하고 지식을 나누고 소통할 기회를 가질 수 있었으며, 질문자와 답변자의 익명성 보장, 향상점수제, 절대평가와 같은 성과평가 관련 요소들이 질의응답을 활용한 온라인 협력학습의 성공 요소로 설문 분석 결과 밝혀졌다. 온라인 비대면 학습이 지속될 가능성이 큰 미래에 실제 적용 가능한 작은 변화이지만 유의미한 교수방법론 적용사례를 공유함으로써 교수자와 학습자 모두에게 능동적이고 적극적으로 학습 현장을 바꾸고 보완해 함께 실력을 향상해 나갈 방법 및 방향성을 제시할 수 있을 것으로 기대한다.

Q-러닝 기반의 선박의 최적 경로 생성 (Generation of Ship's Optimal Route based on Q-Learning)

  • 이형탁;김민규;양현
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2023년도 춘계학술대회
    • /
    • pp.160-161
    • /
    • 2023
  • 현재 선박의 항해계획은 항해사의 지식과 경험적인 방법에 의존하고 있다. 그러나 최근에는 선박 자율운항기술이 발전됨에 따라, 항해계획의 자동화 기술도 여러 가지 방법으로 연구되고 있다. 본 연구에서는 강화학습 기법 중 하나인 Q-러닝을 기반으로 선박 최적 항해 경로를 생성하고자 한다. 강화학습은 다양한 상황에 대한 경험을 학습하고, 이를 기반으로 최적의 결정을 내리는 방식으로 적용된다.

  • PDF

OpenAI Gym 환경의 Acrobot에 대한 DQN 강화학습 (DQN Reinforcement Learning for Acrobot in OpenAI Gym Environment)

  • 강명주
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.35-36
    • /
    • 2023
  • 본 논문에서는 OpenAI Gym 환경에서 제공하는 Acrobot-v1에 대해 DQN(Deep Q-Networks) 강화학습으로 학습시키고, 이 때 적용되는 활성화함수의 성능을 비교분석하였다. DQN 강화학습에 적용한 활성화함수는 ReLU, ReakyReLU, ELU, SELU 그리고 softplus 함수이다. 실험 결과 평균적으로 Leaky_ReLU 활성화함수를 적용했을 때의 보상 값이 높았고, 최대 보상 값은 SELU 활성화 함수를 적용할 때로 나타났다.

  • PDF

고차원 관측자료에서의 Q-학습 모형에 대한 이중강건성 연구 (Doubly-robust Q-estimation in observational studies with high-dimensional covariates)

  • 이효빈;김예지;조형준;최상범
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.309-327
    • /
    • 2021
  • 동적 치료 요법(dynamic treatment regimes; DTRs)은 다단계 무작위 시험에서 개인에 맞는 치료를 제공하도록 설계된 의사결정 규칙이다. 모든 개인이 동일한 유형의 치료를 처방받는 고전적인 방법과 달리 DTR은 시간이 지남에 따라 변할 수 있는 개별 특성을 고려한 환자 맞춤형 치료를 제공한다. 최적의 치료 규칙을 파악하기 위한 회귀 기반 알고리즘 중 하나인 Q-학습 방법은 쉽게 구현될 수 있기 때문에 더욱 인기를 끌고 있다. 그러나 Q-학습 알고리즘의 성능은 Q-함수를 제대로 설정했는지의 여부에 크게 의존한다. 본 논문에서는 고차원 데이터가 수집되는 DTRs 문제에 대한 다양한 이중강건 Q-학습 알고리즘을 연구하고 가중 최소제곱 추정 방법을 제안한다. 이중강건성(double-robustness)은 반응변수에 대한 모형 혹은 처리변수에 대한 모형 둘 중 하나만 제대로 설정되어도 불편추정량을 얻을 수 있음을 의미한다. 다양한 모의실험 연구를 통해 제안된 방법이 여러 시나리오 하에서도 잘 작동함을 확인하였으며 실제 데이터 예제를 통해 방법론에 대한 예시를 제시하였다.

R-Trader: 강화 학습에 기반한 자동 주식 거래 시스템 (R-Trader: An Automatic Stock Trading System based on Reinforcement learning)

  • 이재원;김성동;이종우;채진석
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권11호
    • /
    • pp.785-794
    • /
    • 2002
  • 자동 주식 거래 시스템은 시장 추세의 예측, 투자 종목의 선정, 거래 전략 등 매우 다양한 최적화 문제를 통합적으로 해결할 수 있어야 한다. 그러나 기존의 감독 학습 기법에 기반한 거래 시스템들은 이러한 최적화 요소들의 효과적인 결합에는 큰 비중을 두지 않았으며, 이로 인해 시스템의 궁극적인 성능에 한계를 보인다. 이 논문은 주가의 변동 과정이 마르코프 의사결정 프로세스(MDP: Markov Decision Process)라는 가정 하에, 강화 학습에 기반한 자동 주식 거래 시스템인 R-Trader를 제안한다. 강화 학습은 예측과 거래 전략의 통합적 학습에 적합한 학습 방법이다. R-Trader는 널리 알려진 두 가지 강화 학습 알고리즘인 TB(Temporal-difference)와 Q 알고리즘을 사용하여 종목 선정과 기타 거래 인자의 최적화를 수행한다. 또한 기술 분석에 기반하여 시스템의 입력 속성을 설계하며, 가치도 함수의 근사를 위해 인공 신경망을 사용한다. 한국 주식 시장의 데이타를 사용한 실험을 통해 제안된 시스템이 시장 평균을 초과하는 수익을 달성할 수 있고, 수익률과 위험 관리의 두 가지 측면 모두에서 감독 학습에 기반한 거래 시스템에 비해 우수한 성능 보임을 확인한다.

이산 시간 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 (Q-learning for Adaptive LQ Suboptimal Control of Discrete-time Switched Linear System)

  • 전태윤;최윤호;박진배
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2011년도 제42회 하계학술대회
    • /
    • pp.1874-1875
    • /
    • 2011
  • 본 논문에서는 스위칭 선형 시스템의 적응 LQ 준최적 제어를 위한 Q-학습법 알고리즘을 제안한다. 제안된 제어 알고리즘은 안정성이 증명된 기존 Q-학습법에 기반하며 스위칭 시스템 모델의 변수를 모르는 상황에서도 준최적 제어가 가능하다. 이 알고리즘을 기반으로 기존에 스위칭 시스템에서 고려하지 않았던 각 시스템의 불확실성 및 최적 적응 제어 문제를 해결하고 컴퓨터 모의실험을 통해 제안한 알고리즘의 성능과 결과를 검증한다.

  • PDF

사전 학습 언어 모델을 이용한 한국어 문서 추출 요약 비교 분석 (A Comparative Study on the Korean Text Extractive Summarization using Pre-trained Language Model)

  • 조영래;백광현;박민지;박병훈;신수연
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.518-521
    • /
    • 2023
  • 오늘날 과도한 정보의 양 속에서 디지털 문서 내 중요한 정보를 효율적으로 획득하는 것은 비용 효율의 측면에서 중요한 요구사항이 되었다. 문서 요약은 자연어 처리의 한 분야로서 원본 문서의 핵심적인 정보를 유지하는 동시에 중요 문장을 추출 또는 생성하는 작업이다. 이 중 추출요약은 정보의 손실 및 잘못된 정보 생성의 가능성을 줄이고 요약 가능하다. 그러나 여러 토크나이저와 임베딩 모델 중 적절한 활용을 위한 비교가 미진한 상황이다. 본 논문에서는 한국어 사전학습된 추출 요약 언어 모델들을 선정하고 추가 데이터셋으로 학습하고 성능 평가를 실시하여 그 결과를 비교 분석하였다.

유튜브를 활용한 기초조리실습과목의 플립드러닝 적용사례 연구 (A Case Study of Flipped Learning application of Basics Cooking Practice Subject using YouTube)

  • 신승훈;이경수
    • 한국콘텐츠학회논문지
    • /
    • 제21권5호
    • /
    • pp.488-498
    • /
    • 2021
  • 본 연구는 유튜브를 활용한 기초조리실습교과목에 플립드러닝 교수학습방법을 적용하여 학습 전과 후에 따른 효과를 파악하고 학습과정을 통해 학습자의 주관적인 인식을 분석하여 교육과정이 적절히 진행되고 있는지에 대해 연구하고자 한다. 조사기간은 2020년 08월 01일부터 09월 10일까지 진행되었으며, Q방법론의 연구 설계에 따라 Q표본 선정, P표본 선정, Q소팅, 코딩과 리쿠르팅, 결론 및 논의로 총 5단계로 구분하여 진행하였다. 분석결과 제 1유형(N=5) : 선행학습 효과(Prior Learning effect), 제 2유형(N=7) : 시뮬레이션실습효과(Simulation practice effect), 제 3유형(N=3) : 자기효능감 효과 (self-efficacy effect)로 각각 고유의 특징을 가진 유형으로 분석되었다. 결과적으로 유튜브를 활용한 기초조리실습과목의 플립드러닝 교수학습방법을 적용함으로서 적극적인 학습자들에게는 수업의 흥미유발, 자신감 상승 등의 긍정적인 효과가 나타났으나 일부 학습자의 경우 수업운영방식의 시스템이해 부족, 타 과목에 비해 실습회수 부족 등은 추후 해결되어야 할 방안으로 사료된다.

Q-learning과 Cascade SVM을 이용한 군집로봇의 행동학습 및 진화 (Behavior Learning and Evolution of Swarm Robot System using Q-learning and Cascade SVM)

  • 서상욱;양현창;심귀보
    • 한국지능시스템학회논문지
    • /
    • 제19권2호
    • /
    • pp.279-284
    • /
    • 2009
  • 군집 로봇시스템에서 개개의 로봇은 스스로 주위의 환경과 자신의 상태를 스스로 판단하여 행동하고, 필요에 따라서는 다른 로봇과 협조를 통하여 어떤 주어진 일을 수행할 수 있어야 한다. 따라서 개개의 로봇은 동적으로 변화하는 환경에 잘 적응할 수 있는 학습과 진화능력을 갖는 것이 필수적이다. 본 논문에서는 SVM을 여러 개 이용한 강화학습과 분산유전알고리즘을 이용한 새로운 자율이동로봇의 행동학습 및 진화학습을 제안한다. 또한 개개의 로봇이 통신을 통하여 염색체를 교환하는 분산유전알고리즘은 각기 다른 환경에서 학습한 우수한 염색체로부터 자신의 능력을 향상시킨다. 특히 본 논문에서는 진화의 성능을 향상시키기 위하여 Cascade SVM을 기반으로 한 강화학습의 특성을 이용한 선택 교배방법을 채택하였다.