• 제목/요약/키워드: 결합보상

검색결과 303건 처리시간 0.023초

멀티-스텝 누적 보상을 활용한 Max-Mean N-Step 시간차 학습 (Max-Mean N-step Temporal-Difference Learning Using Multi-Step Return)

  • 황규영;김주봉;허주성;한연희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제10권5호
    • /
    • pp.155-162
    • /
    • 2021
  • n-스텝 시간차 학습은 몬테카를로 방법과 1-스텝 시간차 학습을 결합한 것으로, 적절한 n을 선택할 경우 몬테카를로 방법과 1-스텝 시간차 학습보다 성능이 좋은 알고리즘으로 알려져 있지만 최적의 n을 선택하는 것에 어려움이 있다. n-스텝 시간차 학습에서 n값 선택의 어려움을 해소하기 위해, 본 논문에서는 Q의 과대평가가 초기 학습의 성능을 높일 수 있다는 특징과 Q ≈ Q* 경우, 모든 n-스텝 누적 보상이 비슷한 값을 가진다는 성질을 이용하여 1 ≤ k ≤ n에 대한 모든 k-스텝 누적 보상의 최댓값과 평균으로 구성된 새로운 학습 타겟인 Ω-return을 제안한다. 마지막으로 OpenAI Gym의 Atari 게임 환경에서 n-스텝 시간차 학습과의 성능 비교 평가를 진행하여 본 논문에서 제안하는 알고리즘이 n-스텝 시간차 학습 알고리즘보다 성능이 우수하다는 것을 입증한다.

광 위상 공액이 적용된 비대칭 구조의 분산 제어 링크 (Asymmetric-type Dispersion-managed Link with Optical Phase Conjugation)

  • 이성렬
    • 한국항행학회논문지
    • /
    • 제25권1호
    • /
    • pp.84-89
    • /
    • 2021
  • 표준 단일 모드 광섬유가 가지는 색 분산과 비선형 현상에 의한 광 신호 왜곡을 보상할 수 있는 분산 제어와 광 위상 공액이 결합된 링크의 한계인 대칭적 구조를 해결할 수 있는 방법을 제안하였다. 대칭적 구조는 전반 전송 구간과 후반 전송 구간의 중계 구간수, 분산 분포 등등이 광 위상 공액기를 중심으로 대칭되어야 한다는 것을 의미한다. 본 연구에서 제안하는 분산 제어 링크는 광 위상 공액기가 전반의 6개 중계 구간과 후반의 14개 사이에 존재하고, 각 전송 반 구간에서의 평균 중계 구간 당 잉여 분산 (RDPS; residual dispersion per span)이 서로 동일한 구조이다. 제안된 분산 제어 링크에서의 광 신호 왜곡 보상 효과의 분석은 평균 RDPS가 각 전송 반 구간에서 서로 다르게 설정된 링크에서의 결과와의 비교를 통해 이루어졌다. 시뮬레이션 결과 전송 반 구간 사이의 RDPS 평균값의 동일 여부보다 인접한 중계 구간 간 RDPS 편차가 보상에 더 큰 영향을 미치는 것은 확인하였다.

랜덤-반전 분산 맵으로 설계된 분산 제어 링크를 갖는 MSSI 시스템 (MSSI System with Dispersion-managed Link Configured with Random-inverse Dispersion Maps)

  • 이성렬
    • 한국항행학회논문지
    • /
    • 제27권4호
    • /
    • pp.457-462
    • /
    • 2023
  • 파장 분할 다중 신호와 같은 대용량 광 신호를 장거리 전송하기 위하여 사용되는 MSSI (mid-span spectral inversion)와 분산 제어가 결합된 시스템에서의 융통적인 링크 구성을 제안하고 색 분산과 비선형 왜곡 보상 효과를 높일 수 있는 구체적 방법을 살펴보았다. 분산 제어 링크 구성의 융통성을 높이기 위해 제안된 분산 맵은 'random-inverse' 구조를 갖는다. 즉 광 위상 공액기까지의 전반 구획의 각 광성유 스팬의 RDPS는 랜덤하게 분포되고 후반 구획의 RDPS 분포는 전반 구획의 분포 패턴을 반전하는 구성의 분산 맵이다. 제안된 분산 맵은 RDPS의 랜덤 분포를 가지기는 하지만 결과적으로 광 위상 공액기를 중심으로 분산 프로파일이 대칭이 되는 점에 기인하여 왜곡 보상 효과가 개선되는 것을 확인하였다. 'random-inverse' 구조의 분산 맵에서 각 광섬유 스팬에 할당되는 RDPS의 크기가 큰 경우에서왜곡된 파장 분할 다중 신호의 보상 효과가 더욱커지는 것도 동시에 확인하였다.

Non-midway 광 위상 공액기를 중심으로 중계 구간 당 잉여 분산이 일치하지 않는 분산 제어 링크 (Dispersion-managed Link with Unequally Residual Dispersion per Span with Respect to Non-midway Optical Phase Conjugator)

  • 이성렬
    • 한국항행학회논문지
    • /
    • 제25권6호
    • /
    • pp.517-522
    • /
    • 2021
  • 장거리 파장 분할 시스템을 위해 해결해야 하는 광 색 분산과 비선형 현상에 의한 광 신호 왜곡을 보상할 수 있는 광 위상 공액과 결합된 분산 제어 링크를 네트워크 토폴로지의 유연성 관점에서 제안하고 분석하였다. 비선형 효과에 의해 왜곡되는 광 신호의 보상을 위해 적용된 광 위상 공액기는 전체 전송로 중간이 아닌 곳에 위치시켰다. 그리고 광 위상 공액기를 중심으로 전반 전송 구획과 후반 전송 구획을 구성하는 각각의 중계 구간의 잉여 분산 (RDPS; residual dispersion per span)을 서로 다르게 한 분산 제어 링크를 적용하였다. 각 중계 구간의 RDPS가 전반 전송 구획과 후반 전송 구획의 전체 잉여 분산을 같게 만드는 값이 아닌 그 근처의 서로 다른 값으로 결정되어야 왜곡된 광 신호 보상에 효과적이라는 것을 시뮬레이션 결과를 통해 확인하였다.

Non-midway 광 위상 공액과 비대칭 구조의 분산 맵을 통한 WDM 신호의 왜곡 보상 (Compensation of WDM Signal Distortion through Non-midway Optical Phase Conjugation and Dispersion Maps of Asymmetric Structure)

  • 이성렬
    • 한국항행학회논문지
    • /
    • 제27권6호
    • /
    • pp.855-860
    • /
    • 2023
  • 파장 분할 다중 (WDM; wavelength division multiplexed)과 같은 다중 전송 신호의 장거리 전송은 전송 링크에 분산 제어와 광 위상 공액의 적용, 그리고 이 둘의 결합을 통해 색 분산과 비선형성에 의한 왜곡을 보상할 수 있기 때문에 가능해졌다. 광 위상 공액을 광 전송 링크에 적용하는 데 있어 가장 큰 장애 요소는 핵심 소자인 광 위상 공액기의 위치가 전체 전송 라인 중간에만 위치해야 한다는 것이다. 본 논문은 이러한 OPC의 위치 제약성을 비대칭 분산 맵의 적용을 통해 극복할 수 있다는 것을 보이고 있다. 본 논문에서 고려한 OPC의 위치는 전체 48개의 광섬유 스팬 중 8번째와 9번째 광섬유 스팬 사이에 존재한다. 또한 분산 맵은 OPC를 중심으로 비대칭한 누적 분산 프로파일을 갖는다. 시뮬레이션 결과 제안한 비대칭 분산 맵의 누적 분산 프로파일 분포의 전체적 모양과 프로파일 기울기의 선택에 따라 WDM 채널의 왜곡 보상 효과를 전통적 분산 맵이 적용된 링크에서보다 늘릴 수 있는 것을 확인하였다.

강화 학습에 기초한 로봇 축구 에이전트의 설계 및 구현 (Design and implementation of Robot Soccer Agent Based on Reinforcement Learning)

  • 김인철
    • 정보처리학회논문지B
    • /
    • 제9B권2호
    • /
    • pp.139-146
    • /
    • 2002
  • 로봇 축구 시뮬레이션 게임은 하나의 동적 다중 에이전트 환경이다. 본 논문에서는 그러한 환경 하에서 각 에이전트의 동적 위치 결정을 위한 새로운 강화학습 방법을 제안한다. 강화학습은 한 에이전트가 환경으로부터 받는 간접적 지연 보상을 기초로 누적 보상값을 최대화할 수 있는 최적의 행동 전략을 학습하는 기계학습 방법이다. 따라서 강화학습은 입력-출력 쌍들이 훈련 예로 직접 제공되지 않는 다는 점에서 교사학습과 크게 다르다. 더욱이 Q-학습과 같은 비-모델 기반의 강화학습 알고리즘들은 주변 환경에 대한 어떤 모델도 학습하거나 미리 정의하는 것을 요구하지 않는다. 그럼에도 불구하고 이 알고리즘들은 에이전트가 모든 상태-행동 쌍들을 충분히 반복 경험할 수 있다면 최적의 행동전략에 수렴할 수 있다. 하지만 단순한 강화학습 방법들의 가장 큰 문제점은 너무 큰 상태 공간 때문에 보다 복잡한 환경들에 그대로 적용하기 어렵다는 것이다. 이런 문제점을 해결하기 위해 본 연구에서는 기존의 모듈화 Q-학습방법(MQL)을 개선한 적응적 중재에 기초한 모듈화 Q-학습 방법(AMMQL)을 제안한다. 종래의 단순한 모듈화 Q-학습 방법에서는 각 학습 모듈들의 결과를 결합하는 방식이 매우 단순하고 고정적이었으나 AMMQL학습 방법에서는 보상에 끼친 각 모듈의 기여도에 따라 모듈들에 서로 다른 가중치를 부여함으로써 보다 유연한 방식으로 각 모듈의 학습결과를 결합한다. 따라서 AMMQL 학습 방법은 큰 상태공간의 문제를 해결할 수 있을 뿐 아니라 동적인 환경변화에 보다 높은 적응성을 제공할 수 있다. 본 논문에서는 로봇 축구 에이전트의 동적 위치 결정을 위한 학습 방법으로 AMMQL 학습 방법을 사용하였고 이를 기초로 Cogitoniks 축구 에이전트 시스템을 구현하였다.

WDM 시스템에 적합한 광결정 대역 통과 필터 설계 (Photonic Crystal Based Bandpass Filter Design for WDM Communication Systems)

  • 박동수;김상인;박익모;임한조
    • 한국광학회지
    • /
    • 제16권3호
    • /
    • pp.266-274
    • /
    • 2005
  • 본 논문에서는 2차원 광결정 공진기의 결합을 통해 WDM시스템에 적합한 특성을 가지는 공진 필터를 설계하였다. 공진기간의 결합에 있어서 고려해야 할 요소를 시영역에서의 모드 결합이론(coupling modes in time)을 적용하여 이론적으로 분석하였으며, 전자회로 등가화를 이용하여 쉽게 그 요소를 결정할 수 있음을 보였다. 공진기 결합에 있어서 공진기 간의 간격에 따른 위상천이에 대해서 외부감쇄에 의한 Q-factor를 조정함으로써 보상할 수 있음을 확인하였고, 2차원 광결정 점결함 공진기를 이용하여 500GHz의 대역폭을 가지며 통과대역에서 0.5 dB 리플을 가지는 3차 Chebyshev 대역 통과 필터를 설계하였다.

LID (Lyon Intraoperative Device) 이용한 수술중 방사선치료시 전자선의 선량분포 특성 (The dosimetric Properties of Electron Beam Using Lyon Intraoperative Device for Intraoperative Radiation Therapy)

  • 김계준;박경란;이종영;김희연;성기준;추성실
    • Radiation Oncology Journal
    • /
    • 제10권1호
    • /
    • pp.85-93
    • /
    • 1992
  • 수술중 방사선치료를 환자에 적용하기에 앞서 본원이 보유하고있는 LID를 이용한 전자선의 선량분포 특성을 연구하였다. 이러한 선량 특성에 대한 자료는 적절한 Cone의 모양이나 크기, 에너지를 결정하게하며 빠르고 정확한 계산을 위하여 필요하다. 따라서, 본 저자들은 3-Dimensional Water Phantom Dosimetry System를 이용하여 Cone의 크기, Cone의 모양, 보상필터 사용 유무에 따라 Cone의 출력인자, 조직표면선량, 선축상 최대치 지점, $90\%$의 깊이, 대칭도와 편평도, SSD 보상인자, 선량분포 등을 측정하여 다음과 같은 결과를 얻었다. 1) Cone의 출력인자는 Cone모양에 따라 각각 측정하였으며 Cone의 크기와 에너지가 작을수록 급격하게 감소하는 결과를 보였다. 2) 보상 필터의 하나인 Flattening Filter를 사용한 결과 포면 선량이 6 MeV, 9 MeV, 12 MeV에 대하여 각각 $85.3\%$, $89.2\%$, $93.4\%$였고, 이 보상 필터를 사용하므로 선량률과 beam의 투과율은 감소하지만 치료부위에 따라 beam의 모양을 변형시키며 특히, 표면선량을 $90\%$나 그 이상으로 증가시킬수 있었다. 3) 3차에 걸친 beam의 collimation과 보상 필터를 결합하여 사용한 결과 매우 좋은 beam의 균일성과 편평도 뿐만아니라 $90\%$ 등선량곡선 넓이가 커지는 결과를 보였다. 4) 치료를 위하여 중요한 간격인 SSD 100cm에서 SSD 110cm까지의 출력인자는 측정치와 계산치가 Cone의 크기와 모양, 에너지에 따라 $1\~3\%$의 차이를 보였다.

  • PDF

코히어런트 펄스열을 갖는 계단 주파수 레이더를 이용한 이동표적의 고해상도 거리 추정 분석 (Analysis of High Resolution Range Estimation for Moving Target Using Stepped Frequency Radar with Coherent Pulse Train)

  • 심재훈;배건성
    • 전기전자학회논문지
    • /
    • 제22권3호
    • /
    • pp.599-604
    • /
    • 2018
  • 계단 주파수 레이더는 송신 펄스의 주파수를 일정한 간격으로 증가시켜 넓은 합성 대역폭을 생성함으로써 고해상도 거리추정을 구현하는 방식이다. 그러나 이동표적의 경우에는 거리-도플러 결합 현상으로 인해 정확한 거리 추정이 어렵게 된다. 본 논문에서는 초기에 코히어런트 펄스열을 갖는 계단 주파수 레이더 파형을 이용하여 이동표적의 속도를 추정하고, 거리-도플러 결합 현상을 보상함으로써 얻어지는 고해상도 거리 추정 과정을 분석하고, 시뮬레이션을 통해 이를 검증하였다.

다이폴 루프 결합형 빔 조향 안테나 (Beam Steering Antenna Using a Dipole and a Loop)

  • 하상원;김용진;정창원
    • 한국전자파학회논문지
    • /
    • 제21권8호
    • /
    • pp.880-885
    • /
    • 2010
  • 본 논문에서는 다이폴과 루프 안테나가 결합된 빔 조향(steering) 재구성(reconfigurable) 안테나를 제시하였다. 본 안테나는 다이폴(dipole)과 루프(loop) 두 안테나가 결합하였을 때, 특정 비율에서 빔 방사 방향이 서로 상쇄되거나 보상되는 특성을 이용한 빔 조향 안테나이다. 본 안테나는 구조적으로 비교적 간단한 평판형 안테나이며, 안테나 상에 두 개의 스위치를 이용하여 안테나의 xy-평면상에서 서로 다른 세 개의 빔 방향을 갖도록 설계되었다. 본 논문에서는 우선 스위치를 이용한 빔 조향의 가능성을 확인하기 위하여 2개의 가상의 스위치(line 연결)를 이용하였으며, 두 개의 스위치 on/off 상태에 따라, 최대 빔 방향은 xy-평면상에서 $0^{\circ}$, ${\pm}50^{\circ}$, 3개의 빔 조향이 가능하다. 동작 주파수는 VSWR 2:1 기준으로2.50~2.56 GHz이다. 빔 조향 시 2.48~1.96 dBi의 최대 이득(peak gain)을 가지며, 세 가지 빔은 전체 $125^{\circ}$ 정도의 넓은 빔 커버리지를 갖는다.