• 제목/요약/키워드: deep reinforcement learning

검색결과 208건 처리시간 0.025초

Enhancing Location Privacy through P2P Network and Caching in Anonymizer

  • Liu, Peiqian;Xie, Shangchen;Shen, Zihao;Wang, Hui
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권5호
    • /
    • pp.1653-1670
    • /
    • 2022
  • The fear that location privacy may be compromised greatly hinders the development of location-based service. Accordingly, some schemes based on the distributed architecture in peer-to-peer network for location privacy protection are proposed. Most of them assume that mobile terminals are mutually trusted, but this does not conform to realistic scenes, and they cannot make requirements for the level of location privacy protection. Therefore, this paper proposes a scheme for location attribute-based security authentication and private sharing data group, so that they trust each other in peer-to-peer network and the trusted but curious mobile terminal cannot access the initiator's query request. A new identifier is designed to allow mobile terminals to customize the protection strength. In addition, the caching mechanism is introduced considering the cache capacity, and a cache replacement policy based on deep reinforcement learning is proposed to reduce communications with location-based service server for achieving location privacy protection. Experiments show the effectiveness and efficiency of the proposed scheme.

기계학습 알고리즘 기반의 인공지능 장기 게임 개발 (Development of Artificial Intelligence Janggi Game based on Machine Learning Algorithm)

  • 장명규;김영호;민동엽;박기현;이승수;우종우
    • 한국IT서비스학회지
    • /
    • 제16권4호
    • /
    • pp.137-148
    • /
    • 2017
  • Researches on the Artificial Intelligence has been explosively activated in various fields since the advent of AlphaGo. Particularly, researchers on the application of multi-layer neural network such as deep learning, and various machine learning algorithms are being focused actively. In this paper, we described a development of an artificial intelligence Janggi game based on reinforcement learning algorithm and MCTS (Monte Carlo Tree Search) algorithm with accumulated game data. The previous artificial intelligence games are mostly developed based on mini-max algorithm, which depends only on the results of the tree search algorithms. They cannot use of the real data from the games experts, nor cannot enhance the performance by learning. In this paper, we suggest our approach to overcome those limitations as follows. First, we collects Janggi expert's game data, which can reflect abundant real game results. Second, we create a graph structure by using the game data, which can remove redundant movement. And third, we apply the reinforcement learning algorithm and MCTS algorithm to select the best next move. In addition, the learned graph is stored by object serialization method to provide continuity of the game. The experiment of this study is done with two different types as follows. First, our system is confronted with other AI based system that is currently being served on the internet. Second, our system confronted with some Janggi experts who have winning records of more than 50%. Experimental results show that the rate of our system is significantly higher.

하이브리드 슈퍼코팅(HSC)과 유리섬유를 통한 조적조 내진보강 연구 (Experimental Study of Hybrid Super Coating (HSC) and Cast Reinforcement for Masonry Wall)

  • 이가윤;문아해;이승준;김재현;이기학
    • 한국지진공학회논문집
    • /
    • 제25권5호
    • /
    • pp.213-221
    • /
    • 2021
  • Many Korean domestic masonry structures constructed since 1970 have been found to be vulnerable to earthquakes because they lack efficient lateral force resistance. Many studies have shown that the brick and mortar suddenly experience brittle fracture and out-of-plane collapse when they reach the inelastic range. This study evaluated the seismic retrofitting of non-reinforced masonry with Hybrid Super Coating (HSC) and Cast, manufactured using glass fiber. Four types of specimen original specimen (BR-OR), one layered HSC (BR-HS-O), two-layered HSC (BR-HS-B), one layered HSC, and Cast (BR-CT-HS-O) were constructed and analyzed using compression, flexural tensile, diagonal compression, and triplet tests. The specimen responses were presented and discussed in load-displacement curves, maximum strength, and crack propagation. The compressive strength of the retrofit specimens slightly increased, while the flexural tensile strength of the retrofit specimens increased significantly. In addition, the HSC and Cast also produced a considerable increase in the ductile response of specimens before failure. Diagonal compression test results showed that HSC delayed brittle cracks between the mortar and bricks and resulted in larger displacement before failure than the original brick. The triplet test results confirmed that the bonding strength of the retrofit specimens also increased. The application of HSC and Cast was found to restrain the occurrence of brittle failure effectively and delayed the collapse of masonry wall structures.

심층강화학습 기반 자율주행차량의 차로변경 방법론 (Lane Change Methodology for Autonomous Vehicles Based on Deep Reinforcement Learning)

  • 박다윤;배상훈;;박부기;정보경
    • 한국ITS학회 논문지
    • /
    • 제22권1호
    • /
    • pp.276-290
    • /
    • 2023
  • 현재 국내에서는 자율주행차량의 상용화를 목표로 다양한 노력을 기울이고 있으며 자율주행차량이 운영 가이드라인에 따라 안전하고 신속하게 주행할 수 있는 연구들이 대두되고 있다. 본 연구는 자율주행차량의 경로탐색을 미시적인 관점으로 바라보며 Deep Q-Learning을 통해 자율주행차량의 차로변경을 학습시켜 효율성을 입증하고자 한다. 이를 위해 SUMO를 사용하였으며, 시나리오는 출발지에서 랜덤 차로로 출발하여 목적지의 3차로까지 차로변경을 통해 우회전하는 것으로 설정하였다. 연구 결과 시뮬레이션 기반의 차로변경과 Deep Q-Learning을 적용한 시뮬레이션 기반의 차로변경으로 구분하여 분석하였다. 평균 통행 속도는 Deep Q-Learning을 적용한 시뮬레이션의 경우가 적용하지 않은 경우에 비해 약 40% 향상되었으며 평균 대기 시간은 약 2초, 평균 대기 행렬 길이는 약 2.3대 감소하였다.

오프 폴리시 강화학습에서 몬테 칼로와 시간차 학습의 균형을 사용한 적은 샘플 복잡도 (Random Balance between Monte Carlo and Temporal Difference in off-policy Reinforcement Learning for Less Sample-Complexity)

  • 김차영;박서희;이우식
    • 인터넷정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.1-7
    • /
    • 2020
  • 강화학습에서 근사함수로써 사용되는 딥 인공 신경망은 이론적으로도 실제와 같은 근접한 결과를 나타낸다. 다양한 실질적인 성공 사례에서 시간차 학습(TD) 은 몬테-칼로 학습(MC) 보다 더 나은 결과를 보여주고 있다. 하지만, 일부 선행 연구 중에서 리워드가 매우 드문드문 발생하는 환경이거나, 딜레이가 생기는 경우, MC 가 TD 보다 더 나음을 보여주고 있다. 또한, 에이전트가 환경으로부터 받는 정보가 부분적일 때에, MC가 TD보다 우수함을 나타낸다. 이러한 환경들은 대부분 5-스텝 큐-러닝이나 20-스텝 큐-러닝으로 볼 수 있는데, 이러한 환경들은 성능-퇴보를 낮추는데 도움 되는 긴 롤-아웃 없이도 실험이 계속 진행될 수 있는 환경들이다. 즉, 긴롤-아웃에 상관없는 노이지가 있는 네트웍이 대표적인데, 이때에는 TD 보다는 시간적 에러에 견고한 MC 이거나 MC와 거의 동일한 학습이 더 나은 결과를 보여주고 있다. 이러한 해당 선행 연구들은 TD가 MC보다 낫다고 하는 기존의 통념에 위배되는 것이다. 다시 말하면, 해당 연구들은 TD만의 사용이 아니라, MC와 TD의 병합된 사용이 더 나음을 이론적이기 보다 경험적 예시로써 보여주고 있다. 따라서, 본 연구에서는 선행 연구들에서 보여준 결과를 바탕으로 하고, 해당 연구들에서 사용했던 특별한 리워드에 의한 복잡한 함수 없이, MC와 TD의 밸런스를 랜덤하게 맞추는 좀 더 간단한 방법으로 MC와 TD를 병합하고자 한다. 본 연구의 MC와 TD의 랜덤 병합에 의한 DQN과 TD-학습만을 사용한 이미 잘 알려진 DQN과 비교하여, 본 연구에서 제안한 MC와 TD의 랜덤 병합이 우수한 학습 방법임을 OpenAI Gym의 시뮬레이션을 통하여 증명하였다.

유사 이미지 분류를 위한 딥 러닝 성능 향상 기법 연구 (Research on Deep Learning Performance Improvement for Similar Image Classification)

  • 임동진;김태홍
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.1-9
    • /
    • 2021
  • 딥 러닝을 활용한 컴퓨터 비전 연구는 여전히 대규모의 학습 데이터와 컴퓨팅 파워가 필수적이며, 최적의 네트워크 구조를 도출하기 위해 많은 시행착오가 수반된다. 본 연구에서는 네트워크 최적화나 데이터를 보강하는 것과 무관하게 데이터 자체의 특성만을 고려한 CR(Confusion Rate)기반의 유사 이미지 분류 성능 향상 기법을 제안한다. 제안 방법은 유사한 이미지 데이터를 정확히 분류하기 위해 CR을 산출하고 이를 손실 함수의 가중치에 반영함으로서 딥 러닝 모델의 성능을 향상시키는 기법을 제안한다. 제안 방법은 네트워크 최적화 결과와 독립적으로 이미지 분류 성능의 향상을 가져올 수 있으며, 클래스 간의 유사성을 고려해 유사도가 높은 이미지 식별에 적합하다. 제안 방법의 평가결과 HanDB에서는 0.22%, Animal-10N에서는 3.38%의 성능향상을 보였다. 제안한 방법은 다양한 Noisy Labeled 데이터를 활용한 인공지능 연구에 기반이 될 것을 기대한다.

A Study on Ship Route Generation with Deep Q Network and Route Following Control

  • Min-Kyu Kim;Hyeong-Tak Lee
    • 한국항해항만학회지
    • /
    • 제47권2호
    • /
    • pp.75-84
    • /
    • 2023
  • Ships need to ensure safety during their navigation, which makes route determination highly important. It must be accompanied by a route following controller that can accurately follow the route. This study proposes a method for automatically generating the ship route based on deep reinforcement learning algorithm and following it using a route following controller. To generate a ship route, under keel clearance was applied to secure the ship's safety and navigation chart information was used to apply ship navigation related regulations. For the experiment, a target ship with a draft of 8.23 m was designated. The target route in this study was to depart from Busan port and arrive at the pilot boarding place of the Ulsan port. As a route following controller, a velocity type fuzzy P ID controller that could compensate for the limitation of a linear controller was applied. As a result of using the deep Q network, a route with a total distance of 62.22 km and 81 waypoints was generated. To simplify the route, the Douglas-Peucker algorithm was introduced to reduce the total distance to 55.67 m and the number of way points to 3. After that, an experiment was conducted to follow the path generated by the target ship. Experiment results revealed that the velocity type fuzzy P ID controller had less overshoot and fast settling time. In addition, it had the advantage of reducing the energy loss of the ship because the change in rudder angle was smooth. This study can be used as a basic study of route automatic generation. It suggests a method of combining ship route generation with the route following control.

이중 심층 Q 네트워크 기반 장애물 회피 경로 계획 (Path Planning with Obstacle Avoidance Based on Double Deep Q Networks)

  • 자오 용지앙;첸센폰;성승제;허정규;임창균
    • 한국전자통신학회논문지
    • /
    • 제18권2호
    • /
    • pp.231-240
    • /
    • 2023
  • 심층 강화 학습(Deep Reinforcement Learning)을 사용한 경로 계획에서 장애물을 자동으로 회피하기 위해 로봇을 학습시키는 일은 쉬운 일이 아니다. 많은 연구자가 DRL을 사용하여 주어진 환경에서 로봇 학습을 통해 장애물 회피하여 경로 계획을 수립하려는 가능성을 시도하였다. 그러나 다양한 환경에서 로봇과 장착된 센서의 오는 다양한 요인 때문에 주어진 시나리오에서 로봇이 모든 장애물을 완전히 회피하여 이동하는 것을 실현하는 일은 흔치 않다. 이러한 문제 해결의 가능성과 장애물을 회피 경로 계획 실험을 위해 테스트베드를 만들었고 로봇에 카메라를 장착하였다. 이 로봇의 목표는 가능한 한 빨리 벽과 장애물을 피해 시작점에서 끝점까지 도달하는 것이다. 본 논문에서는 벽과 장애물을 회피하기 위한 DRL의 가능성을 검증하기 위해 이중 심층 Q 네트워크(DDQN)를 제안하였다. 실험에 사용된 로봇은 Jetbot이며 자동화된 경로 계획에서 장애물 회피가 필요한 일부 로봇 작업 시나리오에 적용할 수 있을 것이다.

안전하고 효과적인 자율주행을 위한 불확실성 순차 모델링 (Uncertainty Sequence Modeling Approach for Safe and Effective Autonomous Driving)

  • 윤재웅;이주홍
    • 스마트미디어저널
    • /
    • 제11권9호
    • /
    • pp.9-20
    • /
    • 2022
  • 심층강화학습은 자율주행 도메인에서 널리 사용되는 end-to-end 데이터 기반 제어 방법이다. 그러나 기존의 강화학습 접근 방식은 자율주행 과제에 적용하기에는 비효율성, 불안정성, 불확실성 등의 문제로 어려움이 존재한다. 이러한 문제들은 자율주행 도메인에서 중요하게 작용한다. 최근의 연구들은 이런 문제를 해결하고자 많은 시도가 이루어지고 있지만 계산 비용이 많고 특별한 가정에 의존한다. 본 논문에서는 자율주행 도메인에 불확실성 순차 모델링이라는 방법을 도입하여 비효율성, 불안정성, 불확실성을 모두 고려한 새로운 알고리즘 MCDT를 제안한다. 강화학습을 높은 보상을 얻기 위한 의사 결정 생성 문제로 바라보는 순차 모델링 방식은 기존 연구의 단점을 회피하고 효율성과 안정성을 보장하며, 여기에 불확실성 추정 기법을 융합해 안전성까지 고려한다. 제안 방법은 OpenAI Gym CarRacing 환경을 통해 실험하였고 실험 결과는 MCDT 알고리즘이 기존의 강화학습 방법에 비해 효율적이고 안정적이며 안전한 성능을 내는 것을 보인다.

DQN 기반 비디오 스트리밍 서비스에서 세그먼트 크기가 품질 선택에 미치는 영향 (The Effect of Segment Size on Quality Selection in DQN-based Video Streaming Services)

  • 김이슬;임경식
    • 한국멀티미디어학회논문지
    • /
    • 제21권10호
    • /
    • pp.1182-1194
    • /
    • 2018
  • The Dynamic Adaptive Streaming over HTTP(DASH) is envisioned to evolve to meet an increasing demand on providing seamless video streaming services in the near future. The DASH performance heavily depends on the client's adaptive quality selection algorithm that is not included in the standard. The existing conventional algorithms are basically based on a procedural algorithm that is not easy to capture and reflect all variations of dynamic network and traffic conditions in a variety of network environments. To solve this problem, this paper proposes a novel quality selection mechanism based on the Deep Q-Network(DQN) model, the DQN-based DASH Adaptive Bitrate(ABR) mechanism. The proposed mechanism adopts a new reward calculation method based on five major performance metrics to reflect the current conditions of networks and devices in real time. In addition, the size of the consecutive video segment to be downloaded is also considered as a major learning metric to reflect a variety of video encodings. Experimental results show that the proposed mechanism quickly selects a suitable video quality even in high error rate environments, significantly reducing frequency of quality changes compared to the existing algorithm and simultaneously improving average video quality during video playback.