• 제목/요약/키워드: reward function

검색결과 93건 처리시간 0.026초

Partially Observable Markov Decision Processes (POMDPs) and Wireless Body Area Networks (WBAN): A Survey

  • Mohammed, Yahaya Onimisi;Baroudi, Uthman A.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제7권5호
    • /
    • pp.1036-1057
    • /
    • 2013
  • Wireless body area network (WBAN) is a promising candidate for future health monitoring system. Nevertheless, the path to mature solutions is still facing a lot of challenges that need to be overcome. Energy efficient scheduling is one of these challenges given the scarcity of available energy of biosensors and the lack of portability. Therefore, researchers from academia, industry and health sectors are working together to realize practical solutions for these challenges. The main difficulty in WBAN is the uncertainty in the state of the monitored system. Intelligent learning approaches such as a Markov Decision Process (MDP) were proposed to tackle this issue. A Markov Decision Process (MDP) is a form of Markov Chain in which the transition matrix depends on the action taken by the decision maker (agent) at each time step. The agent receives a reward, which depends on the action and the state. The goal is to find a function, called a policy, which specifies which action to take in each state, so as to maximize some utility functions (e.g., the mean or expected discounted sum) of the sequence of rewards. A partially Observable Markov Decision Processes (POMDP) is a generalization of Markov decision processes that allows for the incomplete information regarding the state of the system. In this case, the state is not visible to the agent. This has many applications in operations research and artificial intelligence. Due to incomplete knowledge of the system, this uncertainty makes formulating and solving POMDP models mathematically complex and computationally expensive. Limited progress has been made in terms of applying POMPD to real applications. In this paper, we surveyed the existing methods and algorithms for solving POMDP in the general domain and in particular in Wireless body area network (WBAN). In addition, the papers discussed recent real implementation of POMDP on practical problems of WBAN. We believe that this work will provide valuable insights for the newcomers who would like to pursue related research in the domain of WBAN.

온라인 리서치 플랫폼의 종합적인 인공지능 활용 분석 연구 (A Study on the Comprehensive Artificial Intelligence Utilization Analysis of Online Research Platform)

  • 임혜원;남원석
    • 한국융합학회논문지
    • /
    • 제11권10호
    • /
    • pp.187-195
    • /
    • 2020
  • 본 연구는 근미래 기술 융복합 환경에서 온라인 리서치 업무의 개선 방법 모색을 목적으로 하며, 향후 인공지능 기술 응용 및 활용을 위한 기초적인 학문적 토대를 제시한다. 구체적인 연구 방법 및 결과는 다음과 같다. 첫째, 이론적 고찰을 통해 리서치의 패러다임 변화, 온라인 리서치 플랫폼, 인공지능 기술들을 살펴보고 연구의 근거를 확보했다. 둘째, 사례를 수집하여 온라인 리서치 플랫폼의 리워드, 실행, 시각화 3가지 유형을 도출하였다. 셋째, 사례 분석을 통해 종합적인 인공지능 활용 동향과 방향성을 도출했다. 연구 결과 인공지능 기술이 가장 많이 사용되고 있는 단계는 분석, 시각화, 실행, 섭외, 설계, 매칭 순서였으며, 인공지능의 활용 방향성은 크게 업무 효율화, 인간의 사고 보조, 리서치 방식의 변화로 나눌 수 있다. 그러나 리서치 단계 중 계획 단계에는 인공지능 비롯하여 제공되는 기능이 온라인 리서치 플랫폼에서 전반적으로 부족했으며, 사용자 및 제품의 다양화에 따라 리서치 계획이 중요해지고 있는 시점에서 향후 인공지능을 활용한 리서치 계획 방안 개발 및 연구가 필요한 실정이다. 본 연구는 온라인 리서치 플랫폼 방법의 개선에 긍정적인 영향을 미칠 것으로 기대하며, 향후 인공지능 기반의 리서치 플랫폼과 시스템 연구 개발의 기틀을 마련하고자 한다.

강건한 스케줄링을 위한 마코프 의사결정 프로세스 추론 및 역강화 학습 기반 일상 행동 학습 (Robust Scheduling based on Daily Activity Learning by using Markov Decision Process and Inverse Reinforcement Learning)

  • 이상우;곽동현;온경운;허유정;강우영;재이다;장병탁
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권10호
    • /
    • pp.599-604
    • /
    • 2017
  • 유저의 일상 스케쥴을 제안하고 예측하는 서비스는 스마트 비서의 흥미로운 응용이다. 전통적인 방법에서는 유저의 행동을 예측하기 위하여, 유저가 직접 자신의 행동을 기록하거나, e-mail 혹은 SNS 등에서 명시적인 일정 정보를 추출하여 사용해왔다. 하지만, 유저가 모든 정보를 기록할 수 없기에, 스마트 비서가 얻을 수 있는 정보는 제한적이며, 유저는 유저의 일상의 routine한 정보를 기록하지 않는 경향이 있다. 본 논문에서는 스케줄러에 적히는 정형화된 일정인 스케줄과 비정형화된 일정을 만드는 일상 행동 패턴들을 동시에 고려하는 접근 방법을 제안한다. 이를 위하여 마코프 의사 결정 프로세스 (MDP)를 기반으로 하는 추론 방법과 역강화 학습 (IRL)을 통한 보상 함수 학습 방법을 제안한다. 실험 결과는 우리가 6주간 모은 실제 생활을 기록한 데이터 셋에서 우리의 방법이 기존 방법들보다 우수한 성능을 보임을 논증한다.

Effects of multiple herb formula SEC-22 supplementation on dietary intake, picky eating behaviors, and growth indices in thin preschool children

  • Kim, Kijoon;Lee, Joonsuk;Paik, Hee Young;Yoon, Jihyun;Ryu, Bongha;Shim, Jae Eun
    • Nutrition Research and Practice
    • /
    • 제9권4호
    • /
    • pp.393-399
    • /
    • 2015
  • BACKGROUND/OBJECTIVES: Thin children may have insufficient intake of energy and nutrients, resulting in reduced immune function and growth. This study aimed to identify the effects of multiple herb formula SEC-22 supplementation on growth, dietary changes, and picky eating behaviors in thin children. SUBJECTS/METHODS: A double-blind, randomized clinical trial was conducted on 79 children aged 2-5 years with poor appetites, BMI percentile < 25, and without any illness. Subjects were given either SEC-22 (n = 35) or placebo (n = 44) for 2 months and followed for an additional 2 months. Three-day dietary records, questionnaires on picky eating behaviors, and anthropometric measures were collected. RESULTS: Energy, carbohydrate intake, and feeding difficulty improved in both groups during the intervention period. However, changes were maintained only in the SEC-22 group after 2 months of follow-up post-supplementation. 'Frequency of trying to feed' was improved in the SEC-22 group compared to the placebo group after the first month of follow-up (P < 0.05). Intakes of potassium and thiamine were improved in the SEC-22 group compared to the placebo group after the first month of intervention (P < 0.05). 'Frequency of food reward', eating amount, and intakes of carbohydrate, potassium, and vitamin C showed significant improvement compared to the placebo group after the second month of follow-up (P < 0.05). CONCLUSIONS: These results suggest that SEC-22 supplementation can improve parental feeding difficulty resulting from insufficient eating amount or picky eating as well as increase nutrient intake in thin children. Although these improvements were observable at least 2 months after supplementation, effects beyond this time frame need to be confirmed.

장애아동 비만 예방·관리를 위한 애플리케이션 모형 개발에 관한 연구 (A Study on Development of Application Model for Prevention and Management of Obesity in Children with Disabilities)

  • 강승애
    • 융합보안논문지
    • /
    • 제20권2호
    • /
    • pp.85-90
    • /
    • 2020
  • 본 연구는 지적장애아동의 비만 예방·관리를 위한 애플리케이션 모형 개발에 필요한 정보를 제공하고 실용적 모바일 애플리케이션 개발을 위한 개선 방안을 제시하고자 하였다. 지적장애아동을 위한 비만 예방·관리 모바일 애플리케이션은 학부모와 장애아동 사이에 전달되는 정보와 서비스가 애플리케이션을 통해 효과적인 흐름이 가능하도록 구성하는 것이 필요하다. 부모는 애플리케이션을 통해 전달받은 지적장애아동의 현재 상태와 비만관리 정보에 피드백하고, 아이에게 지지, 격려, 보상 등의 동기부여의 과정을 통해 긍정적 변화를 가져올 수 있다. 이러한 구성을 통해 동기부여의 과정에 부모의 개입을 통해 효과적인 비만관리를 도출할 수 있을 것으로 기대된다. 콘텐츠의 구성은 영양, 운동(신체활동), 생활습관의 세 가지로 이루어지며, 각각의 콘텐츠는 지적장애아동의 특성을 반영하여 간단하면서도 이해가 쉬운 방식을 적용하는 것이 바람직하다. 지적장애아동에 최적화된 모바일 애플리케이션을 위해서는 인터페이스의 단순화, 알림기능과 보상, 음성인식 및 자막지원의 전략을 통해 사용자 확대와 지속성을 제안하였다.

가버 웨이블릿 신경망 기반 적응 표정인식 시스템 (Adaptive Facial Expression Recognition System based on Gabor Wavelet Neural Network)

  • 이상완;김대진;김용수;변증남
    • 한국지능시스템학회논문지
    • /
    • 제16권1호
    • /
    • pp.1-7
    • /
    • 2006
  • 본 논문에서는 6개의 특징점을 이용하는 가버 웨이블릿 신경망 기반 적응 표정인식 시스템을 제안한다. 특징 추출부를 포함하는 초기 네트워크의 구성은 Levenberg-Marquardt 기반의 학습방법이 사용되며, 따라서 특징 추출부 결정에 있어서 경험적 요소를 배재시킬 수 있다. 또한 새로운 사용자에 대한 적응 네트워크를 구성하기 위해서 개선된 보상함수를 가지는 Q-학습과, 비지도 퍼지 신경망 모델을 사용하였다. Q-학습을 통해서는 개인 사용자에 대해 분리도가 좋은 특징벡터를 얻을 수 있는 가버필터 세트를 얻을 수 있으며, 퍼지 신경망을 통해서는 사용자의 얼굴변화에 맞게 인식기를 변화시킬 수 있다. 따라서 제안된 시스템은 사용자의 얼굴변화를 따라갈 수 있는 좋은 적응 성능을 보이고 있다.

Altered Functional Disconnectivity in Internet Addicts with Resting-State Functional Magnetic Resonance Imaging

  • Seok, Ji-Woo;Sohn, Jin-Hun
    • 대한인간공학회지
    • /
    • 제33권5호
    • /
    • pp.377-386
    • /
    • 2014
  • Objective: In this study, we used resting-state fMRI data to map differences in functional connectivity between a comprehensive set of 8 distinct cortical and subcortical brain regions in healthy controls and Internet addicts. We also investigated the relationship between resting state connectivity strength and the level of psychopathology (ex. score of internet addiction scale and score of Barratt impulsiveness scale). Background: There is a lot of evidence of relationship between Internet addiction and impaired inhibitory control. Clinical evidence suggests that Internet addicts have a high level of impulsivity as measured by behavioral task of response inhibition and a self report questionnaire. Method: 15 Internet addicts and 15 demographically similar non-addicts participated in the current resting-state fMRI experiment. For the connectivity analysis, regions of interests (ROIs) were defined based on the previous studies of addictions. Functional connectivity assessment for each subject was obtained by correlating time-series across the ROIs, resulting in $8{\times}8$ matrixs for each subject. Within-group, functional connectivity patterns were observed by entering the z maps of the ROIs of each subject into second-level one sample t test. Two sample t test was also performed to examine between group differences. Results: Between group, the analysis revealed that the connectivity in between the orbito frontal cortex and inferior parietal cortex, between orbito frontal cortex and putamen, between the orbito frontal cortex and anterior cingulate cortex, between the insula and anterior cingulate cortex, and between amydgala and insula was significantly stronger in control group than in the Internet addicts, while the connectivity in between the orbito frontal cortex and insula showed stronger negative correlation in the Internet addicts relative to control group (p < 0.001, uncorrected). No significant relationship between functional connectivity strength and current degree of Internet addiction and degree of impulsitivy was seen. Conclusion: This study found that Internet addicts had declined connectivity strength in the orbitofrontal cortex (OFC) and other regions (e.g., ACC, IPC, and insula) during resting-state. It may reflect deficits in the OFC function to process information from different area in the corticostriatal reward network. Application: The results might help to develop theoretical modeling of Internet addiction for Internet addiction discrimination.

Obstacle Avoidance for Unmanned Air Vehicles Using Monocular-SLAM with Chain-Based Path Planning in GPS Denied Environments

  • Bharadwaja, Yathirajam;Vaitheeswaran, S.M;Ananda, C.M
    • 항공우주시스템공학회지
    • /
    • 제14권2호
    • /
    • pp.1-11
    • /
    • 2020
  • Detecting obstacles and generating a suitable path to avoid obstacles in real time is a prime mission requirement for UAVs. In areas, close to buildings and people, detecting obstacles in the path and estimating its own position (egomotion) in GPS degraded/denied environments are usually addressed with vision-based Simultaneous Localization and Mapping (SLAM) techniques. This presents possibilities and challenges for the feasible path generation with constraints of vehicle dynamics in the configuration space. In this paper, a near real-time feasible path is shown to be generated in the ORB-SLAM framework using a chain-based path planning approach in a force field with dynamic constraints on path length and minimum turn radius. The chain-based path plan approach generates a set of nodes which moves in a force field that permits modifications of path rapidly in real time as the reward function changes. This is different from the usual approach of generating potentials in the entire search space around UAV, instead a set of connected waypoints in a simulated chain. The popular ORB-SLAM, suited for real time approach is used for building the map of the environment and UAV position and the UAV path is then generated continuously in the shortest time to navigate to the goal position. The principal contribution are (a) Chain-based path planning approach with built in obstacle avoidance in conjunction with ORB-SLAM for the first time, (b) Generation of path with minimum overheads and (c) Implementation in near real time.

강화학습을 이용한 무인 자율주행 차량의 지역경로 생성 기법 (Local Path Generation Method for Unmanned Autonomous Vehicles Using Reinforcement Learning)

  • 김문종;최기창;오병화;양지훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권9호
    • /
    • pp.369-374
    • /
    • 2014
  • 무인 자율주행 차량에서의 경로 생성 기법은 차량이 자동적으로 안전하고 효율적인 경로를 생성하고 주행할 수 있도록 해 준다. 경로에는 크게 전역경로와 지역경로가 있다. 전역경로는 차량이 출발점으로부터 도착점까지 가기 위해 주행해야 하는 구간을, 지역경로는 전역경로에서 얻은 구간을 주행하기 위해서 차량이 실제로 주행해야 할 경로를 의미한다. 본 논문에서는 지역경로 생성을 위하여 효율성 높은 곡선 함수를 사용하는 기존연구에서 더 나아가 학습을 통해 경로를 생성하는 방법을 제안한다. 먼저 강화학습을 통해서 후보경로에 대한 예측 보상 값을 얻고 보상 값이 최고가 되는 경로를 찾는 작업을 한다. 또한 인공 신경망을 통해서는 생성된 경로에 최적화된 조향 명령을 주기 위해 조향 각을 학습하는 작업을 한다. 더 나아가 주행하는 경로에 장애물이 발견되더라도 이를 효율적으로 회피하는 최적의 경로를 학습 기법을 통해 만들어낸다. 본 논문에서 제안된 알고리즘의 우수성은 실제 주행 환경으로 모델링한 시뮬레이션 실험을 통해 검증되었다.

과학기술자 커뮤니티 사이트를 위한 구전홍보 전략 연구 (A Study on Viral Marketing Strategy for Community Website of Scientists and Engineers)

  • 정혜주;윤정선
    • 정보관리연구
    • /
    • 제43권2호
    • /
    • pp.151-168
    • /
    • 2012
  • 구전홍보는 여러 분야에 있어서 효율적인 마케팅 수단으로 활용되어오고 있다. 본 논문에서는 과학기술자 커뮤니티 사이트(www.kosen21.org)의 운영에 구전홍보 전략을 적용해보았다. 회원들이 손쉽게 홍보메일을 발송하고 홍보 브로셔를 배포할 수 있도록 프로그램을 개발하였으며, 구전홍보에 적극 참여한 회원들에 대한 보상책을 마련하였다. 분석 결과 회원들은 마일리지 적립, 상품권 제공과 같은 보상 전략에 긍정적으로 반응하며, 충성회원이 구전홍보에도 적극적으로 참여한다는 것을 알 수 있었다. 단기적이며 즉각적인 반응을 위해서는 이벤트 실시가 효과적이며, 장기적이며 지속적인 반응을 위해서는 충성회원 관리가 효과적이라는 것도 알 수 있었다. 본 논문의 구전홍보 전략과 분석결과는 인터넷 서비스의 운영과 전략 수립에 활용될 수 있으리라 기대된다.