Skip to search formSkip to main content
You are currently offline. Some features of the site may not work correctly.

Bellman equation

Known as: Bellman-Equation, Bellman's optimality principle, Policy function 
A Bellman equation, named after its discoverer, Richard Bellman, also known as a dynamic programming equation, is a necessary condition for… Expand
Wikipedia

Papers overview

Semantic Scholar uses AI to extract papers important to this topic.
Highly Cited
2014
Highly Cited
2014
In this paper we consider deterministic policy gradient algorithms for reinforcement learning with continuous actions. The… Expand
  • figure 1
  • figure 2
  • figure 3
Is this relevant?
Highly Cited
2013
Highly Cited
2013
We present the first deep learning model to successfully learn control policies directly from high-dimensional sensory input… Expand
  • figure 1
  • figure 2
  • figure 3
  • table 1
Is this relevant?
Highly Cited
2011
Highly Cited
2011
During the last decade, sampling-based path planning algorithms, such as probabilistic roadmaps (PRM) and rapidly exploring… Expand
  • table 1
  • figure 1
  • figure 2
  • figure 3
  • figure 4
Is this relevant?
Highly Cited
2008
Highly Cited
2008
В статье профессора экономики Ричарда Тейлера представлена модель потребительского поведения, основанная на комбинации когнитивной психологии и микроэкономики. В основе этой модели лежит психологическая теория принятия решений в условиях риска ( «Prospect Theory»), разработанная психологами Кахнеманом и Тверским (в 2002 г. Даниэль Кахнеман за разработку теории поведения в условиях риска получил Нобелевскую премию по экономике; интересный факт – его работы финансировались министерством обороны США, и, конкретно, тем же ведомством, что финансировало первоначальные оборонные разработки Интернета). Построение модели начинается с концепции ментального подсчета выгод и издержек с помощью функции ценности (value function), заимствованной из теории принятия решений в условиях риска. Оценка потребителями покупки моделируется с помощью функции «трансакционной полезности» (transaction utility). Завершает модель ментальных расчетов «процесс семейного бюджетирования». Исходя из своей модели потребительского поведения, автор разрабатывает рекомендации для маркетинга, в частности, в области ценообразования. 
  • figure 1
  • table I
  • table 2
Is this relevant?
Highly Cited
2007
Highly Cited
2007
. We obtain nonsymmetric upper and lower bounds on the rate of convergence of general monotone approximation/numerical schemes… Expand
Is this relevant?
Highly Cited
1999
Highly Cited
1999
Function approximation is essential to reinforcement learning, but the standard approach of approximating a value function and… Expand
Is this relevant?
Highly Cited
1997
Highly Cited
1997
Preface.- Basic notations.- Outline of the main ideas on a model problem.- Continuous viscosity solutions of Hamilton-Jacobi… Expand
Is this relevant?
Highly Cited
1997
Highly Cited
1997
In this paper we study the convergence of the Galerkin approximation method applied to the generalized Hamilton-Jacobi-Bellman… Expand
Is this relevant?
Highly Cited
1987
Highly Cited
1987
The authors develop two themes in the theory of incentive schemes. First, one need not always use all of the information… Expand
Is this relevant?
Highly Cited
1982
Highly Cited
1982
Abstract A new computational method for determining the eigenvalues and eigenfunctions of the Schrodinger equation is described… Expand
  • figure 1
  • figure 2
  • table I
  • figure 3
  • figure 4
Is this relevant?