Název: Second Order Optimality in Transient and Discounted Markov Decision Chains
Autoři: Sladký, Karel
Typ dokumentu: Příspěvky z konference
Konference/Akce: Mathematical Methods in Economics 2015 /33./, Cheb (CZ), 2015-09-09 / 2015-09-11
Rok: 2015
Jazyk: eng
Abstrakt: The article is devoted to second order optimality in Markov decision processes. Attention is primarily focused on the reward variance for discounted models and undiscounted transient models (i.e. where the spectral radius of the transition probability matrix is less than unity). Considering the second order optimality criteria means that in the class of policies maximizing (or minimizing) total expected discounted reward (or undiscounted reward for the transient model) we choose the policy minimizing the total variance. Explicit formulae for calculating the variances for transient and discounted models are reported along with sketches of algoritmic procedures for finding second order optimal policies.
Klíčová slova: discounted and transient Markov reward chains; dynamic programming; reward-variance optimality
Číslo projektu: GA13-14445S (CEP), GA15-10331S (CEP)
Poskytovatel projektu: GA ČR, GA ČR
Zdrojový dokument: Procedings of the 33rd International Conference Mathematical Methods in Economics MME 2015, ISBN 978-80-261-0539-8

Instituce: Ústav teorie informace a automatizace AV ČR (web)
Informace o dostupnosti dokumentu: Dokument je dostupný na externích webových stránkách.
Externí umístění souboru: http://library.utia.cas.cz/separaty/2015/E/sladky-0448938.pdf
Původní záznam: http://hdl.handle.net/11104/0250633

Trvalý odkaz NUŠL: http://www.nusl.cz/ntk/nusl-200860


Záznam je zařazen do těchto sbírek:
Věda a výzkum > AV ČR > Ústav teorie informace a automatizace
Konferenční materiály > Příspěvky z konference
 Záznam vytvořen dne 2015-11-04, naposledy upraven 2022-09-29.


Není přiložen dokument
  • Exportovat ve formátu DC, NUŠL, RIS
  • Sdílet