skip to main content

Estratégias para otimização do algoritmo de Iteração de Valor Sensível a Risco

Borges, Igor Oliveira

Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades 2018-10-11

Acesso online. A biblioteca também possui exemplares impressos.

  • Título:
    Estratégias para otimização do algoritmo de Iteração de Valor Sensível a Risco
  • Autor: Borges, Igor Oliveira
  • Orientador: Delgado, Karina Valdivia
  • Assuntos: Planejamento Estocástico; Política Sensível A Risco; Processo De Decisão Markoviano Sensível A Risco; Risk Sensitive Markov Decision Process; Risk Sensitive Policy; Stochastic Planning
  • Notas: Dissertação (Mestrado)
  • Descrição: Processos de decisão markovianos sensíveis a risco (Risk Sensitive Markov Decision Process - RS-MDP) permitem modelar atitudes de aversão e propensão ao risco no processo de tomada de decisão usando um fator de risco para representar a atitude ao risco. Para esse modelo, existem operadores que são baseados em funções de transformação linear por partes que incluem fator de risco e fator de desconto. Nesta dissertação são formulados dois algoritmos de Iteração de Valor Sensível a Risco baseados em um desses operadores, esses algoritmos são chamados de Iteração de Valor Sensível a Risco Síncrono (Risk Sensitive Value Iteration - RSVI) e Iteração de Valor Sensível a Risco Assíncrono (Asynchronous Risk Sensitive Value Iteration- A-RSVI). Também são propostas duas heurísticas que podem ser utilizadas para inicializar os valores dos algoritmos de forma a torná-los mais eficentes. Os resultados dos experimentos no domínio de Travessia do Rio em dois cenários de recompensas distintos mostram que: (i) o custo de processamento de políticas extremas a risco, tanto de aversão quanto de propensão, é elevado; (ii) um desconto elevado aumenta o tempo de convergência do algoritmo e reforça a sensibilidade ao risco adotada; (iii) políticas com valores para o fator de risco intermediários possuem custo computacional baixo e já possuem certa sensibilidade ao risco dependendo do fator de desconto utilizado; e (iv) o algoritmo A-RSVI com a heurística baseada no fator de risco pode reduzir o tempo para o algoritmo convergir, especialmente para valores extremos do fator de risco
  • DOI: 10.11606/D.100.2019.tde-09012019-103826
  • Editor: Biblioteca Digital de Teses e Dissertações da USP; Universidade de São Paulo; Escola de Artes, Ciências e Humanidades
  • Data de criação/publicação: 2018-10-11
  • Formato: Adobe PDF
  • Idioma: Português

Buscando em bases de dados remotas. Favor aguardar.