Resumen: Voy a presentar un trabajo en curso que estamos llevando a cabo junto a Ricardo Fraiman y Alejandro Cholaquidis. Informalmente un Stochastic Multi-Armed Bandit (SMAB) consiste en una colección finita de acciones (también llamadas brazos) que al ser tomadas devuelven una recompensa aleatoria con distribución fija (dependiente solamente de la acción elegida). El objetivo general es definir a través de algún mecanismo una manera de tomar acciones de forma secuencial (política) que permita encontrar a largo plazo la mejor acción (mejores recompensas). Dependiendo del significado preciso de "mejor acción" puede ocurrir que las políticas óptimas sean mixtas, esto es, una distribución no trivial en el conjunto de acciones. En la charla voy a revisitar el universo clásico de los SMAB y algunos algoritmos conocidos. Luego pasaré a presentar el marco general en el cual estamos trabajando y una forma de enunciar el Gradient Bandit Algorithm utilizando la Influence Curve de un estimador que se adapta bien a dicho marco.
Viernes 21/6 a las 10:30
Salón 703 de FING
Contacto: Alejandro Cholaquidis - acholaquidis [at] hotmail.com (acholaquidis[at]hotmail[dot]com)
https://salavirtual-udelar.
Página del seminario: https://pye.
Página del grupo: https://pye.cmat.edu.
Canal de youtube: https://www.youtube.
_____________________