Pasar al contenido principal

Bandits con políticas óptimas mixtas

Fecha de inicio
Fecha de fin

Resumen: Voy a presentar un trabajo en curso que estamos llevando a cabo junto a Ricardo Fraiman y Alejandro Cholaquidis. Informalmente un Stochastic Multi-Armed Bandit (SMAB) consiste en una colección finita de acciones (también llamadas brazos) que al ser tomadas devuelven una recompensa aleatoria con distribución fija (dependiente solamente de la acción elegida). El objetivo general es definir a través de algún mecanismo una manera de tomar acciones de forma secuencial (política) que permita encontrar a largo plazo la mejor acción (mejores recompensas). Dependiendo del significado preciso de "mejor acción" puede ocurrir que las políticas óptimas sean mixtas, esto es, una distribución no trivial en el conjunto de acciones. En la charla voy a revisitar el universo clásico de los SMAB y algunos algoritmos conocidos. Luego pasaré a presentar el marco general en el cual estamos trabajando y una forma de enunciar el Gradient Bandit Algorithm utilizando la Influence Curve de un estimador que se adapta bien a dicho marco.
 


Viernes 21/6 a las 10:30
Salón 703 de FING

Contacto: Alejandro Cholaquidis - acholaquidis [at] hotmail.com (acholaquidis[at]hotmail[dot]com)


https://salavirtual-udelar.zoom.us/j/88544669179?pwd=UlBHdWRWdEZVMGw0akpPeEd0VWJzZz09

Página del seminario: https://pye.cmat.edu.uy/seminario

Página del grupo: https://pye.cmat.edu.uy/home

Canal de youtube: https://www.youtube.com/channel/UCOPZEOrLSAYPz2qCAL-KqMg/about


_____________________