En los últimos años el fenómeno de la “explosión de datos” caracterizado por el crecimiento exponencial de la cantidad de datos disponibles en internet y las organizaciones, provenientes de fuentes como computadoras personales/empresariales, redes sociales, cámaras digitales, servidores, sensores, etc viene impactando en el mundo. Las organizaciones enfrentan diversos desafíos para gestionar estos grandes volúmenes de datos, siendo uno de los más importantes obtener información y valor desde los datos en sus Sistemas de Información. Los procesos que éstas realizan (bancarios, de salud, trámites en el estado, etc.) raramente están explicitados en modelos que guían las actividades a realizar, sino que se encuentran almacenados y gestionados en forma implícita en dichos sistemas, asociados a los datos del negocio. Tanto las organizaciones, como sus procesos y los sistemas de software que soportan dichos procesos y datos, son cada vez más complejos, definiendo ecosistemas en los que se hace necesario integrar diferentes visiones, técnicas y herramientas para la gestión de la información, procesos y sistemas asociados.
La minería de procesos se basa en técnicas de minería de datos para analizar los registros (logs) de eventos asociados a la ejecución de los procesos en dichos sistemas, por ejemplo: mediante la extracción de logs de auditorías en la base de datos. El resultado permite conocer medidas como la duración de los procesos, cuellos de botella o la sub utilización de recursos. El análisis de los datos asociados con técnicas de data mining provee información como la distribución geográfica o en el tiempo de préstamos en un banco, de cirugías en un hospital o de trámites en el gobierno electrónico, patrones de ocurrencia y agrupamiento de datos (clusters). En plataformas de integración inter-organizacionales además es posible obtener trazas de ejecuciones de procesos en entornos colaborativos extendiendo estos análisis al entorno completo y sus organizaciones participantes. Un elemento clave en la manipulación de datos, tanto de los logs de ejecución asociados a los procesos como de los datos que estos procesos manipulan, refiere al análisis de calidad de los mismos, a la depuración de datos y el aseguramiento de que se están analizando datos con mínimo cumplimiento de calidad, en distintas dimensiones.
El objetivo principal de este proyecto es definir un framework integrado para Ciencia de Datos Organizacional que integre técnicas de minería de procesos y datos, calidad de datos, algoritmos y herramientas adecuados para la mejora de las organizaciones basada en evidencia. Contar con este framework integrado permitirá reducir el esfuerzo de identificación y aplicación de técnicas, metodologías y herramientas en forma aislada para cada caso. Proveerá un paquete integrado accesible de propuestas para cada Fase de la operativa, lo que ampliará las posibilidades de análisis, evaluación y mejora de los procesos de la organización.