Cualquier persona interesada en aprender sobre ‘machine learning’, ‘deep learning’ y ‘data science’ tiene una cita el sábado 23 de noviembre con la primera edición de Kaggle Days Meetup en Sevilla. Será a partir de las 10.30 en el Auditorio Global Omnium, en el edificio del Acuario de Sevilla. La asistencia es gratuita previa inscripción.

Los asistentes tendrán la oportunidad de conocer de primera mano la experiencia de un gran maestro de Kaggle, el brasileño Gilberto Titericz, uno de los mejores científicos de datos a nivel mundial, ganador de más de 47 oros en competiciones de ‘machine learning’. El evento está organizado por la comunidad internacional Kaggle y la empresa LogicAI, a través de los sevillanos Javier Tejedor, Virilo Tejedor y Fernando Constantino (los tres maestros en Kaggle, el segundo rango más relevante en la comunidad tras el de gran maestro), y las polacas Maria Parysz, Oktawia Podlecka y Patrycja Urbanek. Patrocinan Banco Santander y Ayesa, con la colaboración de GoHub.

La plataforma Kaggle reúne a los mayores expertos del mundo en el manejo de datos

Kaggle es la comunidad online de ‘data science’ más grande y activa del mundo. Una plataforma de crowdsourcing donde más 120.000 científicos de datos, ingenieros de ‘machine learning’, o aprendizaje automático, y estudiantes de todo el mundo compiten entre sí para resolver complejos problemas científicos. Estos son publicados por empresas y organismos públicos y privados, y la mejor solución se hace con un premio que puede alcanzar varios millones de dólares.

Fundada en Silicon Valley por el australiano Anthony Goldbloom en 2010, Kaggle comenzó ofreciendo competiciones de ‘machine learning’ para resolver problemas de la NASA, Wikipedia, Ford y Deloitte. En marzo de 2017, Kaggle anunciaba su adquisición por parte de Google. En noviembre de 2019, la comunidad ya cuenta con tres millones y medio de usuarios registrados, o ‘Kagglers’, procedentes de 194 países. De esta manera, lo que se inició como una sencilla idea ha terminado reuniendo a los mayores expertos en el mundo en el manejo de datos.

 

Las competiciones de Kaggle atraen regularmente a más de mil equipos y usuarios individuales. Empresas de todo el mundo presentan sus problemas de analítica y modelos predictivos ante la comunidad de Kaggle, fijan los plazos, la recompensa y abren la competición. Los participantes experimentan con diferentes técnicas y compiten entre sí para producir los mejores modelos predictivos. El trabajo se comparte públicamente a través de Kaggle Kernels y, para la mayoría de las competiciones, las presentaciones se puntúan de inmediato en función de su precisión predictiva.

Como glosa la periodista Montse Hidalgo en El País, la mayoría de los desafíos no suelen ofrecer premios que superen la barrera de los 200.000 euros, pero ha habido jugosas excepciones. Excepciones millonarias, como la que lanzó la plataforma inmobiliaria Zillow en mayo de 2018 y que enfrentó a casi 4.000 personas: 1.200.000 dólares por mejorar su algoritmo de predicción de precios. La única empresa española que ha presentado desafíos de Data Science a través de Kaggle es el Banco Santander, que primero retó a la comunidad a identificar usuarios insatisfechos y un año más tarde le propuso mejorar sus sistemas de recomendación de productos.

Actualmente hay quince competiciones abiertas. En una de ellas, que cuenta con más de 1.600 inscritos, la Liga Nacional de Fútbol Americano (NFL) ofrece 75.000 dólares al equipo que sea capaz de predecir cuántas yardas recorrerá un jugador de la NFL después de recibir un pase. En otra, la Data Science Bowl, la competición más importante del año sobre ‘machine learning’ cuyo objetivo es mejorar la sociedad a través de la ciencia, está enfocada en identificar factores para ayudar a medir cómo los niños pequeños aprenden de los medios de los medios de comunicación. El premio es de 160.000 dólares.

 

Otra de las herramientas más valoradas por la comunidad Kaggle es ‘Kernels‘, un banco de datos en la nube en el que los científicos comparten fragmentos de código y análisis en Phyton y R. Estos pueden ser utilizados por cualquier usuario para analizar cualquier conjunto de datos y participar en competiciones de ‘machine learning’.

El matemático José Antonio Guerrero, uno de los mejores científicos de datos a nivel mundial

El ‘ranking’ mundial de Kaggle clasifica a los mejores científicos de datos del mundo, en función de la posición obtenida en las competiciones publicadas en la plataforma. En noviembre de 2013, el primer puesto era alcanzado por el gaditano residente en Sevilla, José Antonio Guerrero. Licenciado en Matemáticas por la Universidad de Sevilla, con especialidad de Estadística e Investigación Operativa, trabaja en el Centro de Documentación del Hospital Virgen del Rocío manejando grandes volúmenes de datos clínicos. En 2015 fundó Datrik Intelligence, una consultora para desarrollar modelos predictivos e inteligencia artificial.

José Antonio Guerrero se unió a Kaggle para participar en un reto de Heritage Provider Network, un proveedor de servicios sanitarios de Estados Unidos, para construir un modelo predictivo de necesidades sanitarias de un grupo de pacientes. Tras varios meses de trabajo, sus modelos obtuvieron la tercera posición entre 1.300 equipos de hospitales, universidades y empresas de todo el mundo. Desde entonces, comenzó a participar en una veintena de retos hasta alcanzar la primera posición en la plataforma, donde se mantuvo durante un mes. Para llegar hasta ahí influyó un estudio predictivo sobre la gripe, que realizó junto a Sergei Yurgenson de la Harvard Medical School. El acuerdo surgió a través de la red Kaggle y lo patrocinó la farmacéutica Genentech con el objetivo de avanzar en un modelo de predicción de los mayores picos estacionales de la gripe y cuál es su intensidad.