Aquí hay un proyecto de ciencia de datos:
Uno de mis proyectos finales en la universidad fue un modelo predictivo para ganar partidos de tenis. Lo abordé a través de los algoritmos habituales de aprendizaje automático basados en estadísticas de partidos. También comparé los sistemas de calificación elo, trueskill y glicko2. Mi compañero utilizó una simulación generativa punto por punto basada principalmente en estadísticas de servicio / retorno / superficie.
Hubo un par de aspectos interesantes:
¿Cómo debemos convertir los datos de resultados deportivos para realizar una regresión logística válida?
- ¿Por qué los partidos de tenis importantes como en Wimbledon parecen tener tantos asientos vacíos cuando dicen que se agotaron?
- Cómo dimensionar una raqueta de tenis
- Cómo mejorar mi derecha de tenis y mi mano trasera
- Cómo desarrollar tácticas de tenis basadas en golpes
- ¿Cuál es el mejor robot de tenis de mesa?
También resultó que Head to Head no es una métrica muy útil ya que en la mayoría de los partidos, los jugadores nunca antes habían jugado el otro en la gira ATP.
La base de datos para la mía está aquí: JeffSackmann / tennis_MatchChartingProject.
Mi compañero raspó sus datos de un lugar que no puedo recordar.