¿Qué estadísticas se pueden usar para predecir cómo lo hará un equipo en NCAA March Madness?

El predictor más poderoso es la calificación de eficiencia neta ajustada de un equipo . A menos que esté bien versado en estadísticas avanzadas de baloncesto, esto probablemente no signifique nada para usted. Vamos a desglosarlo.

En el baloncesto, las calificaciones de eficiencia se refieren a cómo se desempeña un equipo por posesión. La más común de estas métricas es la eficiencia ofensiva y defensiva, que mide cuántos puntos anota un equipo o cede cada 100 posesiones [1].

A los nerds del baloncesto les gusta trabajar con estadísticas por posesión en lugar de estadísticas por juego o por minuto porque brindan más independencia de los factores externos. Los números por juego para individuos se ven muy afectados por la cantidad de tiempo que un jugador está en la cancha. Un jugador puede duplicar su rendimiento por juego sin ninguna mejora si obtiene el doble de tiempo de juego (tal vez debido a la lesión de otro jugador). Del mismo modo, las estadísticas por minuto se ven afectadas por el ritmo de un equipo. Un equipo que anota 60 puntos por 40 minutos con un estilo lento y cauteloso en realidad podría estar superando a uno que anota 80 puntos por 40 minutos con un estilo de juego de alto vuelo, arriba y abajo, que crea más posesiones.

El rendimiento general de un equipo se puede resumir en una calificación neta, que encuentra la diferencia entre cuántos puntos anotan y cuántos puntos dejan. De ello se deduce que la calificación de eficiencia neta de un equipo es su eficiencia ofensiva menos su eficiencia defensiva. Esta estadística te dice cuántos puntos esperarías que un equipo gane o pierda en un juego de 100 posesiones contra un oponente promedio (para su calendario).

La eficiencia ajustada significa que las calificaciones de eficiencia originales se alteran para tener en cuenta la fuerza de los oponentes de un equipo. Esto se puede hacer mirando las calificaciones de eficiencia neta de los oponentes del equipo y comparándolas con la calificación promedio de todos los equipos. Los equipos que jugaron cronogramas más difíciles recibirán aumentos en sus índices de eficiencia, mientras que aquellos que se enfrentaron a equipos más débiles verán disminuir el suyo.

Estos números pueden mejorarse aún más repitiendo iterativamente el proceso de ajuste. En otras palabras, comience con calificaciones de eficiencia no ajustadas y luego ajuste las calificaciones de cada equipo en función de su calendario. Ahora, tome estas clasificaciones ajustadas y úselas para realizar otro ajuste. Si hace esto suficientes veces, la calificación de cada equipo convergerá a un puntaje que brinde una muy buena estimación de la calidad del equipo [2].

Los ajustes son importantes en el baloncesto universitario debido a las grandes variaciones en la fuerza del horario. Un factor importante en esto es el sistema de conferencias. Más de la mitad de los juegos de temporada regular de un equipo son contra oponentes de la conferencia. Un equipo que juega en el altamente competitivo Big 12 tendrá un calendario mucho más difícil que uno que juegue en el humilde MEAC [3]. Ajustar en consecuencia conduce a un método de predicción mucho mejor.

Ponga todo esto junto y obtendrá la calificación de eficiencia neta ajustada de un equipo : un número único que le dice cómo un equipo en particular se compara con un promedio al medir cómo se desempeña ese equipo en función de cada posesión y ajustar la calidad de sus oponentes. Es simple, pero es la base de todos los mejores sistemas de predicción de baloncesto universitario [4] [5].

Tenga en cuenta que las ganancias y pérdidas no aparecen en esta estadística. Se ha demostrado empíricamente que el diferencial de puntos de un juego tiene más poder predictivo que el resultado de ganar-perder. Intuitivamente, esto tiene sentido. El resultado del juego te da una sola pieza de datos binarios. Mientras tanto, el diferencial de puntos te dice exactamente cómo se compara el equipo entre sí. Una victoria de un punto tiene más en común con una pérdida de un punto que con una victoria de 20 puntos. Debido a que no se consideran los resultados, es teóricamente posible (aunque muy poco probable) que un equipo pierda todos los juegos por un pequeño margen contra oponentes fuertes y tenga una buena calificación de eficiencia neta ajustada.

También tenga en cuenta que no se incluyen detalles específicos sobre el equipo en la estadística. No importa qué tipo de defensa jueguen, si disparan bien los triples o quién es su entrenador. Esto no significa que estos factores no importen. En cambio, nos dice que agregarlos al modelo no da como resultado más poder predictivo. Creo que esto tiene sentido. Si un equipo tiene un buen entrenador, eso afectará sus juegos pasados, por lo que el modelo ya captura sus contribuciones [6]. Agregar eso como una entrada separada no aporta ninguna información nueva.


[1] 100 posesiones se usan por dos razones, una, es bastante cercana al número promedio de posesiones en un juego de la NBA. Dos, generalmente da números en el rango de 80-120, que son más fáciles de recordar y trabajar que aquellos como “0.956 puntos por posesión”.

[2] Los algoritmos de ajuste pueden volverse aún más complejos. Por ejemplo, la evidencia sugiere que los juegos entre equipos relativamente iguales tienen más poder predictivo que aquellos entre oponentes que no coinciden. Algunos métodos explican esto al ponderar los juegos de manera desigual de acuerdo a la uniformidad de los equipos. Lo mismo para los juegos más recientes. Factores como la ventaja de jugar en casa, lesiones e incluso la distancia de viaje también se pueden incluir en los modelos.

[3] Esa es la Conferencia Atlética del Medio Oriente, con escuelas como el estado de Delaware, Maryland Eastern Shore y Bethune Cookman.

[4] Simple en el sentido de que todo sobre un equipo se reduce a un solo número.

[5] KenPom, el sistema de predicción de baloncesto universitario más famoso, es esencialmente una implementación del método que describí aquí.

[6] La excepción a esto son las lesiones. Algunos modelos representan jugadores lesionados con éxito moderado. Sin embargo, es difícil aislar el impacto de un jugador en un equipo con el tamaño de muestra relativamente pequeño que ofrece el baloncesto universitario (aproximadamente 30 juegos por equipo).

Esta es una herramienta ingeniosa del departamento de informática de la Universidad de Illinois que al menos debería ayudarlo a orientarse en la dirección correcta:

Distribuciones de semillas de baloncesto de la NCAA

Fue desarrollado por este tipo: sitio web de predicción de soporte de torneo de la NCAA creado por U. de I. profesor