Comment Tiebreak estime des probabilités de match de tennis — et comment on les vérifie honnêtement.
Principe fondateur : aucune fuite d'information. Pour prédire un match à la date T, le moteur n'utilise que des données disponibles avant T. Toute la validation est faite en walk-forward : on apprend sur le passé, on prédit le futur immédiat, on avance dans le temps. Les taux affichés sont mesurés sur des matchs jamais vus à l'entraînement — c'est ce qui rend la page Fiabilité crédible.
Historique public de Jeff Sackmann (ATP/WTA/Challenger/ITF) : ~630 000 matchs depuis 1990, avec le détail service/retour. Classements datés. Cotes historiques (tennis-data.co.uk) uniquement comme référence, jamais comme variable d'entrée (ce serait tricher).
Chaque joueur a un Elo global et un Elo par surface (dur, terre, gazon), combinés. Le facteur de mise à
jour décroît avec l'expérience (un nouveau joueur bouge vite, un joueur établi se stabilise). Conversion en probabilité :
P(A bat B) = 1 / (1 + 10^((Elo_B − Elo_A)/400)).
À partir de la probabilité de gagner un point au service de chaque joueur, une chaîne de Markov propage point → jeu → set → match (en distinguant best-of-3 et best-of-5, avec tie-breaks). Cela produit tous les marchés dérivés de façon cohérente : « le perdant probable prend ≥ 1 set », distribution du total de jeux (over/under)…
Une régression logistique affine la prédiction du vainqueur en combinant l'Elo avec le classement, la forme récente, le repos/fatigue et l'âge. Les probabilités du service sont ancrées sur cette prédiction (l'Elo pilote le vainqueur, les statistiques de service pilotent la longueur du match).
Les probabilités sont recalibrées (régression isotonique) pour que « 70 % » gagne réellement ~70 % du temps. Un indice de confiance (1–5 ★) agrège la quantité de données, l'accord entre sous-modèles et la marge. Il est lui-même validé : les pronostics 5★ doivent vraiment mieux performer que les 1★ (voir Fiabilité).
En résumé : un moteur mathématique transparent, validé sans tricher, qui assume ce qu'il sait et ce qu'il ignore.