Друзья, хочу поделиться с вами глобальными и основополагающими изменениями в xG статистике, над которыми мы сейчас работаем. Но для начала опишу вам проблему, которая и послужила причиной для нововведений. Я столкнулся с ней некоторое время назад, и она занимала меня довольно долго.
Проблема эта заключается в следующем: все удары тяжестью от 0,3xG и выше искажают xG статистику. Почему? Дело в том, что некоторые слабые команды прямо на старте сезона могут создать несколько моментов с высокой вероятностью. В сумме несколько таких “случайных” эпизодов приводят к тому, что команда выглядит по xG довольно сильной. Но на самом деле это не так. Либо же, например, команда, которая нанесла и пропустила сразу несколько таких опасных ударов, на протяжении сезона незаслуженно будет попадать в выборку матчей по стратегии на тотал больше, а мы будет проигрывать деньги на этой команде. Такие искажения происходят из-за того, что в моментах с высокой вероятностью много дисперсии. Для того, чтобы понять влияние этих моментов, необходимо понимать природу ударов в целом.
- Вероятность стандартного дальнего удара составляет в среднем от 0,01 до 0,1xG.
- В атаках с навесами и выходами один на один зачастую создаются моменты от 0,11 до 0,4 xG. Конечно, бывают и исключения, но в большинстве случаев моменты распределяются именно так.
- Все остальные удары, которые опаснее 0,4xG, а зачастую даже удары от 0,3xG, более рандомны. То есть, моменты, в которых создаются эти удары, являются более случайными. Зачастую такие удары наносятся в тот момент, когда команда идет в финальный штурм и пропускает контратаку, в которой сразу несколько игроков соперника вываливаются на ее ворота. Таким образом можно нанести удар, который будет даже выше 0,7xG. Моменты, в которых происходит добивание, также являются случайными. Например, команда пробила штрафной и попала в перекладину, а игрок, который добивает, находясь возле линии ворот, получит возможность нанести удар с высокой вероятностью, вплоть до 1xG. Такая же ситуация происходит и с обычными добивными после того, как вратарь отразил первый удар. У них зачастую также очень высокая вероятность и они также достаточно случайны. В большинстве случаев такие моменты происходят тогда, когда нет сопротивления защиты.
Из природы ударов становится очевидным тот факт, что удары до 0,3xG заслужены командой больше, чем более случайные удары с вероятностью 0,31 - 1xG. Однако это не самая главная проблема. Главная проблема заключается в том, что удары с более высокой вероятностью влияют на традиционные показатели xG статистики намного сильнее, чем обычные удары. То есть, заслуженные удары имеют меньше влияния, чем случайные. Например, удар 0,9xG влияет на общий показатель за сезон в 3 раза сильнее, чем удар 0,3xG, и в 6 раз сильнее, чем удар 0,15xG.
Исходя из этого, мы можем отметить сразу две огромных проблемы, связанных с ударами высокой вероятности:
- Данные удары очень случайны.
- Они сильно искажают статистику.
Я искал разные варианты решения этой проблемы. Для того, чтобы от нее избавиться, было принято решение добавить к таблицам дополнительную метрику - 0,3max. В результате мы получим еще одну таблицу xG статистики, где все показатели будут рассчитаны на основе ударов, в которых удары выше 0,3xG будут записаны как 0,3xG. Это поможет избежать дисперсии и существенно улучшит результаты в построении моделей. Мы с парой ребят уже протестировали данную метрику и убедились в ее положительном влиянии на стратегии и результаты.
Уже через несколько дней новая метрика 0,3max станет доступной на сайте, в xGmanager и API. Также наши разработчики завершают работу над другими нововведениями в разделе xG статистики. Уже скоро вы сможете увидеть, над чем мы работали в отсутствие футбола.
Почему у вас в таблицах на сайте по xG есть метрики времени с отприцательным значением (красные цифры в правом верхнем углу) ? Что это означает?
Спасибо за новую метрику, весьма обьективное умозаключение. Хотелось бы уточнить, пользуюсь старой моделью с расчетом колличества и тяжести всех нанесенных ударов. Что теперь делать с показателями xG/Sh и xGA/Sh, получается они также несколько завышены и не подходят для работы с новой статистикой xG90 0.3max? Будут ли эти показатели в дальнейшем перерасчитаны? Или вполне достаточно пропорционально их занизить что бы не искажалось колличество ударов и их тяжесть.
Привет. Исходя из выше написанного будет ли утверждение, что теперь практически все матчи становятся болле вгодными для игры на ТМ, верным? Или это больше отражает менее искаженную силу команд по отношению друг к другу? Если проще: одинаково ли это применимо для игры на тоталах и форах, или это больше имеет отношение к форам?