"Если вы учили эконометрику, хоть самую простейшую, то вы сможете вытащить огромное количество информации из самого минимального количества данных. И в этом волшебство нашей работы: из хаоса получить информацию. На днях мэрия Москвы озвучила результаты тестирования на антитела. Всего 9 цифр - данные по районам. И из этих цифр можно узнать много интересного", - пишет в Facebook доцент РАНХиГС Татьяна Михайлова.

"На первой картинке эти цифры против данных о госпитализациях с известного портала Mash. Данные не самые достоверные, но других нет. САО выпало из зависимости - тому есть версии. Если оценить регрессию, получим константу на уровне 5,8%. Если бы мы взяли данные не у докторов, а у господа Бога, у которого есть вся генеральная совокупность, и который точно знает, кто болел, а кто нет - то константа была бы равна 0. Тестируем район с нулем случаев - получаем 0% антител.

Но у простых смертных тесты имеют ошибки. И еще простые смертные формируют смещенные выборки, делая выбор, идти или не идти на тест. Однако, если предположить, что самоотбор людей работает во всех районах Москвы примерно одинаково, то оценив константу, мы на самом деле оцениваем специфичность теста на антитела. Это тот % ложноположительных, который мы получим, протестировав совершенно здоровую популяцию.

По данным (непроверенным) тут, чувствительность (s) и специфичность (c) теста равны 96,26% и 95,38%.

А значит, что имея X истинно положительных в популяции, получим Y = X*s+(1-X)*(1-c) положительных тестов. Пересчитав московские результаты, получим истинные Х для АО Москвы такие:

ВАО - 9,25%
ЗАО - 7,62%
САО - 8,82%
СВАО - 9,79%
СЗАО - 7,83%
ЦАО - 8,16%
ЮВАО - 9,33%
ЮЗАО - 7,18%
ЮАО - 8,49%

И для всей Москвы примерно 8,5%. И с этими цифрами оценка константы становится нулем (статистически) и вся зависимость выглядит логично. (рис. 2)

Всю жизнь получаю удовольствие от этого момента, когда вдруг за цифрами удается увидеть спрятанную от беглого взгляда суть вещей.

Похоже, что пиарщики мэрии озвучили "сырую" цифру. Это общая проблема, к сожалению. Политики любят эти сырые цифры озвучивать, т.к. по сравнению с ними летальность кажется ниже. Губернатор шт. Нью-Йорк, и мэр города озвучивали сырые цифры. Про Мадрид я так и не нашла информации - их 11% это с поправкой на ошибки или без?

Осталось разобраться, что с САО. Версия Сергея Шпилькина о том, что в выборке рандомного тестирования не представлены люди, попавшие в локальную вспышку в северных районах вполне вероятна, если учесть, что из этих районов относительно далеко ехать на тестирование. Это один из видов самоотбора, который может искажать результаты.

Можно попробовать вырезать труднодоступные районы, откуда долго ехать в поликлиники, из выборки и пересчитать. Я надеюсь, что достоверные данные по районам появятся рано или поздно, и многие загадки можно будет коллективным разумом ученых и аналитиков разгадать".