Совсем недавно в издательстве Альпина нон-фикшн при поддержке «Эволюции» вышла книга Эдварда Шейнермана «Путеводитель для влюблённых в математику». Представляем вашему вниманию главу 20 про вероятности в медицине.
ВЕРОЯТНОСТЬ В МЕДИЦИНЕ
Объявлено медицинское тестирование, диагностирующее наличие или отсутствие некой редкой болезни. Это чрезвычайно надежный тест. Вы принимаете решение пройти его и с ужасом получаете положительный результат. Насколько стоит беспокоиться?
Перевести беспокойство на язык цифр непросто, но в подобных ситуациях нужно сосредоточиться, потому переформулируем вопрос: насколько велика вероятность, что вы действительно подхватили это редкое заболевание?
Для ответа необходимо знать уровень надежности теста, а кроме того, как мы скоро увидим, уровень распространения болезни. Вот эти данные.
Редкая болезнь поразила 0,1% населения. Состояние здоровья одного человека из тысячи вызывает тревогу.
Тест не идеален, как и всякий медицинский тест. Предположим, он дает верную информацию в 98% случаев. Таким образом:
― среди 100 здоровых людей 98 человек получают верный отрицательный результат и 2 человека — неверный положительный;
― среди 100 больных людей 98 человек получают верный положительный результат и 2 человека — неверный отрицательный.
Разумеется, мы хотим пройти еще более надежный тест, но предположим, что это единственный возможный способ диагностировать наличие или отсутствие болезни.
Вопрос: если результаты теста положительные, какова вероятность того, что вы больны?
Ответ выглядит очевидным. Мы указали, что тест дает верные результаты в 98% случаев. Таким образом, вы больны с вероятностью 98%. Верно?
Вообразим город с миллионом жителей. Один из тысячи болен. Другими словами, 1000 жителей больны и 999 000 здоровы.
Все жители проходят медицинское тестирование. Посмотрим, сколько будет положительных результатов, если тест эффективен на 98%.
• Среди тысячи больных жителей положительный результат получит большинство, но не все. Их количество 1000 × 0,98 = 980.
• Среди 999 000 здоровых жителей большинство покинет поликлинику с радостной новостью об отсутствии болезни, но 2% получат ложный результат. Это дает еще 999 000 × 0,02 = 19 980 положительных результатов.
В общей сложности 980 + 19 980 = 20 960 жителей получат положительный результат.
Теперь мы можем правильно ответить на поставленный вопрос: какова вероятность того, что вы больны, если ваш результат тестирования положительный?
Среди двадцати с лишним тысяч людей с положительным результатом всего лишь меньше тысячи действительно больны. Точная вероятность правильности теста в этом случае равна 980 / 20960 = 4,7%.
Вероятность того, что вам стоит беспокоиться, не равна 98%! На самом деле вероятность того, что вы заражены этой редкой болезнью, меньше 5%!
Стало быть, тесту грош цена? Не совсем.
Во-первых, если ваш лечащий врач имеет веские причины предполагать у вас наличие этого редкого заболевания, вы больше не «случайный» пациент. И если у вас действительно прослеживаются определенные симптомы, вероятность того, что вы заражены, уже не одна тысячная, а скажем, одна четвертая*. В этом случае положительный результат тестирования имеет гораздо больший смысл, чем нестрого обоснованные выводы.
Во-вторых, если болезнь действительно опасна, тест, эффективный на 98%, позволяет хорошо просеять большие массы населения на предмет наличия или отсутствия болезни. Пациенты с положительным результатом могут пройти вторую диагностику, дающую еще более точные результаты. Разумеется, отрицательный результат — не повод успокаиваться полностью. Какова вероятность того, что он верен? (Ответ я дам в конце главы.)
Интуиция отказывается принимать тот факт, что тест, надежный на 98%, может быть настолько несовершенным, но вычисления говорят сами за себя. Впрочем, голые цифры могут обманывать нашу интуицию. Попробуем нарисовать картинку.
Заметим: диаграмма не соблюдает пропорции (0,1% больных, эффективность теста 98%).
На чертеже большой прямоугольник изображает все население. Фрагмент прямоугольника слева вверху обозначает группу больных жителей, оставшаяся часть — группу здоровых жителей. Серая полоса сверху — это все жители (из обеих групп) с положительным результатом. Белая область внизу — все жители (опять-таки из обеих групп) с отрицательным результатом
Чертеж иллюстрирует основные детали вышеописанной ситуации:
• болезнь редкая — крохотный фрагмент большого прямоугольника символизирует больную часть населения;
• тест верно диагностирует наличие болезни у подавляющей части больных — почти весь прямоугольник слева вверху закрашен серым;
• тест верно диагностирует отсутствие болезни у подавляющего большинства здоровых людей — огромная область большого прямоугольника остается белой;
• ключевой момент: большая часть серой полосы приходится на здоровых людей, поэтому вы, скорее всего, здоровы, если получили отрицательный результат, но не обязательно больны, если получили положительный.
Условная вероятность**
Мы вычислили вероятность того, что пациент с положительными результатами медицинского тестирования действительно болен. Мы вообразили гипотетический город, где живет миллион человек, и посчитали численность разных категорий населения. Это был способ ad hoc***. В общем случае мы должны руководствоваться языком теории вероятностей, и я завершу главу разъяснениями по этому поводу.
Для события A мы обозначаем P (A) вероятность того, что событие A произойдет, и — вероятность того, что событие A не произойдет; таким образом, .
Для событий A и B мы обозначаем P (A /\ B) вероятность того, что произойдут оба события — и A, и B.
Запись P (A | B) означает вероятность того, что из события A следует событие B; это условная вероятность того, что A влечет за собой B. Формула Байеса*** говорит нам:
Надежность диагноза, вынесенного на основе упомянутого медицинского теста, может быть выражена на языке математики следующим образом. Пусть S означает, что некто заражен редкой болезнью, а T означает положительный результат тестирования. Таким образом:
• болезнь поразила 0,1% населения, откуда следует, что P(S) = 0,001;
• тест дает верную информацию о наличии или отсутствии заболевания в 98% случаев, откуда следует, что P (T|S) = 0,98;
• тест дает верную информацию о том, что человек здоров, в 98% случаев, откуда следует, что . Иначе говоря, тест ошибочен в 2% случаев: .
Вопрос: какова вероятность того, что пациент с положительным результатом тестирования действительно болен?
Если перевести задачу на язык символов, то мы ищем величину P (S|T). По формуле Байеса эта вероятность равна Нам нужно узнать P (S /\ T) и P (T).
Начнем хоть с P (S /\ T), хоть с P (T /\ S). По формуле Байеса
Мы знаем, что P (T|S) = 0,98, а P (S) = 0,001. Следовательно, P (S /\ T) = P (T /\ S) = P (T|S) × P (S) = 0,98 × 0,001 = 0,00098.
Теперь вычислим P (T). Нам известно, что P (T|S) = 0,98, а . В то же время . Далее:
Применим формулу Байеса в последний раз:
Это совпадает с нашими предыдущими вычислениями.
Если у вас есть симптомы
Предположим, шансы быть пораженным болезнью при наличии определенных симптомов равны 25%. Какова вероятность того, что вы и вправду больны, если результат тестирования положительный? Снова вообразим город с миллионом жителей. На сей раз 250 000 больны и 750 000 здоровы.
• Среди 250 000 больных верный положительный результат тестирования получают 250 000 × 0,98 = 245 000 жителей.
• Среди 750 000 здоровых ложный положительный результат тестирования получают 750 000 × 0,02 = 15 000 жителей.
В общей сложности 260 000 получают положительный результат, и среди них 245 000 действительно больны. Таким образом, при положительном результате теста вероятность того, что вы тоже подхватили заразу, увеличивается до 245 / 260 = 94,2%.
Если ваш результат тестирования отрицательный
Предположим, вы прошли тестирование и получили отрицательный результат. Какова вероятность того, что вы действительно здоровы?
В нашем городе с миллионным населением 1000 человек больны и 999 000 здоровы. Сколько всего будет отрицательных результатов теста?
• Среди 1000 больных 2% получат ложные отрицательные результаты; всего 1000 × 0,02 = 20 человек.
• Среди 999 000 здоровых 98% получат верные отрицательные результаты. Всего 999 000 × 0,98 = 979 020 человек. Вероятность того, что вы здоровы и получили отрицательный результат теста, равна
Фантастические новости! Но помните: и безо всякого теста вероятность быть здоровым 99,9%. Величина добавочной уверенности на основе теста ничтожна.
* Предположим, вы попали в категорию людей, где 25% поражены болезнью. Какова вероятность того, что вы заражены, если результат тестирования положительный?
** Этот раздел предназначен для тех, кто уже изучал теорию вероятностей и хочет освежить свои знания.
*** По особому случаю (лат.). — Прим. пер.
**** Томас Байес (1702–1761) — британский пресвитерианский священник, богослов и математик. — Прим. пер.