* Окончание. Начало в №№11, 12, 2006; №1, 2007.
В первом сообщении были рассмотрены важнейшие для доказательной медицины (ДМ) вопросы доказательности сведений, полученных в исследованиях разного дизайна, и причины, по которым упрощенные исследования не могут доказать эффективность или неэффективность лечебного вмешательства. Были рассмотрены способы поиска высококачественных исследований в мировой литературе. К сожалению, по некоторым вопросам существует множество исследований, и врачу трудно понять, какой же вывод следует из их противоречивых результатов. В настоящем сообщении: 1) излагаются принципы обобщения данных отдельных исследований и способы поиска таких обобщений (систематических обзоров); 2) описываются основные подходы к индивидуализации лечения, т.е. к применению доказательных данных к отдельному пациенту.
Систематический обзор
Медицинские исследования всегда ограничены по числу пациентов, которых можно привлечь, или по числу людей из популяции, которых можно включить на добровольной основе. Чем выше риск для участников исследования и чем сложнее процедура, тем меньше число участников. С уменьшением числа участников снижается статистическая чувствительность исследования (мощность, power [англ.]). Повышается риск того, что даже при наличии преимуществ у одного из вмешательств, это преимущество не будет выявлено. Чем меньше число участников исследования, тем больше влияние случайности на результат исследования и соответственно больше затруднений у врача. Есть сообщения об одних исследованиях, в которых демонстрируется полезность вмешательства, и одновременно о других — обнаруживающих его вредность. До недавнего времени расхождения исследований разрешались голосованием. Этот способ, очевидно, был неверным, поскольку его главная ошибка состоит в равенстве «голосов». В действительности исследование с участием 10 пациентов не может «весить» столько же, сколько исследование, в котором принимают участие 100 пациентов. Поэтому в конце ХХ века на смену «голосованию» пришли технологии систематического обзора (СО) и метаанализа.
Технология систематического обзора базируется на трех основных положениях.
1. Исследования имеют разную структуру. Например, могут быть как описания случаев, так и контролируемые испытания. Они дают совершенно разные по убедительности результаты. Поэтому выводить обобщенные оценки величины эффекта имеет смысл только на основании результатов однородных исследований.
2. Результаты исследования представлены в разных источниках, прежде всего — в журналах. Некоторые из них не опубликованы. Для того чтобы получить правильную (несмещенную) обобщенную оценку величины эффекта вмешательства, надо найти все проведенные исследования. Чем меньше доля от всех исследований найдена, тем больше вероятность смещения (систематической ошибки). Например, если исследователь в Китае ограничится испытаниями эффективности иглоукалывания при головной боли, результаты которого будут опубликованы на китайском, то он обнаружит, что во всех исследованиях иглоукалывание будет признано эффективным, а эффект — значительным. Другой исследователь, ограниченный знанием английского языка, в доступных ему источниках обнаружит, что половина исследований дали отрицательный результат, а обобщенная величина эффекта является незначительной. Поэтому ключевой шаг в получении обобщенной оценки — сбор полных данных для обобщения.
3. Исследования имеют разное качество. Одни выполнены по всем правилам, их называют высококачественными. Другие — с нарушениями, например, при отсутствии ослепления у врачей, оценивавших результаты лечения, а также при отсутствии сокрытия результатов рандомизации. Их качество называют низким, и по возможности (при наличии высококачественных исследований) исключают из рассмотрения.
Во многих случаях систематический обзор на этом заканчивается. Иногда это можно объяснить тем, что доброкачественных данных найти не удается, а иногда тем, что исследования оказываются очень различными, например, проведенные с участием различающихся пациентов. В одних случаях объяснение состоит в том, что были использованы существенно разные дозы, в других — размер эффекта в этих исследованиях оказывается столь разным, что выводить из этих результатов единую оценку было бы легкомысленно (это называют гетерогенностью результатов). Лишь в тех случаях, когда находится более одного исследования и они относительно однородны, проводят метаанализ.
Метаанализ
Метод метаанализа, т.е. анализа за пределами обычного анализа данных, был разработан для того, чтобы преодолеть слабость (низкую статистическую чувствительность или мощность) малых исследований. Он состоит в объединении результатов нескольких исследований и расчете общих показателей, например, различия в риске смерти или возникновения осложнений. Конечно, объединять можно только исследования, которые проведены в одинаковых условиях.
Наиболее опасным применением метаанализа является объединение результатов наблюдательных исследований (например, результатов сравнения заболеваемости в группах населения с особенностями питания или поведения). Пациентов в таких исследованиях в группы разделяют не случайным образом. Они сами себя «назначают» в группы. Исследователь сравнивает группы с разной длительностью выполнения физических упражнений в течение недели, чтобы выяснить, помогает ли физкультура сохранить здоровье, а оказывается, что люди, которые упражняются больше, еще и реже курят, по-иному питаются и т.д. Дополнительные сложности возникают вследствие того, что популяции сильно различаются между собой. Это может приводить к большому количеству ошибок при объединении данных. Относительно надежным считается использование метаанализа для объединения результатов экспериментальных исследований. Двадцать лет назад в печати было мало метаанализов. Теперь врач довольно часто находит статьи в медицинских журналах, в которых используется метаанализ, и очень часто обнаруживает, что клинические рекомендации и стандарты основываются именно на результатах метаанализов. При изучении таких результатов не следует ограничиваться рассмотрением одного конечного показателя метаанализа, например, суммарного отношения шансов для всех исследований. По-настоящему это возможно лишь в том случае, когда результаты всех сравниваемых испытаний предстают как выборки из одной популяции, где наблюдается одинаковый эффект, и различия между результатами являются проявлениями случайной ошибки. Иными словами, предполагается, что разные исследования — это лишь части одного эксперимента. Для объединенного анализа таких результатов можно применять соответствующую ему модель фиксированного эффекта (fixed effects model, англ.).
Если результаты исследований значительно различаются (высокая гетерогенность — heterogeneity, англ.), то обобщение результатов дает менее надежную обобщающую оценку [1]. Клинически значимой можно считать разницу между результатами отдельных исследований, если разница между двумя самыми разными результатами выражается более чем в 20% снижения относительного риска (например, в одном исследовании 40%, а в другом — более 60%). Второй признак неприемлемой гетерогенности основан на сопоставлении границ доверительных интервалов (ДИ). Опять сравниваем два исследования, давших самые крайние результаты — самое большое и самое малое снижение относительного риска. Гетерогенность велика, если между верхним пределом ДИ «нижней» оценки и нижним пределом ДИ «верхней» оценки более 5% от разности средних.
Статистическую оценку гетерогенности испытаний проводят с помощью критерия χ2. При чтении статьи оценить статистическую значимость критерия можно примерно так: если величина критерия не выше числа степеней свободы, следовательно, значимых различий нет. Степени свободы в данном случае — число испытаний минус единица. Критерий к гетерогенности не очень чувствителен. Это означает, что обнаружение гетерогенности — ее доказательство, но низкая величина критерия недостаточно надежно исключает гетерогенность.
При наличии гетерогенности результатов отдельных исследований от их объединения отказываются или применяют модель случайных эффектов (random effects model, англ.). Эта модель предполагает, что различия между исследованиями отражают реальные различия между популяциями. Предполагается, что обнаруженные в этих популяциях эффекты по своей величине распределены нормально, и статистическую значимость наличия эффекта можно оценить на этой основе. В результате применения статистического критерия получается обычная оценка (например, методы лечения различны по величине эффекта при принятом уровне статистической значимости). Статистическая чувствительность модели случайных эффектов — значительно ниже. Иными словами, эта модель может не обнаруживать статистически значимых эффектов там, где модель фиксированных эффектов выявляла статистически значимые различия между вмешательствами. Обычно так бывает, когда размер эффекта вмешательства невелик. Поэтому чаще нельзя с уверенностью сказать, есть эффект или нет.
Обычно считается, что окончательный ответ на вопрос: «Эффективно ли вмешательство А при состоянии В для предотвращения исхода С?» получают в большом и хорошо организованном испытании. Такое испытание проводят обычно не сразу, а только тогда, когда на важный вопрос долгое время не удается получить ясный ответ. Так было при оценке эффективности магния сульфата и аспирина при преэклампсии, нитроглицерина — при инфаркте миокарда. Однако такие исследования не всегда доступны, иногда продолжаются долгие годы, прежде чем для этого найдется возможность. Метаанализ позволяет получить наиболее обоснованный ответ на важный вопрос до той поры, когда будет проведено «решающее исследование». Объединение данных отдельных небольших исследований с помощью метаанализа не обязательно приводит к такому же результату, как проведение испытания с участием большого числа людей. Например, в малых испытаниях по эффективности применения нитратов при инфаркте миокарда было выявлено в среднем значительное снижение летальности, но в больших испытаниях данный эффект не был подтвержден. Опыт показывает, что в 10–20% случаев различия между метаанализами малых испытаний и результатами больших испытаний могут быть больше, чем можно было бы ожидать только от случайных вариаций. Это естественно, поскольку безошибочных методов не бывает; выводы метаанализа зависят от того, какие результаты получаются в завершенных исследованиях, а также какие исследования удается найти и включить в анализ. Расхождение результатов метаанализа и «решающего эксперимента» — дефект не метаанализа, а тех научных данных, которые доступны до проведения «решающего эксперимента».
Наибольшая опасность подстерегает авторов метаанализов именно вследствие того, что они вынуждены объединять результаты только тех исследований, которые им известны. Поскольку публикуются не все исследования, то обобщение только опубликованных результатов приводит к систематической публикационной ошибке или смещению (publication bias, англ., см. рисунок). Почти всегда публикационное смещение направлено в сторону преувеличения эффекта вмешательства. Это происходит потому, что исследователи с удовольствием печатают результаты исследований, подтвердивших гипотезу об эффективности нового лечения, а при отсутствии эффекта не утруждают себя усилиями опубликовать результаты. Если же речь идет о лекарственном средстве, а исследование финансирует его производитель, то в таком случае опубликование «отрицательного результата» наносит прямой ущерб продажам!
Для того чтобы нерадивые исследователи и недобросовестные производители не могли избирательно публиковать результаты исследований, создаются специальные регистры клинических испытаний (например,www.TrialsCentral.org). Без предварительной регистрации испытания в таком регистре его результаты потом нельзя представить в печать или в разрешительные органы. Уже сейчас в международных журналах вы можете обнаружить в выходных данных публикуемого испытания его регистрационный номер в одном из регистров. Развивающаяся сейчас полная регистрация всех клинических испытаний ослабит нашу зависимость от опубликования результатов. Данные зарегистрированного испытания так или иначе станут достоянием научного сообщества.
Приложимость результатов исследования к отдельному пациенту
Для многих начинающих врачей является проблемой сам принцип переноса «статистических данных» на отдельного пациента. Кажется, что если лечение приводит к выздоровлению так же, как плацебо, в 60% случаев, то: 1) лечение полезно для 6 пациентов из 10; 2) плацебо полезно такому же числу пациентов. Это грубая ошибка. В действительности такие сведения ясно говорят, что данное лечение бесполезно, а плацебо бесполезно по определению (если не считать обман пользой).
Второе схожее заблуждение состоит в том, что если польза вмешательства мала, то отказ от него воспринимается как попытка оставить пациента без лечения. Например, в испытаниях скрининга на рак молочной железы (РМЖ) было показано, что увеличенная выявляемость РМЖ и соответствующее снижение смертности от РМЖ наблюдаются только в группах женщин старшего возраста. Соответственно американские профессиональные организации рекомендовали профилактическую маммографию только женщинам старше 50 лет. Если процедура не рекомендована, то в США это означает, что ее проведение не будет оплачиваться страховой компанией. Для неспециалиста ситуация выглядит так, как будто имеет место «экономия на здоровье женщин». Якобы, из-за такой экономии на основании статистических данных «отдельной конкретной женщине» не будет проведена маммография и не будет своевременно выявлен РМЖ. На основе подобных соображений Конгресс США оказал давление на онкологическое сообщество, и врачи изменили свои рекомендации, снизив рекомендуемый возраст [2].
Главная ошибка в таких рассуждениях состоит в следующем. Если врач считает, что «данная конкретная женщина» не отличается существенно от женщин, с участием которых проводили испытания маммографического скрининга, то на нее распространяются все сведения о полезности (бесполезности) процедуры и ее вреде. Других оснований думать, что она получит от маммографии пользу, нет. Более того, поскольку испытания показали, что у таких женщин пользы нет, то это означает, что у данной женщины даже при раннем обнаружении опухоли нет оснований ожидать пользы от последующего лечения. Вред от таких процедур всегда реален и ощутим. Для скрининга на РМЖ вред заключается в огромном количестве пункций и биопсий, выполняемых после маммографии. При этом чаще всего диагноз РМЖ не подтверждается, но болезненная процедура и напряженное ожидание результатов гистологического анализа на время делают жизнь женщины ужасной. Не случайно общества больных раком включают в свои ряды всех, кому хоть однажды сообщили, что «у вас предполагается рак». Добавим, что биопсия может давать как ложноположительные результаты, приводящие к необоснованным резекциям молочной железы, так и ложноотрицательные. Более того, даже получение истинно положительных результатов не означает, что диагностика и лечение были полезны. У части женщин обнаруживают медленно развивающиеся опухоли, которые обычным образом никогда не были бы выявлены в течение жизни, но которые выявляются при скрининге и приводят к травматичному лечению.
Применительно к нашему примеру маммографического скрининга на выявление РМЖ самое печальное состоит в следующем. При строгом анализе данных рандомизированных контролируемых испытаний маммографического скрининга на выявление РМЖ установлено, что оснований считать полезность доказанной просто нет [3]. Вероятно, та «польза», которая обнаруживалась в некоторых испытаниях, является всего лишь ошибкой, возникшей из-за погрешностей в организации испытаний.
Подчеркнем, что в нашем примере речь идет о скрининге на выявление РМЖ, а не о процедурах диагностики у женщин, в молочной железе которых обнаружен узел, и не о скрининге женщин, принадлежащих к группе высокого риска (например, вследствие семейной предрасположенности).
Данные испытания в том случае, если не все пациенты подверглись лечению в полном объеме, должны быть проанализированы исходя из предположения, что все они получили назначенное лечение (в соответствии с рандомизацией). Если анализировать только тех, кто получил полный курс лечения, то иногда создается преувеличенное впечатление о его полезности. Ведь у включенных в исследование пациентов, которые по каким-то причинам лечения не получили, могут быть совсем иные исходы. Такой анализ, проведенный разными способами называют «анализ чувствительности к смещениям» (sensitivity analysis, англ.). Он выявляет, насколько разный способ расчета и разный анализ фактических данных сказываются на результате. Если результат получается одинаковым, несмотря на разные способы расчета, значит результат нечувствителен к возможным ошибкам (устойчив).
Следует также помнить, что повседневная практика отличается от «стерилизованных» условий клинического испытания. Поэтому после испытания лечения с участием относительно однородной совокупности пациентов (это иногда называют «объяснительное испытание», т.е. проведенное для измерения лечебного эффекта) иногда проводят испытание с привлечением групп пациентов, которых уже не подбирают строго и в условиях менее строгих — чаще без «ослепления» и без «чистого» применения изолированного испытуемого метода. Зато может испытываться вся стратегия применения метода, включая другие сопутствующие манипуляции. Этот вид испытаний называют прагматическим, подчеркивая, что его результаты лучше отражают то, что получается в обычной практике. В действительности такие испытания часто выполняют роль инструмента маркетинга.
Правильно проведенное испытание наилучшим образом отвечает на вопрос о действенности вмешательства (efficacy, англ.). Высокое качество означает внутреннюю валидность исследования, т.е. это исследование дает правильную оценку того, что предполагалось измерить — действенности вмешательства. Такое испытание может быть проведено с участием особой группы пациентов (например, пациентов с сахарным диабетом II типа, получающих инсулин, и страдающих хронической обструктивной болезнью легких). Не обязательно его результаты можно переносить на всех больных сахарным диабетом II типа. Пригодность результатов испытания для экстраполяции на другие условия медицинской практики (обобщение, генерализация) называют внешней валидностью. Исследование высокого качества (внутренне валидное) не обязательно обладает внешней валидностью. Исследование низкого качества всегда имеет низкую внутреннюю валидность и никогда не может обладать внешней валидностью. Поэтому прежде всего надо оценивать качество исследования!
Только доброкачественное исследование может дать результаты, пригодные для переноса на условия другой практики (например, в другой стране, в другом типе больницы). Общим правилом для решения вопроса о применимости результатов клинического испытания является следующее: только в случае ясного и значительного отличия условий Вашей практики от условий клинического испытания его результаты следует считать неприложимыми.
Данные хорошо организованных клинических испытаний существуют все еще не для всех применяемых в медицине методов лечения. Немало медицинских вмешательств используется на основании того, что они «применяются уже давно» и «хорошо себя зарекомендовали». Во многих странах, в том числе и в России, ЛС допускаются или разрешались в недавнем прошлом к применению без доказательств их действенности, полученных в контролируемых испытаниях. По мере осознания порочности такой практики, некоторые страны приступают к ревизии свои разрешений. В 1999–2000 гг. новые требования были приняты, например, в Австралии и Италии. Там фирмы, представляющие производителей ЛС, должны были в течение короткого времени представить в разрешительные органы сведения, доказывающие эффективность и безопасность ЛС для их перерегистрации.
Если Вы не находите по интересующей Вас проблеме статьи, описывающей испытание лечения на высоком методическом уровне, «семь раз» убедитесь, что таких исследований действительно нет. Прежде всего — проверьте, правильно ли Вы проводили поиск информации, те ли источники Вы использовали, правильно ли составляли запросы. Проблема упрощается, если Вы имеете дело с эффектом лечения столь значительным, что его нельзя исследовать в контролируемом испытании. Такое бывает редко, но все же возможно: если польза от вмешательства очевидно велика, то проводить контролируемое испытание, лишая часть больных этого лечения, было бы неэтично.
Только убедившись в отсутствии рандомизированных испытаний, переходите к методически несовершенным исследованиям. Их всегда больше, они всегда менее убедительны, но зато более однозначны. При чтении таких статей надо постоянно помнить о том, что именно такими исследованиями обосновывали в свое время все виды лечения, впоследствии оказавшиеся неэффективными, — лечение и профилактика атеросклероза клофибратом, лечение пептической язвы желудка замораживанием и резекцией, облучение молочной железы при мастите и др. Учитывая обилие исследований, не выдерживающих критики, помните о законе Gresham’a: большой объем «дрянных» данных всегда имеет тенденцию к превалированию над любым количеством доброкачественных сведений. Только если в нерандомизированном испытании не обнаруживают преимуществ метода лечения или выявляют вред, то можно считать, что преимуществ нет. Если же несовершенное исследование, например описание серии случаев, свидетельствует об эффективности вмешательства, то такой аргумент нельзя считать убедительным.
Главным препятствием к широкому использованию принципов ДМ в практике является, конечно, неосведомленность врачей о том, что для многих методов диагностики и лечения существуют достаточно точные сведения об их эффективности. Есть, однако, еще одно важное препятствие: врачи не всегда готовы к тому, чтобы признать диктат научного знания, не хотят отказаться от права на произвол. Многим врачам кажется, что они понимают, как нужно лечить именно данного больного, почему его нужно лечить не так, как это записано в клинических рекомендациях, например, общества ревматологов. В действительности хорошие клинические рекомендации рассматривают основные варианты течения заболевания и условий оказания помощи (модели больного в российской практике составления клинических рекомендаций). Помимо этого во внимание могут быть приняты существующие у пациента заболевания и состояния, сопутствующая терапия, пол и возраст. Все! В большинстве случаев эти дополнительные признаки не дают оснований для существенного изменения схемы лечения. Более того, даже там, где такая индивидуализация является несомненно необходимой — у беременных и людей пожилого возраста со множественными заболеваниями — оказывается, что надежных оснований для индивидуализации или нет совсем, или она, как в случае с беременными, основывается на радикальном ограничении лекарственной терапии в целях безопасности. Идеал для ДМ — обоснование особенного, индивидуального способа ведения особой группы больных только на основе данных исследования высокого качества — испытаний, проведенных именно с участием таких больных. Этот идеал никогда в сколько-нибудь полном виде достигнут не будет. Поэтому основным правилом практики должно быть применение типового, хорошо обоснованного способа ведения больного в ситуации, когда нет убедительных доказательств того, что он должен получать иное лечение..
* Окончание. Начало в №№11, 12, 2006; №1, 2007.