Условия статистической значимости различий в простейшем двух-выборочном «поперечном» когортном исследовании с редкими событиями. Связь с распределением Фишера–Снедекора
Условия статистической значимости различий в простейшем двух-выборочном «поперечном» когортном исследовании с редкими событиями. Связь с распределением Фишера–Снедекора
Аннотация
Для проведения «поперечного» эпидемиологического исследования редкой профессиональной заболеваемости с использованием четырехпольных таблиц сопряженности были определены условия статистической значимости различий в сравниваемых группах работников. Обнаружено, что статистически значимый рост заболеваемости в экспонированной группе при соответствующем планировании исследования может быть выявлен при любом количестве редких наблюдений, за исключением нулевого. Надежная регистрация данных возможна даже при отсутствии «случаев» в контрольной группе.
С целью повышения инструментальной точности оценки вероятностных показателей предлагается применение байесовской процедуры оценки в сочетании с использованием непрерывных распределений, сопряженных с распределениями Пуассона. Данное усовершенствование обусловлено необходимостью устранения противоречия между непрерывностью величин показателей заболеваемости и дискретностью наблюдаемых данных, характерного для традиционных методов анализа таблиц сопряженности. Внедрение предложенного подхода позволяет получить более точные оценки и минимизировать их смещение.
Установлено, что отношение неизвестных величин относительной заболеваемости (HR) в исследуемой и контрольной группах может рассматриваться как случайная величина, подчиняющаяся распределению Фишера–Снедекора. Последнее хорошо изучено в теории вероятностей, имеет подробные таблицы и является удобным для проведения вычислений. В частности, так называемое байесовское p-значение является полным функциональным аналогом p-значения Фишера при исследовании редких событий. Благодаря указанным свойствам предложенная методика может быть продуктивной для ретроспективного расследования профессиональных заболеваний на предприятиях Российской Федерации.
1. Введение
Распространенной эпидемиологической мерой связи «фактор – эффект» является отношение показателей риска (hazard ratio,
где операндами являются результаты наблюдений, структура которых представлена в таблице 1.
Таблица 1 - Структура результатов наблюдения при «поперечном» однофакторном исследовании заболеваемости
| Случаи заболевания | Человеко-годы наблюдения |
Экспонированная группа (фактор риска есть) | m1 | A1 |
Интактная группа (фактора риска нет) | m0 | A0 |
При этом интенсивность в каждой возрастной страте определяется как отношение приращения числа «случаев» в ней к приращению человеко-лет наблюдения за некоторый период, достаточно малый настолько, чтобы изменение интенсивности за счет изменения возраста давало бы вклад в
С метрологической точки зрения, для редких событий измеримую случайную интенсивность
Таким образом, немаловажен вопрос о получении вероятностно-обоснованных непрерывных оценок интенсивности заболеваемости по редким дискретным (однократным) наблюдениям в «поперечном» эпидемиологическом исследовании. Для практики актуален также ответ на сопутствующий вопрос о корректной оценке статистической значимости или незначимости наблюдаемых различий в исследуемой и референсной выборках при их сравнении. Цель статьи — в получении ответов на эти вопросы, а также — в установлении экстенсивных условий, позволяющих целенаправленно планировать экспертное статистическое исследование при поиске связи хронического заболевания с профессией.
2. Метод исследования
В основу используемого метода должно быть положено понимание принципиальной непрерывности стохастической измеряемой и измеримой непрерывной интенсивности специфических событий
связывающем неизвестную интенсивность
Выражение это является приближенным, но существенно более точным, чем типично используемая нормальная аппроксимация. Согласно теореме Байеса, оно может рассматриваться как распределение возможных апостериорных оценок при условии априорно равномерного ожидания произвольных оценок интенсивности
Благодаря указанному переосмыслению процедуры оценки интенсивностей, величина hazard ratio (
или
где
где
Практическое исчисление по формуле (6) имеет ощутимые удобства, связанные не только с тем, что она лучше соответствует математической природе «поперечных» эпидемиологических исследований, но также и с тем, что неполная бета-функция хорошо табулирована в популярных вычислительных пакетах программ: MathCAD, Mathematica, MatLab и в языковых библиотеках R, Python. Прямое вычисление неполной бета-функции вместе с обратной ей функцией есть даже в электронных таблицах Excel, например, БЕТА.РАСП(0,5;5;1;1) = 0.03125. То есть вычисление
при условии
3. Пример применения
Чтобы убедиться в продуктивности изложенного подхода к оценке редких наблюдений в эпидемиологических исследованиях, рассмотрим результат исследования влияния экспозиции малыми концентрациями дисульфида углерода (сероуглерод) на рабочих местах на интенсивность заболеваемости ишемической болезнью сердца (ИБС)
. Ситуация с воздействием4. Результаты определения условий статистической значимости различий для таблиц 2×2
Величина p-значения в выражении (6) зависит от трёх параметров — отсчётов
Таблица 2 - Условия достижимости статистической значимости различий заболеваемости для таблиц с редкими событиями
m1 | |||||||
m0 | 0 | 1 | 2 | 3 | 4 | 5 | 10 |
0 | - | 0,288/8,38 | 0,583/6,60 | 0,897/5,89 | 1,22/5,22 | 1,24/5,29 | 3,20/4,81 |
1 | 0,026/15,9 | 0,157/6,39 | 0,331/4,81 | 0,521/4,20 | 0,719/3,87 | 0,920/3,67 | 1,95/3,25 |
2 | 0,017/15,1 | 0,108,5,80 | 0,233/4,28 | 0,372/3,69 | 0,518/3,37 | 0,668/3,18 | 1,44/2,77 |
3 | 0,013/14,7 | 0,083/5,53 | 0,181/4,03 | 0,291/3,44 | 0,407/3,13 | 0,527/2,93 | 1,15/2,53 |
4 | 0,010/14,4 | 0,067/5,36 | 0,148/3,88 | 0,239/3,29 | 0,336/2,98 | 0,436/2,79 | 0,958/2,38 |
5 | 0,0086/14,3 | 0,056/5,25 | 0,125/3,77 | 0,203/3,19 | 0,286/2,88 | 0,372/2,69 | 0,824/2,28 |
10 | 0,0047/13,9 | 0,031/5,01 | 0,071/3,54 | 0,116/2,96 | 0,165/2,65 | 0,216/2,46 | 0,488/2,05 |
Примечание: числитель дроби в каждой ячейке таблицы указывает на максимально допустимое отношение числа человеко-лет наблюдения A1/A0 в таблице 2×2, необходимое для достижения границы принятия решения на уровне значимости различий интенсивностей 0.05; знаменатель дроби указывает на минимально возможное отношение интенсивностей заболеваемости, которое можно идентифицировать с уровнем значимости не хуже 0.05 при условии превышения заболеваемости в экспонированной группе; верхняя строка таблицы содержит отсчёты m1 в экспонированной группе; левый столбец содержит отсчёты m0
На основании таблице 2 могут быть сделаны следующие выводы:
1. При любом количестве редких наблюдений заболеваемости, кроме
2. Надёжная регистрация факта повышения заболеваемости возможна даже в том случае, когда в интактной нет ни одного случая болезни. Однако и тогда hazard ratio не обращается в бесконечность, как этого можно было ожидать на основании точечной оценки (1).
3. При наблюдении редких случаев заболевания невозможно идентифицировать статистически значимый рост заболеваемости менее, чем в 2–2,5 раза, то есть невозможно статистически обнаружить влияние вредных факторов, которые характеризовались бы малой или средней силой связи с состоянием здоровья.
Закономерен вопрос, каким образом в подобных исследованиях некоторым эпидемиологам удаётся обнаружить относительные риски на уровне 1,6 (Уайлд и др., 1995
), когда в группе шахтёров по добыче поташа смертность от ишемической болезни сердца была выше среди работающих под землёй по сравнению с работающими на поверхности, или же на уровне 1,6 по частоте астмы у медицинских работников, регулярно использующих на рабочем месте защитные перчатки из порошкового латекса ? Однако публикации , уже выходят за рамки простых однофакторных поперечных исследований, поскольку учитывают продолжительность внешнего воздействия факторов и многофакторный характер заболеваний вместе с применением регрессионных моделей, что позволяет принять в анализ существенно большее общее количество случаев заболеваний за счёт расширения и усложнения таблицы сопряженности за пределы размера 2×2. Важно только, чтобы темп увеличения количества страт на стадии дизайна рос медленнее темпа увеличения количества охватываемых случаев, чтобы число последних в отдельных стратах не устремлялось к нулю. Если такой контроль статистического исследования отсутствует, то оценка величины эффекта и оценка факторных трендов может оказаться сильно смещённой и даже недостоверной, как это не раз наблюдалось в работах , , , , когда общее число страт многократно превосходило общее число «случаев».5. Обсуждение
Прежде всего, отметим, что с технико-вычислительной точки зрения расчеты по формулам (3, 5, 6, 7) оказались не сложнее традиционного использования формул нормального распределения или распределения хи-квадрат, свойственных сложившимся методам оценки таблиц 2×2.
Однако несомненно и то, что рассмотренная в статье методология многим практикующим эпидемиологам может показаться чрезмерной или претенциозной, несмотря на известные и уже упоминавшиеся недостатки подходов Карла Пирсона, Рональда Фишера, Фрэнка Йейтса и Джозефа Берксона, связанные с необходимостью следовать правилу Кокрэна и искусственно согласовывать математический аппарат описания непрерывных оценок с дискретной природой наблюдений путем введения поправок на непрерывность. Иными словами, чтобы избежать сомнений в преимуществах предлагаемого метода, следует обратить внимание на то, что традиционные методы анализа таблиц сопряженности с 1900 года рассматриваются как прямые методы оценки, не являясь ими. Ряд современных авторов до сих пор утверждает подобное
, , без тени сомнения. На самом же деле, идентификация заранее неизвестных параметров или трендов через наблюдаемые величины совершенно другой статистической природы — это исключительно косвенные методы идентификации или обратная задача. Косвенный характер ясно виден уже на стадии записи результатов наблюдений в таблицу, поскольку измеряется объективно существующая количественно непрерывная стохастическая величина заболеваемости через случайные реализации дискретных отсчётов так же, как причина измеряется через следствия — всегда с некоторой неопределенностью. В нашей работе эта связь явно прописывается в математической модели байесовского распределения (3). С этой точки зрения изложенный метод следует считать не менее точным, как и «точный» перестановочный тест Фишера — «exact permutation Fisher test» . Нужно, однако, понимать, что последний ограничен только консервативной оценкой достигнутого уровня статистической значимости и игнорирует само измерение отношения заболеваемостей. Он нуждается в коррекции на непрерывность, а точным называется только благодаря тому, что не использует аппроксимаций распределения наблюдений.Доверительные интервалы, определяемые по квантилям КФР (6) в силу байесовской природы ПРВ (3) следует рассматривать в качестве «credible interval» в отличие от оценок «confidence interval» Пирсона. Кроме того, в классических методах анализа таблиц сопряженности центральным положением теории выступало понятие «нулевой гипотезы», в рамках которой расчеты проводились на основе ненаблюдаемого (гипотетического) «нулевого» распределения. Поэтому тесты Пирсона и Фишера фактически являлись тестами проверки однородности двух выборок в таблице сопряженности. В отличие от этого, мы оцениваем значимость расхождения в показателях заболеваемости, поскольку оперируем условными распределениями без использования гипотезы о совпадении. Заметим, что традиционная статистика Пирсона и Фишера избегает явного употребления понятия условной вероятности, несмотря на то, что привязка выводов к гипотетическому понятию «нулевой гипотезы» — тоже операция при заданном условии. Наиболее определённо эта идейная установка была выражена Фишером: «...обратная вероятность является ошибкой (возможно единственной ошибкой, которой посвятил себя математический мир)...»
, . Иными словами, Фишер никогда не рассматривал анализ таблиц сопряженности как обратную задачу идентификации объекта.Тем не менее, можно показать, что байесовское p-value является естественным количественным аналогом величины p-value Фишера, несмотря на методологические и смысловые различия двух показателей, по крайней мере, для простейшего «поперечного» эпидемиологического исследования, допускающего строгую трактовку отсчётов «случаев» в качестве пуассоновских случайных величин. Чтобы показать это, рассмотрим ранее процитированный пример Нурминена , где сопоставляются две выборки: 7/1021 против 1/1029. При этом для упрощения математических выкладок ограничимся частным случаем
где
Определенный интерес представляет также сравнение байесовского метода оценивания показателей заболеваемости и их отношения с приближённым score-методом, восходящим к оценкам Вальда . В основу последнего изначально положено предположение о том, что и показатели заболеваемости, и отношение показателей подчиняются логнормальным распределениям. Это приводит к центральной оценке (1) для
где
6. Заключение
Таким образом, для целей «поперечного» эпидемиологического исследования возможной статистической связи профессиональной заболеваемости с единственным производственным фактором предложена байесовская процедура оценки значимости увеличения интенсивности редких событий повышенной заболеваемости на фоне некоторой спонтанной или нулевой заболеваемости при сравнении групп работников. С точки зрения количественного анализа, процедура может быть отнесена к классу «точных», наподобие известного точного перестановочного теста Фишера. Показано, что в описанных условиях все потенциально возможные оценки отношения заболеваемости в группах сравнения подчиняются распределению Фишера-Снедекора, что позволяет уверенно оценивать степень надёжности или ненадёжности окончательных выводов. Предложенная методика статистической оценки редких событий может быть использована для ретроспективного расследования случаев профессиональных заболеваний работников, предусмотренного Правилами , действующими в Российской Федерации с 1 марта 2023 года.
