Conditions for statistical significance of differences in a simplified two-sample "cross-sectional" cohort study with rare events. Relation to the Fisher–Snedecor distribution
Conditions for statistical significance of differences in a simplified two-sample "cross-sectional" cohort study with rare events. Relation to the Fisher–Snedecor distribution
Abstract
To conduct a "cross-sectional" epidemiological study of rare occupational diseases using four-cell contingency tables, the conditions for statistical significance of differences between the compared groups of workers were determined. It was found that, with appropriate research planning, a statistically significant increase in morbidity in the exposed group can be detected with any number of rare observations, except for zero. Reliable data recording is possible even in the absence of "cases" in the control group.
To improve the statistical accuracy of estimates of probability measures, it is suggested to use the Bayesian estimation procedure in conjunction with continuous distributions conjugate to Poisson distributions. This improvement is driven by the need to resolve the contradiction between the continuity of morbidity indicators and the discreteness of the observed data, which is characteristic of traditional methods of analysing contingency tables. The implementation of the proposed approach allows for more accurate evaluations and minimises their bias.
It has been established that the ratio of the unknown relative incidence rates (HR) in the study and control groups can be considered as a random variable following the Fisher–Snedecor distribution. This distribution is well-studied in probability theory, has detailed tables, and is convenient for performing calculations. In particular, the so-called Bayesian p-value is a complete functional analogue of Fisher’s p-value when investigating rare events. Thanks to these properties, the suggested methodology may prove useful for retrospective investigations of occupational diseases in enterprises in the Russian Federation.
1. Введение
Распространенной эпидемиологической мерой связи «фактор – эффект» является отношение показателей риска (hazard ratio,
где операндами являются результаты наблюдений, структура которых представлена в таблице 1.
Таблица 1 - Структура результатов наблюдения при «поперечном» однофакторном исследовании заболеваемости
| Случаи заболевания | Человеко-годы наблюдения |
Экспонированная группа (фактор риска есть) | m1 | A1 |
Интактная группа (фактора риска нет) | m0 | A0 |
При этом интенсивность в каждой возрастной страте определяется как отношение приращения числа «случаев» в ней к приращению человеко-лет наблюдения за некоторый период, достаточно малый настолько, чтобы изменение интенсивности за счет изменения возраста давало бы вклад в
С метрологической точки зрения, для редких событий измеримую случайную интенсивность
Таким образом, немаловажен вопрос о получении вероятностно-обоснованных непрерывных оценок интенсивности заболеваемости по редким дискретным (однократным) наблюдениям в «поперечном» эпидемиологическом исследовании. Для практики актуален также ответ на сопутствующий вопрос о корректной оценке статистической значимости или незначимости наблюдаемых различий в исследуемой и референсной выборках при их сравнении. Цель статьи — в получении ответов на эти вопросы, а также — в установлении экстенсивных условий, позволяющих целенаправленно планировать экспертное статистическое исследование при поиске связи хронического заболевания с профессией.
2. Метод исследования
В основу используемого метода должно быть положено понимание принципиальной непрерывности стохастической измеряемой и измеримой непрерывной интенсивности специфических событий
связывающем неизвестную интенсивность
Выражение это является приближенным, но существенно более точным, чем типично используемая нормальная аппроксимация. Согласно теореме Байеса, оно может рассматриваться как распределение возможных апостериорных оценок при условии априорно равномерного ожидания произвольных оценок интенсивности
Благодаря указанному переосмыслению процедуры оценки интенсивностей, величина hazard ratio (
или
где
где
Практическое исчисление по формуле (6) имеет ощутимые удобства, связанные не только с тем, что она лучше соответствует математической природе «поперечных» эпидемиологических исследований, но также и с тем, что неполная бета-функция хорошо табулирована в популярных вычислительных пакетах программ: MathCAD, Mathematica, MatLab и в языковых библиотеках R, Python. Прямое вычисление неполной бета-функции вместе с обратной ей функцией есть даже в электронных таблицах Excel, например, БЕТА.РАСП(0,5;5;1;1) = 0.03125. То есть вычисление
при условии
3. Пример применения
Чтобы убедиться в продуктивности изложенного подхода к оценке редких наблюдений в эпидемиологических исследованиях, рассмотрим результат исследования влияния экспозиции малыми концентрациями дисульфида углерода (сероуглерод) на рабочих местах на интенсивность заболеваемости ишемической болезнью сердца (ИБС)
. Ситуация с воздействием4. Результаты определения условий статистической значимости различий для таблиц 2×2
Величина p-значения в выражении (6) зависит от трёх параметров — отсчётов
Таблица 2 - Условия достижимости статистической значимости различий заболеваемости для таблиц с редкими событиями
m1 | |||||||
m0 | 0 | 1 | 2 | 3 | 4 | 5 | 10 |
0 | - | 0,288/8,38 | 0,583/6,60 | 0,897/5,89 | 1,22/5,22 | 1,24/5,29 | 3,20/4,81 |
1 | 0,026/15,9 | 0,157/6,39 | 0,331/4,81 | 0,521/4,20 | 0,719/3,87 | 0,920/3,67 | 1,95/3,25 |
2 | 0,017/15,1 | 0,108,5,80 | 0,233/4,28 | 0,372/3,69 | 0,518/3,37 | 0,668/3,18 | 1,44/2,77 |
3 | 0,013/14,7 | 0,083/5,53 | 0,181/4,03 | 0,291/3,44 | 0,407/3,13 | 0,527/2,93 | 1,15/2,53 |
4 | 0,010/14,4 | 0,067/5,36 | 0,148/3,88 | 0,239/3,29 | 0,336/2,98 | 0,436/2,79 | 0,958/2,38 |
5 | 0,0086/14,3 | 0,056/5,25 | 0,125/3,77 | 0,203/3,19 | 0,286/2,88 | 0,372/2,69 | 0,824/2,28 |
10 | 0,0047/13,9 | 0,031/5,01 | 0,071/3,54 | 0,116/2,96 | 0,165/2,65 | 0,216/2,46 | 0,488/2,05 |
Примечание: числитель дроби в каждой ячейке таблицы указывает на максимально допустимое отношение числа человеко-лет наблюдения A1/A0 в таблице 2×2, необходимое для достижения границы принятия решения на уровне значимости различий интенсивностей 0.05; знаменатель дроби указывает на минимально возможное отношение интенсивностей заболеваемости, которое можно идентифицировать с уровнем значимости не хуже 0.05 при условии превышения заболеваемости в экспонированной группе; верхняя строка таблицы содержит отсчёты m1 в экспонированной группе; левый столбец содержит отсчёты m0
На основании таблице 2 могут быть сделаны следующие выводы:
1. При любом количестве редких наблюдений заболеваемости, кроме
2. Надёжная регистрация факта повышения заболеваемости возможна даже в том случае, когда в интактной нет ни одного случая болезни. Однако и тогда hazard ratio не обращается в бесконечность, как этого можно было ожидать на основании точечной оценки (1).
3. При наблюдении редких случаев заболевания невозможно идентифицировать статистически значимый рост заболеваемости менее, чем в 2–2,5 раза, то есть невозможно статистически обнаружить влияние вредных факторов, которые характеризовались бы малой или средней силой связи с состоянием здоровья.
Закономерен вопрос, каким образом в подобных исследованиях некоторым эпидемиологам удаётся обнаружить относительные риски на уровне 1,6 (Уайлд и др., 1995
), когда в группе шахтёров по добыче поташа смертность от ишемической болезни сердца была выше среди работающих под землёй по сравнению с работающими на поверхности, или же на уровне 1,6 по частоте астмы у медицинских работников, регулярно использующих на рабочем месте защитные перчатки из порошкового латекса ? Однако публикации , уже выходят за рамки простых однофакторных поперечных исследований, поскольку учитывают продолжительность внешнего воздействия факторов и многофакторный характер заболеваний вместе с применением регрессионных моделей, что позволяет принять в анализ существенно большее общее количество случаев заболеваний за счёт расширения и усложнения таблицы сопряженности за пределы размера 2×2. Важно только, чтобы темп увеличения количества страт на стадии дизайна рос медленнее темпа увеличения количества охватываемых случаев, чтобы число последних в отдельных стратах не устремлялось к нулю. Если такой контроль статистического исследования отсутствует, то оценка величины эффекта и оценка факторных трендов может оказаться сильно смещённой и даже недостоверной, как это не раз наблюдалось в работах , , , , когда общее число страт многократно превосходило общее число «случаев».5. Обсуждение
Прежде всего, отметим, что с технико-вычислительной точки зрения расчеты по формулам (3, 5, 6, 7) оказались не сложнее традиционного использования формул нормального распределения или распределения хи-квадрат, свойственных сложившимся методам оценки таблиц 2×2.
Однако несомненно и то, что рассмотренная в статье методология многим практикующим эпидемиологам может показаться чрезмерной или претенциозной, несмотря на известные и уже упоминавшиеся недостатки подходов Карла Пирсона, Рональда Фишера, Фрэнка Йейтса и Джозефа Берксона, связанные с необходимостью следовать правилу Кокрэна и искусственно согласовывать математический аппарат описания непрерывных оценок с дискретной природой наблюдений путем введения поправок на непрерывность. Иными словами, чтобы избежать сомнений в преимуществах предлагаемого метода, следует обратить внимание на то, что традиционные методы анализа таблиц сопряженности с 1900 года рассматриваются как прямые методы оценки, не являясь ими. Ряд современных авторов до сих пор утверждает подобное
, , без тени сомнения. На самом же деле, идентификация заранее неизвестных параметров или трендов через наблюдаемые величины совершенно другой статистической природы — это исключительно косвенные методы идентификации или обратная задача. Косвенный характер ясно виден уже на стадии записи результатов наблюдений в таблицу, поскольку измеряется объективно существующая количественно непрерывная стохастическая величина заболеваемости через случайные реализации дискретных отсчётов так же, как причина измеряется через следствия — всегда с некоторой неопределенностью. В нашей работе эта связь явно прописывается в математической модели байесовского распределения (3). С этой точки зрения изложенный метод следует считать не менее точным, как и «точный» перестановочный тест Фишера — «exact permutation Fisher test» . Нужно, однако, понимать, что последний ограничен только консервативной оценкой достигнутого уровня статистической значимости и игнорирует само измерение отношения заболеваемостей. Он нуждается в коррекции на непрерывность, а точным называется только благодаря тому, что не использует аппроксимаций распределения наблюдений.Доверительные интервалы, определяемые по квантилям КФР (6) в силу байесовской природы ПРВ (3) следует рассматривать в качестве «credible interval» в отличие от оценок «confidence interval» Пирсона. Кроме того, в классических методах анализа таблиц сопряженности центральным положением теории выступало понятие «нулевой гипотезы», в рамках которой расчеты проводились на основе ненаблюдаемого (гипотетического) «нулевого» распределения. Поэтому тесты Пирсона и Фишера фактически являлись тестами проверки однородности двух выборок в таблице сопряженности. В отличие от этого, мы оцениваем значимость расхождения в показателях заболеваемости, поскольку оперируем условными распределениями без использования гипотезы о совпадении. Заметим, что традиционная статистика Пирсона и Фишера избегает явного употребления понятия условной вероятности, несмотря на то, что привязка выводов к гипотетическому понятию «нулевой гипотезы» — тоже операция при заданном условии. Наиболее определённо эта идейная установка была выражена Фишером: «...обратная вероятность является ошибкой (возможно единственной ошибкой, которой посвятил себя математический мир)...»
, . Иными словами, Фишер никогда не рассматривал анализ таблиц сопряженности как обратную задачу идентификации объекта.Тем не менее, можно показать, что байесовское p-value является естественным количественным аналогом величины p-value Фишера, несмотря на методологические и смысловые различия двух показателей, по крайней мере, для простейшего «поперечного» эпидемиологического исследования, допускающего строгую трактовку отсчётов «случаев» в качестве пуассоновских случайных величин. Чтобы показать это, рассмотрим ранее процитированный пример Нурминена , где сопоставляются две выборки: 7/1021 против 1/1029. При этом для упрощения математических выкладок ограничимся частным случаем
где
Определенный интерес представляет также сравнение байесовского метода оценивания показателей заболеваемости и их отношения с приближённым score-методом, восходящим к оценкам Вальда . В основу последнего изначально положено предположение о том, что и показатели заболеваемости, и отношение показателей подчиняются логнормальным распределениям. Это приводит к центральной оценке (1) для
где
6. Заключение
Таким образом, для целей «поперечного» эпидемиологического исследования возможной статистической связи профессиональной заболеваемости с единственным производственным фактором предложена байесовская процедура оценки значимости увеличения интенсивности редких событий повышенной заболеваемости на фоне некоторой спонтанной или нулевой заболеваемости при сравнении групп работников. С точки зрения количественного анализа, процедура может быть отнесена к классу «точных», наподобие известного точного перестановочного теста Фишера. Показано, что в описанных условиях все потенциально возможные оценки отношения заболеваемости в группах сравнения подчиняются распределению Фишера-Снедекора, что позволяет уверенно оценивать степень надёжности или ненадёжности окончательных выводов. Предложенная методика статистической оценки редких событий может быть использована для ретроспективного расследования случаев профессиональных заболеваний работников, предусмотренного Правилами , действующими в Российской Федерации с 1 марта 2023 года.
