Статистика для диссертаций по медицине
Как спланировать статистический раздел медицинской диссертации: дизайн исследования, выбор критериев, размер выборки, работа с пропущенными данными и оформление результатов без подмены научной логики набором p-value.
Статистика в медицинской диссертации нужна не для того, чтобы «украсить» работу таблицами и p-value. Ее задача практичнее: показать, что выводы действительно следуют из данных, а не из удачной формулировки гипотезы, удобной выборки или случайного совпадения.
Главная ошибка аспирантов — вспоминать о статистике после сбора материала. В медицине это особенно рискованно: неправильно заданные конечные точки, несопоставимые группы, неучтенные вмешивающиеся факторы и маленькая выборка могут сделать исследование слабым еще до первого расчета.
Ниже — рабочая схема, как подойти к статистическому разделу диссертации: от постановки исследовательского вопроса до описания методов и представления результатов. Конкретные требования к оформлению, срокам, допуску к защите, антиплагиату и локальным документам нужно финально проверять в методичке кафедры, на сайте вуза, в положении образовательной программы и в документах диссертационного совета.
Коротко

- Статистический план лучше писать до сбора данных: он фиксирует гипотезы, конечные точки, группы сравнения и методы анализа.
- Выбор критерия зависит не от «популярности теста», а от типа данных, дизайна исследования, распределения, числа групп и связанных или независимых наблюдений.
- Для медицинской диссертации важны не только p-value, но и клинический смысл: размер эффекта, доверительный интервал, абсолютные и относительные различия.
- Размер выборки должен быть обоснован: по мощности, ожидаемому эффекту, частоте исхода или реалистичному объему доступных наблюдений с указанием ограничений.
- Пропущенные данные, выбросы, исключения пациентов и множественные сравнения нужно описывать заранее, иначе возникает риск статистической «подгонки».
- В разделе методов указывают дизайн, переменные, программное обеспечение, критерии, уровень значимости и подход к проверке предпосылок.
- Финальные формулировки сверяют с научным руководителем, биостатистиком, этическим комитетом при необходимости и локальными правилами вуза.
Что именно называют статистикой в медицинской диссертации
В диссертации по медицине статистика охватывает не только расчеты. Это система решений: как сформулирована гипотеза, какие пациенты включены, как измерены показатели, какие исходы считаются основными, как сравниваются группы и как интерпретируются результаты.
Хороший статистический раздел отвечает на четыре вопроса. Первый: какие данные изучались. Второй: почему их достаточно для поставленной задачи. Третий: какими методами они анализировались. Четвертый: насколько надежны выводы с учетом ограничений.
Например, фраза «данные обработаны методом вариационной статистики» почти ничего не объясняет. Намного сильнее выглядит описание: «Нормальность распределения количественных переменных оценивали графически и с помощью критерия Шапиро — Уилка; при нормальном распределении данные представлены как среднее и стандартное отклонение, при ненормальном — как медиана и межквартильный размах; независимые группы сравнивали с использованием t-критерия Стьюдента или критерия Манна — Уитни в зависимости от предпосылок».
Практическое правило: если читатель не может повторить ваш анализ по описанию методов, статистический раздел написан недостаточно конкретно.
Статистический план: с чего начать до сбора данных
Для медицинского исследования статистика начинается с протокола. Даже если кафедра не требует отдельный документ с названием «статистический план», его полезно сделать для себя и согласовать с научным руководителем. Это снижает риск менять критерии после просмотра результатов.
-
Сформулируйте исследовательский вопрос. Например: снижает ли новый подход частоту послеоперационных осложнений по сравнению со стандартной тактикой.
-
Определите дизайн: проспективное или ретроспективное исследование, наблюдательное или интервенционное, когортное, случай — контроль, поперечное, рандомизированное или без рандомизации.
-
Выделите основную конечную точку. Это главный показатель, ради которого проводится исследование: смертность, частота осложнений, уровень маркера, время до события, шкала качества жизни.
-
Опишите вторичные конечные точки. Их может быть несколько, но они не должны подменять основную цель.
-
Задайте критерии включения и исключения. В медицине это критично: возраст, диагноз, стадия заболевания, сопутствующие состояния, предшествующее лечение.
-
Определите типы переменных: количественные, категориальные, порядковые, бинарные, временные.
-
Запланируйте основные сравнения и модели: между группами, до и после лечения, связь факторов с исходом, прогнозирование риска.
-
Опишите подход к пропущенным значениям, выбросам и исключенным наблюдениям.
-
Согласуйте план с руководителем или специалистом по биостатистике до финального набора данных.
Такой алгоритм особенно важен для диссертаций, где есть клинические данные пациентов. Изменение конечных точек после анализа может выглядеть как попытка выбрать только статистически значимые результаты.
Как связаны дизайн исследования и методы статистики
Один и тот же показатель может анализироваться по-разному в зависимости от дизайна. Давление у пациентов до и после терапии — это связанные измерения. Давление в двух независимых группах — независимые наблюдения. Время до рецидива — задача анализа выживаемости, а не обычное сравнение средних.
| Дизайн или задача | Что сравнивается или оценивается | Типичные методы | На что обратить внимание |
|---|---|---|---|
| Две независимые группы | Показатель у пациентов с разными методами лечения | t-критерий, Манна — Уитни, χ², точный критерий Фишера | Проверить независимость наблюдений, распределение, размер групп |
| До и после вмешательства | Изменение показателя у одних и тех же пациентов | Парный t-критерий, критерий Уилкоксона, McNemar для бинарных данных | Не использовать тесты для независимых групп |
| Три и более группы | Различия между несколькими вариантами терапии или стадиями | ANOVA, Краскела — Уоллиса, пост-хок сравнения | Учитывать множественные сравнения |
| Связь факторов с бинарным исходом | Например, есть осложнение или нет | Логистическая регрессия | Проверить число событий и набор ковариат |
| Время до события | Выживаемость, время до рецидива, срок до госпитализации | Каплан — Майер, log-rank, регрессия Кокса | Учитывать цензурированные наблюдения |
| Диагностический тест | Точность метода диагностики | Чувствительность, специфичность, ROC-анализ, AUC | Нужен корректный референсный стандарт |
Таблица не заменяет консультацию со статистиком, но помогает понять логику выбора метода. В методах диссертации важно не просто перечислить критерии, а связать их с задачами исследования.
Переменные, шкалы и конечные точки: основа корректного анализа
Перед расчетами полезно составить словарь переменных. В него входят название показателя, единица измерения, шкала, допустимые значения, источник данных и роль в анализе. Это избавляет от путаницы, когда один и тот же признак в разных файлах называется по-разному или кодируется несовместимо.
| Тип переменной | Медицинский пример | Как обычно описывать | Возможные ошибки |
|---|---|---|---|
| Количественная непрерывная | Возраст, уровень глюкозы, индекс массы тела | Среднее и SD или медиана и IQR | Автоматически применять среднее при асимметричном распределении |
| Количественная дискретная | Число госпитализаций, количество приступов | Медиана, IQR, частоты по категориям | Игнорировать избыток нулевых значений |
| Бинарная | Осложнение: да или нет | n и %, риск, отношение шансов или риск-отношение | Путать проценты в строках и столбцах |
| Категориальная номинальная | Группа крови, тип вмешательства | Частоты и доли | Сравнивать как числа, если коды условные |
| Порядковая | Степень тяжести, баллы по шкале | Медиана, IQR, распределение по категориям | Обращаться как с обычной непрерывной величиной без обоснования |
| Временная | Время до рецидива, срок наблюдения | Медиана времени, кривые выживаемости, HR | Исключать пациентов без события вместо цензурирования |
Конечная точка должна быть измеримой и воспроизводимой. «Улучшение состояния» — слишком расплывчато. «Снижение частоты обострений в течение 12 месяцев» или «изменение балла по валидированной шкале к 24-й неделе» — уже пригодная формулировка.
Размер выборки и статистическая мощность
Вопрос «сколько пациентов нужно» нельзя решать только по принципу «сколько удалось собрать». Для сильной диссертации желательно показать, что объем выборки связан с исследовательской целью. В идеале расчет выполняют до начала набора данных, используя ожидаемый эффект, вариабельность показателя, частоту исхода, желаемую мощность и уровень значимости.
При этом не стоит выдумывать точность, если исследование ретроспективное и объем данных ограничен архивом. В такой ситуации можно честно написать, что выборка сформирована по доступным медицинским документам за определенный период, а затем обсудить ограничение мощности и риск ошибки второго рода. Но если есть возможность предварительного расчета, лучше использовать ее.
Для разных задач нужны разные параметры. Для сравнения средних важны ожидаемая разница и стандартное отклонение. Для сравнения долей — ожидаемая частота исхода в группах. Для выживаемости — число событий, медиана времени до события, срок наблюдения. Для регрессионных моделей — число исходов на количество предикторов и устойчивость модели.
Не указывайте универсальные «обязательные» проценты мощности или оригинальности как норматив, если они не прописаны в документах вашей программы. Значения и требования к оформлению расчетов нужно уточнять у руководителя, в методичке и локальных документах вуза.
Выбор статистических критериев: практическая логика
Распространенная слабость диссертаций — список критериев без объяснения, где каждый применялся. Лучше строить раздел методов по типам задач. Например: описательная статистика, сравнение групп, анализ связей, многофакторный анализ, анализ выживаемости, оценка диагностической точности.
Для количественных данных сначала смотрят распределение и графики: гистограммы, Q-Q plot, boxplot. Формальный тест нормальности полезен, но не должен быть единственным основанием решения, особенно при очень маленьких или очень больших выборках. При больших выборках даже небольшое отклонение от нормальности может стать статистически значимым, но практически не мешать анализу.
Для категориальных данных важно учитывать ожидаемые частоты в таблицах сопряженности. Если наблюдений мало, точный критерий Фишера может быть уместнее χ². Для связанных бинарных данных, например результат «до/после» у одного пациента, используют другие подходы, чем для независимых групп.
Регрессионные модели нужны, когда простой тест не отвечает на вопрос. Если нужно оценить связь фактора с осложнением с учетом возраста, пола, тяжести заболевания и коморбидности, логистическая регрессия даст более содержательный результат, чем несколько отдельных сравнений.
p-value, доверительные интервалы и клиническая значимость
p-value показывает, насколько наблюдаемые данные совместимы с нулевой гипотезой при выбранной модели. Он не показывает вероятность того, что гипотеза верна, и не измеряет размер эффекта. Поэтому вывод «p меньше 0,05, значит метод эффективен» слишком упрощен.
В медицинской диссертации рядом с p-value желательно показывать размер эффекта: разницу средних, отношение шансов, риск-отношение, hazard ratio, коэффициент корреляции, AUC или другой показатель, соответствующий задаче. Доверительный интервал помогает понять точность оценки. Узкий интервал обычно говорит о большей определенности, широкий — о неопределенности результата.
Клиническая значимость может не совпадать со статистической. Разница в 0,2 балла по шкале может быть статистически значимой на большой выборке, но бесполезной для пациента. И наоборот, крупный потенциально важный эффект на маленькой выборке может не достичь статистической значимости, но заслуживать обсуждения как направление для дальнейших исследований.
Как описать статистический анализ в диссертации
Раздел «Статистическая обработка» должен быть понятным, проверяемым и связанным с задачами. Не нужно превращать его в учебник по математике, но нужно дать достаточно информации, чтобы эксперт видел корректность подхода.
Мини-шаблон формулировки
Статистический анализ выполняли после проверки полноты и логической согласованности базы данных. Количественные переменные оценивали на предмет распределения с использованием графических методов и критерия нормальности. Данные с распределением, близким к нормальному, представлены как M ± SD, данные с асимметричным распределением — как Me [Q1; Q3]. Категориальные переменные представлены как абсолютные значения и доли. Для сравнения независимых групп применяли критерии, соответствующие типу данных и предпосылкам анализа. Для оценки факторов, связанных с развитием исхода, использовали многофакторную модель с предварительно заданными ковариатами. Статистическую значимость оценивали с учетом доверительных интервалов и клинической интерпретации эффекта.
В реальной диссертации этот шаблон нужно адаптировать: указать конкретные критерии, программу и версию, уровень значимости, подход к множественным сравнениям, правила обработки пропусков, перечень ковариат и способ выбора переменных в модель.
Пример: как превратить тему в статистический план
Допустим, тема диссертации связана с оценкой факторов риска послеоперационных инфекционных осложнений у пациентов после абдоминальных операций. Слабая постановка звучит так: «изучить осложнения и обработать данные статистически». Сильная постановка превращает тему в проверяемый план.
| Элемент плана | Пример для медицинской диссертации |
|---|---|
| Цель | Оценить факторы, ассоциированные с развитием инфекционных осложнений после абдоминальных операций |
| Основной исход | Наличие инфекционного осложнения в течение 30 дней после операции |
| Основные факторы | Возраст, сахарный диабет, длительность операции, класс раны, профилактическая антибиотикотерапия |
| Дизайн | Ретроспективное когортное исследование по медицинским картам за выбранный период |
| Первичный анализ | Сравнение пациентов с осложнениями и без осложнений по клиническим характеристикам |
| Многофакторный анализ | Логистическая регрессия с заранее определенными клинически важными ковариатами |
| Результаты | OR, 95% доверительный интервал, p-value, клиническая интерпретация |
| Ограничения | Ретроспективный дизайн, возможные пропуски в картах, риск неучтенных факторов |
Такой план показывает экспертам, что статистика не прикручена к диссертации в конце, а встроена в исследовательскую логику.
Пропущенные данные, выбросы и множественные сравнения
В медицинских данных почти всегда есть пропуски: не выполнен анализ, пациент выбыл, показатель не внесен в карту, исследование проведено в другой лаборатории. Нельзя просто удалить все строки с пропусками без оценки последствий. Иногда это резко уменьшает выборку и смещает результат.
Минимум, который стоит сделать: указать количество пропущенных значений по ключевым переменным, объяснить вероятные причины, описать правило работы с ними. Для простых задач может быть достаточно анализа доступных наблюдений с указанием n для каждого показателя. Для более сложных моделей может потребоваться импутация, чувствительный анализ или консультация биостатистика.
Выбросы тоже нельзя удалять автоматически. Сначала нужно понять, это ошибка ввода, невозможное значение, редкое клиническое наблюдение или реальный тяжелый случай. Решение об исключении должно быть обосновано и документировано.
Множественные сравнения возникают, когда исследователь проверяет много гипотез одновременно: несколько групп, десятки показателей, подгруппы, разные сроки наблюдения. Чем больше тестов, тем выше шанс случайной значимости. Подходы к коррекции зависят от задачи, поэтому их лучше планировать заранее.
Частые ошибки в статистике медицинских диссертаций
- Начинать выбор критериев после получения «красивых» результатов, а не на этапе протокола.
- Писать «использованы методы параметрической и непараметрической статистики» без привязки к переменным и задачам.
- Сравнивать связанные наблюдения как независимые, например показатели до и после лечения у тех же пациентов.
- Описывать асимметричные данные средним значением без медианы, квартилей и анализа распределения.
- Путать корреляцию с причинно-следственной связью.
- Делать много однофакторных тестов вместо продуманной модели с клинически важными ковариатами.
- Интерпретировать p-value как доказательство эффективности без размера эффекта и доверительного интервала.
- Удалять пропуски и выбросы без описания правил.
- Не указывать количество наблюдений в каждой таблице, особенно если n меняется из-за пропусков.
- Делать чрезмерные выводы из ретроспективного или наблюдательного исследования.
Как представить результаты: таблицы, графики, текст
Результаты должны быть читабельными. Не перегружайте таблицы всем массивом данных. Для базовой характеристики выборки обычно делают таблицу 1: возраст, пол, ключевые диагнозы, исходные показатели, группы сравнения. Для основных исходов — отдельную таблицу или рисунок. Для регрессии — таблицу с коэффициентами, OR или HR, доверительными интервалами и p-value.
В тексте не нужно пересказывать каждую ячейку. Лучше выделить главное: направление эффекта, величину различий, точность оценки и клинический смысл. Если результат незначим, его тоже можно обсуждать, но аккуратно: «статистически значимых различий не выявлено» не равно «различий нет».
Для графиков выбирайте формат под задачу: boxplot для распределения, столбиковая диаграмма с долями для категорий, кривая Каплана — Майера для времени до события, ROC-кривая для диагностической модели. Каждый график должен иметь понятные подписи, единицы измерения и число наблюдений.
Что проверить в методичке или у научного руководителя
- Требования к структуре диссертации и месту раздела «Статистическая обработка».
- Нужно ли включать отдельный статистический план, протокол исследования или приложение с базой переменных.
- Правила оформления таблиц, рисунков, сокращений, десятичных знаков и ссылок на программное обеспечение.
- Требования этического комитета, информированного согласия и обезличивания медицинских данных.
- Требования диссертационного совета, кафедры, образовательной программы и журнала, если результаты планируются к публикации.
- Подход к проверке оригинальности текста и допустимые параметры отчета, если они установлены локальными документами.
- Допустимость конкретных статистических методов для вашей задачи и необходимость консультации биостатистика.
- Сроки предоставления материалов руководителю, на кафедру, в совет или в редакцию журнала.
Не ориентируйтесь только на чужие диссертации: они могли быть оформлены по другим правилам, в другом вузе и в другой период. Финальная проверка всегда проводится по актуальным локальным документам.
Связь статистики с другими разделами диссертации
Статистика не живет отдельно от текста. Во введении она связана с целью, задачами, гипотезой и научной новизной. В обзоре литературы — с тем, какие эффекты уже известны и какие пробелы остаются. В материалах и методах — с дизайном, выборкой и переменными. В результатах — с таблицами и моделями. В обсуждении — с интерпретацией, ограничениями и практической значимостью.
Если вы только формируете исследовательскую логику, полезно сначала разобрать актуальность темы, затем уточнить формулировку темы, собрать план работы, оформить задание и только после этого детализировать статистический блок. Так снижается риск, что статистика будет отвечать не на тот вопрос, который заявлен в диссертации.
FAQ
Можно ли обойтись без биостатистика?
Для простой описательной работы иногда достаточно консультации научного руководителя и корректного применения базовых методов. Но если есть регрессия, выживаемость, диагностические модели, малые группы, множественные исходы или пропуски, консультация биостатистика резко снижает риск ошибок.
Нужно ли всегда проверять нормальность распределения?
Нужно оценивать распределение количественных данных, но не сводить решение к одному тесту. Используйте графики, описательные показатели, знание клинической природы переменной и требования выбранного метода.
Что лучше указывать: среднее или медиану?
Зависит от распределения и типа переменной. Для приблизительно нормального распределения часто указывают среднее и стандартное отклонение. Для асимметричных данных — медиану и межквартильный размах. В диссертации важно указать правило выбора.
Если p-value больше 0,05, результат бесполезен?
Нет. Такой результат может быть важен для оценки неопределенности, планирования дальнейших исследований или демонстрации отсутствия убедительных данных в рамках конкретной выборки. Смотрите на размер эффекта, доверительный интервал и мощность.
Можно ли менять критерий после замечаний руководителя?
Можно, если прежний метод был выбран неверно и исправление обосновано. Но менять анализ ради получения значимости нельзя. Все изменения лучше фиксировать и объяснять научной логикой.
Какой уровень оригинальности нужен для допуска?
Универсального значения для всех вузов и программ нет. Требования к проверке текста, системе антиплагиата и допустимым показателям нужно смотреть в локальных документах вуза, положении кафедры или образовательной программы.
Нужно ли указывать программу для статистики?
Обычно это хорошая практика: указывают название программы, версию и при необходимости использованные пакеты. Конкретный формат записи проверьте в методичке, требованиях журнала или документах диссертационного совета.
Заключение
Статистика для медицинской диссертации — это не финальная «обработка данных», а каркас исследования. Чем раньше вы определите дизайн, конечные точки, переменные, объем выборки и правила анализа, тем легче будет защитить выводы перед руководителем, кафедрой, рецензентами и диссертационным советом.
Практический следующий шаг: составьте таблицу из пяти колонок — задача исследования, переменная, тип данных, метод анализа, форма представления результата. Затем покажите ее научному руководителю или биостатистику и сверите с методичкой вашей программы. Это быстрее выявит слабые места, чем попытка исправлять статистику уже после написания глав.
Связанные рубрики и темы
Если тема нужна для работы или подготовки, начните с ближайших разделов и инструментов.