Интерпретация числа p (статистическая значимость)

Простые правила анализа данных

В этом кратком обзоре, который составлен по мотивам статьи Kristin L. Sainani. Avoiding Careless Errors: Know Your Data // PM&R, Vol. 5, 228-229, March 2013, мы хотели бы привлечь Ваше внимание к нескольким простым правилам анализа данных, следование которым (словно в соответствии с законом Парето «20/80»!) может сделать для успеха Вашего исследования больше, чем решение десятков сложнейших методологических вопросов.

Предметом постоянного профессионального интереса и беспокойства специалистов по статистическому анализу данных, моделированию, data mining, являются вопросы достаточно высокого порядка:

  • Правильно ли выбрана статистическая модель?
  • Не нарушены ли связанные с ней допущения?
  • Достигнута ли приемлемая точность прогноза, и как ее можно улучшить?

В понимании многих потребителей результатов анализа своеобразным «знаком качества» исследования является непременное получение статистически значимых (significant) результатов. В погоне за «правильным» уровнем p-value, статистической значимостью, порой теряется понимание того, что эти результаты означают.

Предлагаем посмотреть на несколько простых принципов организации анализа данных, соблюдение которых позволит повысить качество результатов вне зависимости от целей исследования.

1. Работайте с единой версией данных

В любом проекте, который длится дольше, чем 1 день, существование разных версий данных (в Вашей почте, на рабочем компьютере или ноутбуке, на «флэшке», а также в почте, компьютере и на флэшке у Ваших коллег) становится головной болью. Порой это приводит к тому, что часть анализа выполняется с одной версией файла, а часть – с другой. Открывая данные для анализа, Вы не всегда можете быть уверенны в том, что это – та же версия, с которой работают сейчас Ваши коллеги, или та же версия, в которую Вы месяц назад внесли важные исправления.

Очень полезно иметь централизованную базу данных или, по крайней мере, единый репозиторий файлов с четкой отметкой версии данных. Резервируйте полные копии данных, но, вместе с тем, избегайте создания фрагментарных копий. Например, не нужно создавать разные файлы, если Вы отдельно обрабатываете записи по мужчинам и по женщинам: для этого достаточно наложить на данные временный фильтр в статистическом пакете.

2. Избегайте ручных преобразований данных

Ручной ввод ответственен за какой-то процент ошибок в данных, но для многих исследований он неизбежен. Хуже, если вслед за ним начинаются ручные преобразования данных. Если Вы ловите себя на том, что вручную (на калькуляторе, или в электронной таблице) вычисляете возраст испытуемого на основе его даты рождения, или преобразуете сантиметры в метры, или группируете переменную дохода в интервалы, остановитесь и задумайтесь. Такого рода преобразования должны выполняться средствами синтаксиса статистической программы: только тогда они будут а) задокументированы, б) проверяемы, в) воспроизводимы (например, при поступлении новых данных). Никогда не стоит делать за компьютер работу, с которой он справляется лучше Вас!

3. Не анализируйте данные в электронной таблице

Мы не говорим здесь о естественных ограничениях в наборе статистических методов в универсальных процессорах электронных таблиц (например, в Excel) в сравнении с профессиональными статистическими пакетами. Многим исследователям, особенно для выполнения простых аналитических задач, кажется естественным использование Excel. Однако анализ в Excel дает слишком много «свободы» в организации данных (которая в данном случае работает во вред), сопряжен с копированием фрагментов данных, перемещением строк и столбцов, изменением диапазонов данных в формулах и другими верными способами наделать ошибок. Мы любим Excel и используем его каждый день. Но позаботьтесь о том, чтобы, когда дело дойдет до статистического анализа, Вашим первым шагом был импорт данных из Excel в профессиональный статистический пакет. В какой именно? О, у нас есть для Вас веские доводы в пользу наших решений на базе IBM SPSS Statistics! Однако будем объективны: если хотите, Вы можете рассмотреть и пару других пакетов, которые справляются со статистическим анализом почти также хорошо, как IBM SPSS Statistics.

4. Изучите данные прежде, чем строить модели и делать заключения

Относительная простота анализа данных в профессиональных инструментах порой приводит к тому, что исследователь, что называется, «сразу переходит к десерту». Так, если целью работы является построение объясняющей модели, то возникает большой соблазн с этой модели и начать.

Поддавшись такому настрою, исследователь рискует так и не узнать, что в определенной группе наблюдений значения целевой переменной по какой-то причине не заполнены, у пациента №2347 уровень артериального давления превышает все мыслимые пределы (вероятно, в результате ошибки ввода данных), а один из потенциальных факторов в модели на самом деле является константой.

Изучение простейших графических распределений отдельных переменных (гистограмм, столбиковых диаграмм), проверка количества наблюдений, расчет средних и доверительных интервалов, минимумов и максимумов может рассказать очень много о Ваших данных, и об ошибках в них. Изучить простые парные связи между переменными также очень полезно. Ожидаемы ли полученные статистики? Нет ли необходимости перепроверить отдельные фрагменты данных? Есть ли в данных выбросы, и как они скажутся на дальнейшем анализе? Знание базовых свойств исходных данных позволит Вам в будущем более уверенно интерпретировать результаты более сложных методов.

Интерпретация числа p (статистическая значимость)

Перевод (сверху вниз): p-value / интерпретация ... Высоко значимо ... Значимо ... Эх, надо пересчитать … На границе значимости ... Предположительно значимо (на уровне p<0,1) ... А давайте подробнее рассмотрим одну подгруппу…

5. Проверяйте количество наблюдений, участвующих в анализе

Одной из проблем многомерного статистического анализа (а таким, в общем-то, можно считать любой анализ, где участвует более 1 переменной, и в особенности это касается регрессий, факторного, кластерного анализа), является так называемое «проклятье размерности». Оно проявляется в стремительном сокращении общего количества включенных в анализ наблюдений (респондентов, клиентов, пациентов, испытуемых), если в данных встречаются пропущенные значения в разных переменных модели. Так, из-за того, что пропуски в относительно небольшом количестве встречаются то здесь, то там, в построении модели легко может участвовать 70, 50 или 20% от общего числа наблюдений. Ведь обычно в анализ по умолчанию включаются те наблюдения, которые не имеют пропусков ни в одной из переменных. Порой такой «отсев» не является просто случайным. Как-то мы участвовали в построении модели для диагностики бактериальных инфекций по данным анализа крови. Анализ был взят при поступлении, а клинический диагноз установлен позднее. Очень быстро выяснилось, что количество назначаемых исследований в обучающих данных сильно зависит от состояния пациента при поступлении (клинических признаков заболевания) и подозрений лечащего врача. Таким образом, «просто» исключив из построения модели часть пациентов с пропущенными данными по ряду исследований, мы сместили бы выборку в сторону более тяжелых случаев, и такая модель оказалась бы неприменима ко всем больным, поступившим с температурой.

6. Проверяйте простую арифметику и сверяйтесь со здравым смыслом

Бывает так, что в отчет или статью попадают технические ошибки, связанные, например, с тем, что значение статистики было взято не из той строки таблицы, или приведенная статистика относится не ко всем данным, а к какой-то подгруппе. Такие неточности иногда можно заметить в ходе самопроверки, сопоставив между собой очевидные факты и призвав на помощь здравый смысл. Совпадает ли значение статистики, приведенное в таблице, с ее представлением на графике? Не выходит ли средняя сумма заказа в группе заказов до 10 000 руб. за верхнюю границу этого диапазона? Kristin L. Sainani приводит в своей работе пример, когда ей пришлось рецензировать статью, где в группе из 10 пациентов «78% отметили улучшение».

Чтобы заметить такие вопиющие ошибки, не нужно иметь высшее математическое образование. В свою очередь, наличие таких ошибок может быть признаком более серьезных проблем, которым следует уделить внимание: неразбериха с данными, плохая организация исследования или недостаток статистической экспертизы.

Есть полезные приемы работы в IBM SPSS Statistics, которыми Вы готовы поделиться? Напишите нам!