booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 73

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu

Предыдущая << 1 .. 67 68 69 70 71 72 < 73 > 74 75 76 77 78 79 .. 183 >> Следующая

Замечания 3.2.7. 1. В большинстве ПСП имеется возможность применить метод удаления элементов.
2. В некоторых программах существует возможность использования метода попарного вычеркивания (например, SPSS REGRESSION). Этот метод можно использовать, когда имеется большое число элементов с небольшим количеством отсутствующих значений и метод удаления элементов чрезмерно сокращает объем выборки. Исследователь должен отдавать себе отчет в том, что при Этом возможно возникновение некоторых вычислительных несообразностей (таких, как отрицательное значение суммы квадратов или F-критерия). Кроме того, при использовании этого метода неприменима обычная теория статистических выводов.
Пример 3.2.6. Приведем пример практического применения регрессии для оценки отсутствующих значений. В мониторной системе наблюдения за больными постоянно по значениям величин систолического давления X (мм. рт. ст.) и рН артериальной крови
7 А. Афифи С. Эйзен
104 Гл. 3. Регрессионный и корреляционный анализы
У вычисляется прогностический индекс состояния больного (АПН а ей. (1971)"и Агеп, АНН (1972а, Ь)).
Так как X измеряется непрерывно, а У — через каждые четыре часа, желательно оценить отсутствующие значения рН артериальной крови с тем, чтобы вычислять прогностический индекс и тогда, когда доступно значение только систолического давления.
Было рассмотрено шесть методов оценки рН артериальной крови у1 в момент времени и
1) Подстановка вместо у{ последнего измеренного значения У.
2) Подстановка вместо у1 среднего значения по всем измеренным значениям У.
3) Регрессия У по ? и подстановка у (1) вместо у(.
4) Регрессия У по X с использованием всех комплектных пар. Вместо уг подставлялось значение у (х).
5) Регрессия У по X и I и подстановка у (х, {) вместо уг
6) Использование только комплектных пар наблюдений.
Результаты моделирования показали, что оценка отсутствующих значений приводит к значимому улучшению по сравнению с использованием метода 6. Так как величина коэффициента корреляции между У и X (сильная корреляция) больше величины корреляции между У и t (слабая корреляция), то использование регрессии У по X предпочтительнее. Подстановка средних значений не рекомендуется (Агеп е1 а1. (1972)).
3.3. Пошаговая регрессия
Во многих случаях применения регрессионного анализа экспериментатор не имеет достаточной информации о порядке независимых переменных Хъ Хъ .... Хр по их важности для предсказания независимой переменной У. Проверка гипотезы Я0: 6г = 0 для каждой переменной Х1,1 = 1, .... р, также не дает такой информации. Так, в примере 3.2.3 отвергается гипотеза 6, = 0 и в то же время принимаются гипотезы 63 = 0 и 63 = 0. Это может привести к неверному заключению, что для предсказания У важна только переменная Хг.
Поскольку статистикой, измеряющей эффективность набора независимых перейШных как предикторов, служит множественный коэффициент корреляции, одно из решений упомянутой выше проблемы сводится к регрессии У по всем возможным подмножествам независимых~пёременных и выбору наилучшего подмножества согласно следующей процедуре. Среди всех подмножеств
3.3. Пошаговая регрессия
195
переменных размерности & = 1, р, выбирается подмножество З^которому соответствует наибольшее значение множественного коэффициента корреляции. Для подмножества 5г с помощью статистики (3.2.14) проверяется гипотеза о том, что добавление оставшихся р — 1 переменных не улучшает предсказание У. Если эта гипотеза отвергается, то проверяется аналогичная гипотеза о том, что добавление в подмножество 52 оставшихся р — 2 переменных не улучшает предсказание У. Такая проверка последовательно применяется до тех пор, пока для некоторого подмножества 5т, 1 <: т <. р, не принимается гипотеза об отсутствии улучшения предсказания У при добавлении р — т оставшихся переменных. Подмножество 5т является наилучшим подмножеством переменных для предсказания К, поскольку: а) ему соответствует наибольшее значение коэффициента множественной корреляции среди всех подмножеств размерности т; Ь) добавление оставшихся р — т переменных не улучшает значимо предсказание У. Если такое подмножество не является единственным, то следует выбрать наиболее подходящее подмножество исходя из характера задачи.
Если число независимых переменных велико, такой подход для определения наилучшего подмножества практически бесполезен даже при применении ЭВМ. Например, если р = 5 имеется всего 5 + Ю + Ю + 5 + 1 = 31 уравнение регрессии, а если р — 10, то их число составляет уже 2 (10 + 45 + 120 + 210) + 252 + 1 = 1023. Вообще, когда число переменных равно р, имеется 2р — 1 регрессионных уравнений. Ограничения на машинное время и допустимые расходы приводят к необходимости поиска других подходов.
Одним из решений является пошаговая регрессия (прямая), когла независимые переменные одна за другой включаются в подмножество согласно предварительно заданному критерию. В то же время некоторая переменная может быть заменена другой переменной, не входящей в набор, либо удалена из него. Совокупность критериев, определяющих, какие переменные включать, заменять и удалять, называется пошаговой процедурой. В разд. 3.3.1 приводится четыре пошаговые процедуры.

Предыдущая << 1 .. 67 68 69 70 71 72 < 73 > 74 75 76 77 78 79 .. 183 >> Следующая