booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 78

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu

Предыдущая << 1 .. 72 73 74 75 76 77 < 78 > 79 80 81 82 83 84 .. 183 >> Следующая

Пример 3.3.1 (продолжение). Определим «наилучший» набор для этого примера, применяя указанные три правила остановки. В этом случае примем а = 0.05, а v = п — р — 1 == = 141 — 3 — 1 = 137, так что min F -включения 3.92. При-
3.3. Пошаговая регрессий
205
меняя стандартное правило остановки и используя значения статистик, приведенные в иллюстрирующей таблице
Номер шага 4 Переменная Коэффициент корреляции
включаемая удаляемая включения удаления множественный частный
1 1 436.74 0.8710 0.87 0.08
2 2 х3 — 6.12 — 0.8768 0.21 0.09
3 3 х2 0.17 0.8770 0.04 0.09
имеем на шаге 1, что Р-включения > 3.92. На шаге 2 также Р-включения > 3.92, но на шаге 3 Р-включения < 3.92. Итак, Н = \ХЪ Ха), так что регрессия У по Хх и Х3 является наилучшей для предсказания У, если использовать стандартное правило остановки.
Применяя второе правило остановки (правило /?а), имеем Ь = \ХХ, Хь, Х3\ и гу,1 = 0.8770. Используя формулу (3.3.7) на шаге 1, получим значение
Р — (141 —3- 1) (0.7691 —0.7586) ,.. ^ - (3— 1) 1 -0.7691 """" 6- '
которое значимо, поскольку Рмь (2, 137) ^ 3.07. На шаге 2 —
Р=г. (141 — 3— 1) (0.7691 —0.7688) п ,о (3 — 2) (1 —0.7691) 1 '
которое незначимо, поскольку РМ5 (1, 137) ^ 3.92. Итак, имеем Н = \ХЪ Х3\ и я = 2. Так как на шаге 3 возможно включение еще одной переменной, процедура останавливается и используется уравнение регрессии, полученное на шаге 2. Оба правила остановки приводят к уравнению регрессии
у = 7.93 + 0.63*! + 0.37х3.
При применении третьего правила на шаге 1 (^ = 1) проверяется гипотеза Н0: —0.08 <: р < 0.08, где р на первом шаге есть простой коэффициент корреляции, оценка для которого р = 0.87. Используя г-преобразование Фишера с ах> = 0.085, получим г = = (1.333 — 0.080)/0.085 = 14.7, что значимо.
206 Гл. 3- Регрессионный и корреляционный анализы
На шаге 2 ((7 = 2) проверяется гипотеза Н0: —0.09 < р < <: 0.09, где р — частный коэффициент корреляции между У н Х3 при данном Хх. Теперь г = (0.213 — 0.090)/0.085 = 1.45, что является незначимой величиной. Итак, применение этого правила остановки приводит к наилучшему уравнению регрессии на шаге 1, а именно у = 8.08 + 0.88л:!. Ниже во вспомогательной таблице приводятся Р-значения, полученные при применении этих трех правил остановки: Первые два правила указывают, что
Шаг Переменная Правило 1 (Р-вклю-чеиия) Правило 2 (основанное на Я2) Правило 3 (основанное на UMSE)
1 Хг <0.05 <10"6
2 X, 0.016 NS NS
3 Х3 NS
наилучшим является набор, получаемый на шаге 2, в то время как, согласно правилу, основанному на использовании UMSE, предполагается, что наилучшим будет набор, полученный на шаге 1.
Замечания 3.3.2. 1. Возможно правило остановки, которое
использует UMSE, но не требует проверки гипотезы. В этом случае как наилучшее выбирается подмножество переменных, для которого достигается минимальное значение UMSE (3.3.8). Эквивалентным образом, можно искать минимум величины U (q) =
= (1 — f-y.i)i(n — q — l)(n — (7—2), пропорциональной UMSE.
Если график UMSE в зависимости от q выравнивается, то точкой остановки будет точка, в которой начинается выравнивание. Этим правилом остановки легко дополнить программы пошаговой регрессии, так как значения MSR в (3.3.8), как правило, выводятся на печать.
2. Сравнение методом Монте-Карло графического правила остановки для прямой пошаговой регрессии с другими показало, что i) если vR < 40, предпочтительней использовать стандартное правило остановки с а = 0.15 (т. е., min F-включения ^ 2.5) и ii) при vR ^ 40 рекомендуется использовать правило остановки, основанное на UMSE (Bendel, Afifi (1977)).
3.3. Пошаговая регрессия
207
Пример 3.3.2. Пошаговая регрессия была применена к моделированной выборке объема п = 200 при р = 10. Результирующая таблица приведена ниже.
Номер шага Переменная Включаемая Удаляемая F включения удаления Множественный Квадрат коэффициент множественного корреляции коэффициента q U(q) х 10s
1 5 — 8.1 — 0.1982 0.0393 1 2.463
2 8 — 6.2 — 0.2619 0.0686 2 2.412 .
3 4 — 5.8 — 0.3089 0.0954 3 2.367
4 — 8 — 0.002 0.3087 0.0953 2 2.343
5 3 — 2.4 — 0.3256 0.1062 3 2.338
6 — 5 — ... 0.3302 0.1089 2 2.307
7 2 — — 0.3311 0.1097 3 2.329
8 9 — ¦ • • •— 0.3319 0.1102 4 2.352
Применяя первое правило при min F-включения = 3.8 и min F-удаления = 0.01, получаем, что переменные Х5, Х8> и Xt должны быть включены, так как имеют значимое F-включение. Итак, на шаге 3 имеем набор Н = \ХЪ, Хь, Xt\ и h = 3. На шаге 4 исключается переменная Хя, поскольку для нее значение F-удаления меньше 0.01. Следовательно, имеем набор Н = \Х5, ХА] и h — 2. На шаге 5 наибольшим значением F-включения будет для переменной Х3, но оно меньше 3.8. Поэтому процедура останавливается, и набор Н, полученный на шаге 4 и составленный из переменных Ха и Xit выбирается как наилучший для предсказания Y.
Применим теперь второе правило. Из таблицы результатов имеем L — \Х2, Х3, Xit Х6, Х8, Х9] и / = 6. Так как переменные Х5 и Ха удалялись, работа программы была повторена с принудительным включением всех шести переменных из L в уравнение регрессии, что дало возможность получить для этого набора значение множественного коэффициента корреляции гу1 =0.3324. Применяя критерий (3.3.7) на шаге 1, получаем F = 3.09, что больше, чем величина F0.95 (5, 193) 2.25. На шаге 2 получаем F = 2.28, что меньше, чем величина F0.95 (4, 193) 2.40. Итак, первое незначимое F возникает на шаге 2 при Н — {Ха, Xs\ и h — 2. Так как на шаге 3 возможно лишь включение переменных, процедура останавливается. Наилучшее уравнение регрессии получается на шаге 2, а именно: регрессия Y по Хъ и Х8. Заметим, что отличие этой процедуры от предыдущей становится явным на шаге 2. В первом методе на шаге 2 проверяется, даст ли какая-либо из не включенных еще переменных улучшение в предсказании Y при ее добавлении к двум уже отобранным переменным. Во втором методе на шаге 2 проверяется, предсказывают ли

Предыдущая << 1 .. 72 73 74 75 76 77 < 78 > 79 80 81 82 83 84 .. 183 >> Следующая