Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 77

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 71 72 73 74 75 76 < 77 > 78 79 80 81 82 83 .. 183 >> Следующая

1. Стандартное правило остановки. Стандартное правило остановки для получения «наилучшего» набора Н предикторов может быть легко понято из сводной таблицы, распечатываемой на шаге Б. Значения Р-включения одно за другим сравниваются с величиной минимума Р-включения. Набор Н будет определен, когда все вычисляемые значения Р-включения станут меньше заданного минимума. Рассмотрим этот процесс по шагам:
а) На шаге 1 включается переменная X,-,. Если соответствующее значение Р-включения незначимо, т. е. Р-включения <5 < гщп Р-включения, то считается, что регрессия бессмысленна
3.3. Пошаговая регрессия
203
и пользователь должен обратиться к другим методам анализа своих данных. В противном случае Н = {Xtl\.
b) На шаге 2 была добавлена переменная Х,г. Если для нее F-включения <С minn F-включения,^то #4"состоит только*"из переменной X(l и наилучшая регрессия получена на шаге 1. В противном случае Н — \Х(1, Х(г].
c) Для каждого дальнейшего шага при удалении переменной из Н происходит переход на следующий шаг. С другой стороны, при включении некоторой переменной производится сравнение значения F-включения с порогом. Если величина F-включения значима, Н расширяется добавлением этой переменной и происходит переход на следующий шаг. В противном случае происходит остановка процедуры, а наилучшим будет набор, полученный на предыдущем шаге.
2. Правило остановки, основанное на изменении Альтернативная процедура требует тщательного выбора значений минимума F-включения и минимума F-удаления. Минимум F-включения можно выбрать так, чтобы были включены переменные, которые потенциально полезны для предсказания Y. Например, можно принять решение дать каждой переменной приблизительно 50-процентный шанс на включение. Тогда минщ&ум_^в1шач?шщ_^у-деХ_Р|ьао_(1, п —_jP^JUL- С другой стороны min F-удаления можно выбрать так, чтобы шанс на удаление уже включенной переменной был мал. Поэтому можно считать минимум Р.уд? пения малой ве-ладшшй^.ладр-имер~0Л1. Рассмотрим теперь лишь те переменные в результирующей таблице, которые были включены на последнем шаге. Пусть L — такой набор из / переменных, / <; р, и пусть ry.i есть множественный коэффициент корреляции между Y и всеми переменными из L. (Заметим, что если одна или несколько переменных были удалены, то необходимо пересчитать значение гу.{). Пусть теперь Н — набор из h переменных, входящих в уравнение регрессии на некотором промежуточном шаге. Предлагаемое правило остановки основано на проверке гипотезы Н0: py.h = = py-i с помощью статистики
2 2
р _ п — I — 1 ryl — ry.h /о о 7\
t--j—^ —j . {O.OJ)
1 ryi
Если эта гипотеза верна, то величина F имеет F-распределение с / — h и п — / — 1 степенями свободы. Этот критерий применяется последовательно на каждом шаге до тех пор, пока не будет получено первое незначимое значение F. Предположим, например, что это произошло на шаге 3, когда для регрессии используется набор Huh переменных. Тогда, если на шаге 4 будет возможно включение какой-либо переменной, процедура остановится и наи-
204
Гл. 3. Регрессионный и корреляционный анализы
лучшим набором будет набор, полученный на шаге 3. С другой стороны, если на шаге 4 будет возможно удаление переменной, то применяют описанный выше критерий. Если величина статистики критерия значима, то в качестве наилучшего набора выбирается набор, полученный на шаге 4. Если величина статистики критерия незначима, Я определяется как набор из h — 1 переменных, полученных на шаге 4, и процесс повторяется. Если получится незначимое значение F, то наилучшим считается уравнение регрессии, полученное на последнем шаге.
3. Правило остановки, основанное на безусловном" среднем квадрате ошибки. Одно альтернативное правило остановки приведено в работе Bendel, Afifi (1976). Оно основано на проверке гипотезы о том, что при переходе к следующему шагу безусловный средний квадрат ошибки (UMSE) не убывает. Величина UMSE
определяется равенством UMSE = Е (Y — Y)2, где математическое ожидание вычисляется по совместному распределению Y, Хъ Хр, которое предполагается многомерным нормальным. Оценкой UMSE для данного шага будет
тшТ^Ё/ ч п*-п-2 Мс (я-1) (я2-я-2) (1-/•?.,) в*
UMSE (а, п) = —;-дг- =- -— 4-* " у
" ' п(п — q — 2) п(п — q — 1) (п — q — 2) '
(3.3.8)
где q — число переменных в уравнении, а MSR — остаточная
сумма квадратов на данном шаге. График величины UMSE в зависимости от q имеет, как правило, J- или U-образный вид.
Можно показать, что проверка гипотезы Н0: UMSE^j = = UMSE(l?+1), т. е. того, что добавление (q + 1)-й переменной в уравнение не уменьшает безусловной среднеквадратичной ошибки, эквивалентна проверке гипотезы Я0: — р0 < р <: р0. Здесь р — частный коэффициент корреляции между Y и (q + 1)-й независимой переменной при заданных остальных q переменных в уравнении регрессии, р0 = \l(n— q — 2)1/2. Асимптотическая процедура для проверки этой гипотезы основана на использовании преобразования Фишера (3.1.32)—(3.1.35) с <з% = l/(n — q — 3).
Итак, правило остановки на основе UMSE требует на каждом шаге проверки гипотезы Я0 и останавливает процедуру на шаге, соответствующем последнему значимому значению критерия.
Предыдущая << 1 .. 71 72 73 74 75 76 < 77 > 78 79 80 81 82 83 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed