Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 74

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 68 69 70 71 72 73 < 74 > 75 76 77 78 79 80 .. 183 >> Следующая

С помощью пошаговой процедуры получается упорядоченный список предикторов. Например, если р = 5, такой список может иметь вид Хъ, Хъ, Хъ Х4 и Х3. Для определения «наилучшего» подмножества из этого списка выбираются т < р первых переменных так, чтобы \) они возможно лучше предсказывали У и и) их число т было по возможности меньше. Другими словами, эконом-иый^тя^о^^^тяяляетгя из переменных упог^доченногосписка. 'которые имритг няиболрр г^^пку^п^тг^РП^ .
В примере, приведенном выше, такой набор мог бы состоять только из переменных Х% и Х6, если бы регрессия по ним была почти
7*
196
Гл. 3. Регрессионный и корреляционный анализы
такой же «хорошей», как и регрессия по Xit Х5, Xlt Xt и Х3. Процедура определения числа т называется правилом остановки. В разд. 3.3.2 обсуждаются три различных правила остановки.
3.3.1. Пошаговые процедуры
Предположим теперь, что имеются набор независимых переменных Xi, Хр, которые являются кандидатами на роль предикторов У, и случайная выборка объема п. Рассмотрим сначала стандартную пошаговую процедуру, которая состоит из правила включения переменных и правила исключения переменных (замена переменных не входит в состав стандартной пошаговой процедуры). Как будет показано ниже, другие пошаговые процедуры являются модификациями стандартной пошаговой процедуры.
1. Стандартная пошаговая процедура (F-метод). Включение и удаление переменных осуществляются с помощью введенной ранее статистики.критерия, именно ^-критерия (3.2.25) для про-сг,-верки равенства нулю частного коэффициента корреляции. В программах большинства ПСП, однако, вычисляется квадрат этой статистики, который имеет F-распределение (число степеней свободы определено ниже), и называется либо F-включенШг- либо F -удаления.
Более точно, предположим, что в набор с уже включено k переменных, k = 0, 1,...,/? — 1. Тогда значение F-включения для переменной X (не входящей в с) вычисляется по формуле
Fyx.c = r'yX.c(n~.k-2)/(l -г\х.с). (3.3.1)
Эта величина служит статистикой критерия для проверки гипотезы о том, что предсказание У значимо не улучшается при включении X в набор с, т. е. Я0: рух с = 0, и если эта гипотеза верна, то распределена по закону F (1, n — k — 2).
Аналогично, величина F-удаления для какой-либо переменной Л! из с служит статистикой критерия для проверки гипотезы о том, что набор с', получающийся из с при удалении X и содержащий k' = k — 1 переменных, предсказывает У «так же хорошо»* как и набор с. Иными словами, проверяется гипотеза Я0: рух.С' = О и статистикой критерия является величина (F-удаления)
Fyx.e> = r\x.c. (n-k'~ 2)/(1 - г%х.с.), (3.3.2)
распределенная по закону F (1, n — k' — 2), если Я0 верна.
Как будет показано в разд. 3.3.2, правило остановки, обычно используемое в стандартной процедуре, основано на задании допустимого минимума F-включения (или,, что эквивалентно, максимума уровня значимости а). В некоторых пакетах по умолчанию^ предполагается, что минимум F-включения равен 4.0. Для удаляемых переменных также выбирается допустимый минимум
3.3. Пошаговая регрессия
197
Р-удаления (эта величина должна быть меньше минимума Р-вклю-чения; в некоторых пакетах по умолчанию принимается, что минимум Р-удаления равен 3.9). Рассмотрим теперь подробно шаги стандартной процедуры.
Шаг 0. Вычисляются простые коэффициенты корреляции гух и величины Р-включения Рух для I = 1, р. (Заметим, что простой коэффициент корреляции есть частный коэффициент корреляции при к = 0 и пустом наборе с.) Статистика критерия дается выражением
^ = ^(л-2)/(1 -г%*), (3.3.3)
которое получается из формулы (3.3.1) подстановкой к — О, или как квадрат ^-статистики из замечания 3.1.5.3. Величина Рух. имеет Р-распределение с 1 и п — 2 степенями свободы и служит для проверки гипотезы Н0: рух = 0, г = 1, р.
Шаг 1. Пег^емеддад-Х^, которой отвечаел^надб^мьщее.значение Р^ключения (или, что эквивалентно, наибольшая величина квадрата коэффициента корреляции с У), выбирается как наилуч-пТй1Г ТТрёдиктор для У. Вычисляются соответствующее уравнение наименьших квадратов, таблица дисперсионного анализа и множественный коэффициент корреляции Гу.Х/^ = | Гух^ |. Величина Р-удаления для X/, в этом случае совпадает с величиной В'-включения. Далее вычисляются коэффициенты частной корреляции гух[Х(1 и значение Р-включения
Р,*,.^ = г\х,х^ (п -3)1(1 -г2уХ(.Х(1) (3.3.4)
для I = 1, р, 1ф1ът. е. для каждой переменной, не вошедшей в уравнение регрессии. Эта статистика имеет 1 и п — 3 степеней свободы и служит для проверки гипотезы Н0: рУх1-х1 — 0, i — = 1, р, г Если все вычисленные значения Р-включения
меньше установленного минимума, то далее выполняется шаг Б.; ;, В противном случае происходит переход на шаг 2.
| Шаг 2. Переменная Х;2, имеющая наибольшее значение Р-вклю-
р чения (или, что эквивалентно, наибольший кв_адр_ат.. дастного
р коэффициента корреляции с У при фиксированном" значении Х/,),
^ выбирается как наилучший предиктор для У при условии, что уже
| выбрана переменная Х^. Вычисляются уравнение наименьших
г квадратов, таблица дисперсионного анализа, множественный коэффициент корреляции 1"у.х. х и значения Р-удаления Рух1 -х{1
Предыдущая << 1 .. 68 69 70 71 72 73 < 74 > 75 76 77 78 79 80 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed