Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 130

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 124 125 126 127 128 129 < 130 > 131 132 133 134 135 136 .. 183 >> Следующая

В таком случае можно предположить, что для данного пациента изменения вектора наблюдений имеют тренд (например, линейный или экспоненциальный) и структура ковариационной матрицы 2 описывается процессом авторегрессии первого порядка с параметром %. Таким образом, можно значительно уменьшить число оцениваемых параметров. Например, в случае линейного тренда вместо п + 1 параметра вектора средних достаточно оценить два параметра вектора коэффициентов ? = (?0, ?^', где ?0 — начальная точка, а ?x — наклон линии регрессии, описывающей тренд xt по времени t, t = 0, 1, п.
В ряде работ (Azen, Afifi (1972 a, b) и Azen et al., (1975)) было показано, что заменой вектора наблюдений х вектором ? можно ; получить эффективную процедуру классификации. Более того, была обоснована замена параметра автокорреляции X нулем, когда ее оценка удовлетворяет неравенству \к \ <^0.6. Это позволяет ! в процессе оценивания применять метод наименьших квадратов, и, таким образом, решаются проблемы, связанные с автокорре-лированностью данных.
12 А. Афифи, С. Эйзен
354
Гл. 5. Методы многомерного статистического анализа
Такая процедура классификации была применена для предсказания исхода отравления барбитуратом, глутетамидом, или ме-пробаматом (АШ\ et а1. (1971 Ь)). В результате пошагового дискри-минантного анализа данных, взятых непосредственно перед смертью у 18 и перед выведением яда из организма у 34 пациентов, было установлено, что «наилучшими» разделителями являются переменная Хх — систолическое давление (в мм рт. ст.) и Х2- — рН артериальной крови. Была получена линейная дискриминант-ная функция (так называемый прогностический индекс) г = = 0.0785Х1+ 12.529X2. Для каждого пациента этот индекс оценивался через определенные промежутки времени (примерно каждые четыре часа) до смерти или выздоровления пациента. В любой момент времени можно было оценивать состояние пациента по графику г{ как некоторую композицию систолического давления и рН.
Предполагая, что для каждого пациента изменения кривой г1 обусловлены линейным трендом и средний тренд для выживших пациентов отличается от тренда для умирающих, было получено следующее правило классификации: больной относится к популяции выживших пациентов, когда для него выполняется 0.89260 + + 21.0786х > 90.059, где Ьь и Ьг суть оценки начальной точки и наклона кривой наименьших квадратов, аппроксимирующей наблюдения (/, г{), / --= 0, 1, п. -к
5.6. Анализ главных компонент
Пусть имеется р случайных переменных Хх..... Хр с многомерным, необязательно нормальным, совместным распределением, вектором средних (др*1 = (ц^, \1р)' и ковариационной матрицей Ерхр = (а0). Часто требуется определить взаимосвязь между переменными Хи Хр. Эта взаимосвязь называется структурой зависимости и может быть измерена ковариациями, или, что эквивалентно, дисперсиями и корреляциями между Х1г Хр. В некоторых случаях можно найти линейные комбинации Уъ Уд переменных Хъ Хр(д<Ср), по которым можно получить структуру зависимости между Хх..... Хр. Таким
образом, получается сжатое описание структуры зависимости, несущее почти всю информацию, содержащуюся в самих переменных.
В настоящем разделе рассматривается один из методов анализа структуры зависимости. Он но^ит название анализа главных компонент. Суть метода состоит в том, что ищутся такие линейные комбинации исходных переменных
р р
У\ = 2] а1/^/.....Ур~ 2] Ыр/Хр
/=1 ;'=1
5.6. Анализ главных компонент
355
ЧТО
cov (YiYj) = О, i, } = 1,. .., р, IФ /, (5.6.1)
V(Y1)>V(Y2)>--.^V(YP), (5.6.2)
tv(Yt)=-tau- (5-6.3)
Из этих формул видно, что переменные Ylt Yp не коррели-рованы и упорядочены по возрастанию дисперсии. Более того,
общая дисперсия V = E?=ia» после преобразования остается без изменений. Тогда подмножество первых q переменных Yt будет объяснять большую часть общей дисперсии и, таким образом, получится сжатое описание структуры зависимости исходных переменных. Метод главных компонент состоит в определении коэффициентов аи, i, j = 1, р. Вначале мы обсудим подробности этого метода в терминах параметров распределений, а затем будут рассмотрены вопросы, связанные с оценкой параметров по выборкам. Совместное распределение исходных переменных не обязательно считать многомерным нормальным. Однако такое предположение удобно, поскольку линейные комбинации нормально распределенных величин имеют в свою очередь нормальное распределение и, следовательно, полностью определяются параметрами ц и 2. Тогда можно положить ц. = (0, 0)' и структура зависимости, задаваемая матрицей 2, будет полностью описывать совместное распределение переменных Хи Хр.
Пусть матрица 2 известна и имеем Y± = <х11Х1 + ... а1рХр. Требуется найти такие аи, а1р, чтобы величина
V(^)= & toiioi/о-// (5.6.4)
была максимальной при SyLia'i/ = 1. (Это условие обеспечивает единственность решения.) Решение ах = (аш а1р)' называется собственным вектором и соответствует максимальному собственному значению матрицы 2. Это собственное значение равно дисперсии V (Yi). Линейная комбинация Ух = au^i + ••• + + <х1рХр называется первой главной компонентой переменных Хъ Хр. Она объясняет 100 V (YJ/V процентов общей дисперсии.
Предыдущая << 1 .. 124 125 126 127 128 129 < 130 > 131 132 133 134 135 136 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed