Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 132

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 126 127 128 129 130 131 < 132 > 133 134 135 136 137 138 .. 183 >> Следующая

5. Впервые анализ главных компонент появился в работе Pearson (1901). Там решалась задача нахождения прямой, сумма квадратов перпендикуляров на которую из точек-реализаций вектора наблюдений была бы минимальна. Решением оказалась прямая, проходящая через конец вектора средних (хи хр) и точку (аи, а1Р), координаты которой равны оценкам соответствующих коэффициентов первой главной компоненты.
Следует заметить, что главные компоненты дают экономию только в описании группы переменных, так как для определения значений главных компонент, соответствующих реализации х = = (xlt хру, необходимо измерять все р признаков. Вместе с тем процедура пошагового дискриминантного анализа действительно уменьшает число переменных, значения которых надо определять.
Пример 5.6.1. В отделении интенсивной терапии были собраны данные о ИЗ пациентах в критическом состоянии. Измерялось
5.6. Анализ главных компонент
359
Таблица 5.6.1
Коэффициенты первых пяти главных компонент для примера 5.6.1
Переменная I 2 3 4 5
Возраст -0.0206 -0.2806® 0.4211 ® 0.0267 0.1255
Систолическое давление -0.1013. 0.4757 ® 0.3127 0.1050 0.0750
Среднее артериальное "давление -0.1670 0.4988 ® 0.2168 0.1045 0.0835
Частота сердечных сокращений -0.0244 -0.0352 -0.4000© 0.5175© -0.2238
Диастолическое давление -0.2229 0.4679 ф 0.1269 0.1092 .0.0764
Среднее венозное давление 0.0400 -0.1023 0.2286 0.5637® -0.1177
Логарифм сердечного индекса 0.3701 ® 0.1630 0.1378 -0.0681 -0.2945
Логарифм времени появления -0.3101 © -0.2686© 0.3416® -0.1659 0.1506
Логарифм среднего времени -0.3708 - 0.2745 © 0.1939 0.0061 0.1499
циркуляции Диурез 0.0767 0.1986 -0.2661 -0.5002® 0.2111
Логарифм индекса аЬкема плазмы Логарифм эритроцитпрного . индекса Гемоглобин 0.3125 © -0.0333 0.3559 ® -0.1521 -0.3662
-0.2006 -0.4467 ® 0.0205 0.0166 0.1425 -0.1760 -0.2600 -0.0587 -0.6958® -0.2305
Гемитокрит -0.4423 ® 0.0122 -0.1662 -0.0574 -0.2326
14 переменных: возраст, артериальное и Венозное давления, кровоток, частота сердечных сокращений, ... (табл. 5.6.1). Четырнадцать главных компонент определялись программой, использующей в качестве исходной информации корреляционную матрицу. Были получены следующие собственные значения:
Компонента 1 2 3 4 5 6 7
Собственное значение 3.876 3.159 1.379 1.234 1.102 0.968 0.730 Компонента 8 9 10 11 12 13 14
Собственное значение 0.535 0.486 0.270 0.141 0.079 0.022 0.018
Поскольку общая дисперсия V равна 14 (сумме собственных значений), первая компонента объясняет 100 (3.876)/14 = 27.7 % всей дисперсии, вторая 100 (3.159)/14 = 22.6 % и т. д. Доля общей дисперсии, накопленная соответствующим числом первых главных компонент, приводится в следующей таблице:
Число компонент 1 2 3 4 5 6 7
Накопленная доля 0.28 0.50 0.66 0.69 0.77 0.84 0.89
Число компонент 8 9 10 11 12 13 14
Накопленная доля 0.93 0.96 0.98 0.99 1:00 1.00 1.00
Для иллюстрации предположим, что 0.77 — достаточная доля дисперсии для описания структуры исходных переменных. Тогда первые пять главных компонент дают достаточно хорошее представление об этих переменных. Коэффициенты <Хц, I = 1, 5, / = 1, 14, приведены в табл. 5.6.1. Следовательно, первая компонента имеет вид: Уг = —0.0206 (возраст) + ... —0.4423
360
Гл. 5. Методы многомерного статистического анализа
(гематокрит). Аналогичным образом можно записать и другие компоненты.
Для выделения информации, содержащейся в этих компонентах, можно воспользоваться замечанием 5.6.1.4. Поскольку корреляция между XI и У1 выражается величиной
а/ЛУ(^-)],/2/<г„ * = 1, Л-114, / = 1, 5,
выберем переменные, имеющие коэффициенты корреляции с главными компонентами по абсолютной величине ^0.4. Например, [У [У\)\112 — (3.876)1/2 = 1.97 и переменная, соответствующая количеству гемоглобина в крови, имеет с первой главной компонентой Уг коэффициент корреляции по модулю, равный | 1.97 (—0.4467)| = 0.88. Семь переменных, помеченные в первом столбце таблицы номерами в кружочках, удовлетворяют правилу отбора. Аналогично, шесть переменных, помеченные во втором столбце, имеют коэффициенты корреляции с Уг, превосходящие 0.4 и т. д. Характер помеченных переменных подсказывает интерпретацию каждой компоненты. Уи например, можно считать компонентой, характеризующей состав крови, У2 — давление и кровоток, У3 — возраст, К4 — диурез, Уъ — эритроцитарный индекс.
5.7. Факторный анализ
В предыдущем разделе был приведен способ описания структуры зависимости р исходных переменных Хг, Хр, имеющих совместное нормальное распределение с вектором средних ц = = (р.!, [хр)' и ковариационной матрицей 2рХр = (°и)- Было показано, что главные компоненты можно записать в виде линейных комбинаций исходных переменных:
^1=23 аиХ{,...,Ур^ ?«РЛ- (5.7.1)
Эти переменные не коррелированы и упорядочены по убыванию дисперсии V (К,), I = 1, р. Кроме того, общая дисперсия V не меняется в результате перехода от переменных Хи Хр к Уъ .... Ур, т. е.
Предыдущая << 1 .. 126 127 128 129 130 131 < 132 > 133 134 135 136 137 138 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed