Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 124

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 118 119 120 121 122 123 < 124 > 125 126 127 128 129 130 .. 183 >> Следующая

Замечания 5.4.1. 1. Некоторые программы выводят на печать таблицу результатов классификации, содержащую число пц
ВеКТОрОВ Xjm ВЫборКИ ИЗ Wj, ОТНесеННЫХ К Wit т = 1, tlj,
i, j = 1, k. Заметим, что 23*=1Я^ = п) — объем /-й выборки, /= 1, С помощью этой таблицы можно оценить вероятность
ошибочной классификации
Рг(»|», / = 1.....1ф].
Хотя полученные оценки являются смещенными, в случае k популяций все другие оценки этих вероятностей требуют сложных вычислений.
2. В некоторых программах вычисляется так называемое обобщенное расстояние Махаланобиса V — обобщение величины D2. Оно может быть использовано для проверки гипотезы Я0: fit = ... ^ fik. Если гипотеза Я0 верна, а объемы выборок щ стремятся к со, то распределение величины V стремится к х2 с р (k—1) степенями свободы. Таким образом, приближенная проверка гипотезы Я0 состоит в том, что гипотеза отвергается при %2 >
>Х?-« (Р (k-l)).
3. Заметим, что проверка гипотезы Я0: iij = ¦ • • = pk является многомерным аналогом однофакторного дисперсионного анализа. Теория проверки этой и более общих гипотез рассматривается в многомерном дисперсионном анализе Anderson (1958), Rao (1965). Многие программы выводят на печать так называемую U-статистику, которая является точной для проверки гипотезы Я0. Ввиду сложности распределения величины U на печать выводится ее F-аппроксимация и соответствующее число степеней свободы. Такой критерий является ТОЧНЫМ ДЛЯ /7 = 1,2 при любых k, или же при k = 2 для любых р.
338
Гл. 5. Методы многомерного статистического анализа
4. Программы, предполагающие, что все ц1 попарно равны для [ = 1, к, можно использовать и в случае, когда это условие не выполняется. Для этого следует при выводе постоянных с,-(см. п. Ь)) прибавлять к ним величины 1п К оценке значения дискриминантной функции для каждого вектора х,т следует также прибавить 1п Цс (см. п. с)). В п. е) требуется произвести переклассификацию: вектор \1т относится к той популяции, для которой модифицированная дискриминантная функция имеет наибольшее значение.
5. В этом разделе предполагалось, что & 5= 2 и стоимости ошибочной классификации равны. Если & = 2, то процедура сводится к сравнению
р . р
^1=11 ацх, + ^1 + 1п ах с с12 = ? а2.-х- + с2 + 1п ц2. /=1 /=1
Вектор х относится к УР\ при с1г ^ а\, или, что равносильно,
р
Б (ац — «а/) X) 5г (с2 — сх) + 1п /=1
Полагая а; = а1} — для / = 1, р и (2г + 2г)/2 = сг — с,, получим линейную дискриминантную функцию (5.3.26) при С(1|2) = С(2| 1).
* 6. Формулы (5.4.6) для линейных дискриминантных функций можно записать в матричном виде
8* - (р-'г 2 _1) х — 4- И| Г "V* + 1п ци
причем
а,-
а,
чр
= 1. ЛИ ус
-1
*' = 1.....
Аналогично, оценки (5.4.9) дискриминантных функций принимают вид
йс — (х^-Б-1) х--^- Х{8_1х,- 4- 1п дс,
= 8_1х(- и с,- =; — -5- х^-гхг, I = 1,. . .,
И наконец, матричное выражение для V (замечание 5.4.1.2) имеет вид
к _ _ _ _
У= ЕМ*-*)' 8-1(х,-х),
1=1
5.4. Классификация в случае к популяций
339
где
На интуитивном уровне величину V можно интерпретировать как взвешенную сумму «расстояний» от векторов средних каждой группы X; до общего вектора средних х. *
7. В случае когда не выполняется предположение о равенстве ковариационных матриц, т. е. каждая популяция Wt имеет распределение N (р.„ 2<) Для i = 1, можно получить ква-
дратичную дискриминантную функцию (Rao (1965, с. 488)). Если плотности ft (х) неизвестны, для классификации вектора х следует пользоваться непараметрической процедурой (Fix, Hodges (1951, 1952)) и Palmersheim (1970).
Пример 5.4.1. У 113 тяжело больных пациентов в момент их поступления в клинику определяли следующие характеристики: Xi — возраст, Х2 — систолическое давление (в мм рт. столба), Х3 — логарифм сердечного индекса [литр/(мин-м2) ], Х4 — диурез (см3/ч.). Каждый пациент принадлежал к одной из 6 популяций: Wx — больные, не имевшие шока, W2 — имевшие гиповолемический шок, W3 — кардеогенный шок, Wi — бактериальный шок, Wb — неврогенный шок, W9 — другие типы шока. Объемы выборок из соответствующих популяций были следующие: пг = 32, п2 = 17, п3 = 20, п4 = 16, пъ = 16, пв = = 10. По этим данным требовалось вывести процедуру классификации каждого поступающего пациента при условии, что он относится к одной из приведенных выше шести популяций. В предположении равенства всех априорных вероятностей и равенства стоимостей ошибочных классификаций для вычисления величин d;, i — 1, 6, была использована программа одного из пакетов. Вычисленные коэффициенты приводятся в табл. 5.4.1. Так, например, для Wx была найдена дискриминантная функция
Таблица 5.4.1
Коэффициенты значений линейной дискримииаитиой функции для популяции из примера 5.4.1
Коэффициенты W, w2 щ WA Wb
ап 0.339 0.331 0.339 0.333 0.250 0.337
an 0.197 0.150 0.167 0.151 0.147 0.166
в,э 1.575 1.453 0.916 1.915 1.049 0.999
а,А 0.196 0.135 0.129 0.132 0.142 О! 123
с, -26.827 -20.491 -21.455 -22.141 -15.362 -21.373
340
Гл. 5. Методы многомерного статистического анализа
Таблица 5.4.2
Результаты классификации дли примера 5.4.1
Предыдущая << 1 .. 118 119 120 121 122 123 < 124 > 125 126 127 128 129 130 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed