Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 125

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 119 120 121 122 123 124 < 125 > 126 127 128 129 130 131 .. 183 >> Следующая

Число случаев из Щ, классифицированных в IV,
IV, = \УХ УУЬ Суммарное
И", 20 1 5 4 4 0 34
№2 1 2 5 5 3 1 17
3 0 8 2 5 2 20
2 2 0 6 4 2 16
2 1 0 1 11 I 16
с* 2 1 4 1 1 1 10
а\ = 0.339%! + • • • + 0.196х4 — 26.827. В табл. 5.4.2 результатов классификации п13 = 3, например, означает, что трое из двадцати больных, принадлежащих выборке из популяции №3, относятся
к Следовательно, Рг (1/3) = 3/20- Для проверки гипотезы Я0: 111х1 = • ¦ ¦ = 11бХ1 было вычислено значение Т7—4.21 с 20 и 345.9 степенями свободы. (Заметим, что дробное число степеней свободы появилось из-за того, что Р является аппроксимацией и -статистики.) По таблице Р-распределения находим Р0 999 (20, 345.9) а* 2.5. Следовательно, гипотеза Я0 должна быть отвергнута при Р < 0.001.
5.4.3. Классификация в случае популяций с биномиальными распределениями
Случай отнесения объекта к одной из & популяций с биномиальными распределениями рассматривался в примере 5.3.2. Нужно отнести пациента к одной из к категорий больных в зависимости от проявления р симптомов. В общем случае требуется классифицировать объект на основе наличия или отсутствия р событий. Определим для каждого /-го события, / = 1, р, случайную величину
1, если событие / имеет место, 0, если событие / отсутствует.
Положим Рг (X, = 1 1 №,) = рц и Рг (Х} = 0 | = \—ри для I = 1, к, / = 1, р. Тогда закон распределения Х] для популяции имеет вид
М*/) = />?/(!-Р,/)1-*'. 7 = 1.....Р- (5.4.12)
5.4. Классификация в случае к популяций
341
Если предположить независимость Хъ Хр, то совместный закон распределения Д- (х) для №; можно записать в виде
Мх) = ПМ*/). 1 = 1,...,*, х = (хъ...,хр)'. (5.4.13) /=1
Полагая, что априорные вероятности ах, цк одинаковы и стоимости ошибочной классификации равны, вычислим апостериорные вероятности по формуле (5.4.5):
Рг(^|х)^---т» (5-4.14)
т=1
/=1 '
Вектор х относится к такой популяции УР1, для которой величина Рг (№, | х) максимальна.
Пример 5.3.2 (продолжение). Этот пример иллюстрирует то, как ЭВМ. ставит диагноз. Поскольку величины рц неизвестны, их следует оценить по случайной выборке из п пациентов, взятой из смеси к популяций. Пусть п1 — число пациентов, страдающих 1-й болезнью, 1 = 1, к, а ??=1 щ = п. Пусть п1} — число пациентов с 1-й болезнью, имеющих /'-й симптом. Тогда оценка рц имеет ВИД "
Рц = пч/п„ 1 = 1,...,*, 1 = 1,..., р.
Если априорные вероятности ^, неизвестны, то их оценками являются
Ц1 = щ!п, 1= \ ,...,к.
Теперь можно написать программу оценки апостериорной вероятности для каждого вновь поступающего пациента х = (хх, хр)', имеющей вид
1-Х;
Рг(Г,|х,
З-ПШЧ'-тг) '
п 1 1 \ гет ] \ пт )
Поскольку предположение о независимости симптомов на практике в большинстве случаев не выполняется, то, когда все 01 равны, для классификации используется другая процедура, которая для любой возможной комбинации симптомов вычисляет соответствующую долю объектов в каждой выборке. Новый объект, задаваемый комбинацией симптомов, относится к популяции,
342
Гл. 5. Методы многомерного статистического анализа
выборка из которой имеет наибольшую долю объектов с такой комбинацией. Пусть, например, ? = 2, р = 3. По двум выборкам объема пу и п2 составляется следующая таблица:
Симптомы wy w2
ООО 0.10 0.20
100 0.10 0.15
010 0.20 0.10
001 0.10 0.15
. по 0.20 0.10
101 0.10 0.20
011 0.10 0.05
111 0.10 0.05 ,
Поступающий объект с комбинацией симптомов ПО будет отнесен к популяции Wi, поскольку 0.20 > 0.10. Неудобство этого метода заключается в том, что для каждой популяции надо вычислять 2" параметров. Поэтому удобнее принять предположение о независимости симптомов.
Пример 5.4.2. В этом примере представлена графическая форма байесовской процедуры классификации. Так называемый номограф часто облегчает врачам диагностику (Lusted (1968)).
На основе вектора наблюдений х = (хг, хр)' течения беременности, родов и кормления детей, имевших при рождении маленький вес (<1500 г), требовалось предсказать их психомоторное развитие к одному году. Каждая предикторная переменная xh i = 1, р, имела биномиальное распределение. У детей в возрасте одного года можно определить индекс психомоторного развития (PDI) согласно шкале детского развития Бейли (Bayley (1969)). Область значений PDI была разбита на две части: при PDI $г 85 считалось, что ребенок принадлежит к популяции Wj детей с нормальным развитием, PDI <5 85 определял популяцию W2 детей с ненормальным или патологическим развитием (более подробно см. Azen et al. (1979)).
Теорему Байеса для вычисления апостериорных вероятностей можно записать следующим образом:
Pr (Wt\x) =
/=1_
2
TJPr (Xj\Wm)
L/=i
для i=l,2. Если взять логарифм отношения двух апостериор-
5.4. Классификация в случае к популяций
343
ных вероятностей, то можно получить z = log[Pr(№2|x)/Pr (W1\x)) =
= log (ft/fc) + t log [Pr {x, I WO/Pr (x, I WJ].
/=1
Легко заметить, что имеет место взаимно однозначное соответствие между z и Рг (№2 | х), которое можно продемонстрировать на одномерном номографе, изображенном на рис. 5.4.1.
Предыдущая << 1 .. 119 120 121 122 123 124 < 125 > 126 127 128 129 130 131 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed