Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 121

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 115 116 117 118 119 120 < 121 > 122 123 124 125 126 127 .. 183 >> Следующая

Замечания 5.3.2. 1. Если, как и в случае с известными параметрами, коэффициенты ах, ар имеют общий положительный множитель, величина
</1С(2|1)
должна быть тоже умножена на него. В некоторых программах объединенные дисперсии и ковариации в системе уравнений (5.3.8) заменяются на суммы квадратов и смешанные произведения отклонений соответственно. В результате коэффициенты дискриминантной функции ах, ар делятся на пх-\-п2 — 2. Следовательно, величину К необходимо также разделить на пх + п2 — 2.
2. Часто бывает сложно определить априорные вероятности ах и ц2. Если случайные выборки объема пх и п2 берутся соответственно из популяций и №2, то цх и цг можно оценить величинами цх = пх1(пх + п2) и Ц2 = Пъ1(Пх + /г3).
3. В результате работы программы дискриминантного анализа обычно выводится значение ^-статистики
р _ П1 + п.2 — р — 1 /11/га
(пх + щ — 2) р щ + щ
которое можно использовать для проверки гипотезы Н0: А2 = 0. Числа степеней свободы У7 равны р и пг + п2 — р — 1. Поскольку последняя эквивалентна гипотезе Н0: цх = |и2, эта статистика идентична ^-статистике (5.2.8). Именно на такой способ вычисления ^-статистики делается ссылка в замечании 5.2.3.2.
330
Гл. 5. Методы многомерного статистического анализа
4. Выборочная оценка О2 расстояния Махаланобиса является смещенной. Несмещенная оценка имеет вид
5. Дискриминантный анализ для двух популяций можно осуществить при помощи программы множественной регрессии. Для этого в качестве зависимой переменной надо взять величину У = п21(пх + п2), если объект принадлежит популяции №х, и У — —пх1{Пх + 1Ч), если берется объект из №2- Независимыми переменными являются векторы Хг, Хр. Объект относится к популяции Шх при у 0, в противном случае — к №2. Оценка расстояния Махаланобиса О2 может быть получена по формуле
где 7? — множественный коэффициент корреляции. Более подробно об этом см. ЬаспепЬгисЬ (1975).
Пример 5.3.3. При помещении пациентов в критическом состоянии в отделение интенсивной терапии желательно классифицировать их на «тяжело» и «менее тяжело» больных. Поскольку вероятность смерти тяжело больных пациентов велика, популяция «тяжело больных» условно называется «невыжившие»,а популяция «менее тяжело больных» — «выжившие». Таким образом, к популяции №х относятся выжившие пациенты, а к популяции Ц72 — умершие. На различных стадиях лечения собираются данные о их состоянии. В этом примере для наилучшего разделения двух популяций использовались выборки по наблюдениям, собранным непосредственно перед выздоровлением, или смертью больного.
У л2 = 70 выживших и п2 = 43 умерших пациентов проводились измерения 13 физиологических параметров. Сюда включались: артериальное и венозное давления, измерение кровотока, определение составляющих крови, диурез. Согласно замечанию 5.3.2.2, можно оценить ^ величиной цх = 70/113 и ц2 — величиной <?2 = 43/113. Величины С (2 | 1) и С (1 | 2) были взяты равными 1, поскольку нет объективных оснований для присвоения им других значений.
При использовании программы дискриминантного анализа, подставляющей в систему уравнений (5.3.8) суммы квадратов и смешанные произведения отклонений вместо дисперсий и ко-
о2 =
Я2 («1 + я2) ("1 + я2 - 2) (1 _я»)п1«г
5.3. Классификация в случае двух популяций
331
вариаций, были получены следующие коэффициенты дискрими-нантной функции:
а3
—0.00006
-0.00013
а6
0.06193
а2
0.00183
а7
-0.01.437
а8
0.02534
а4
—0.00043 0.00007
Й5
-0.00167
«10
0.10206
а11 а12
0.02684 —0.00176
а
13
0.00070
Были найдены также величины гх = 0.37487, z2 = 0.28851 и D2 = 9.58588. Согласно замечанию 5.3.2.1, следует поделить К = In (43/70) = —0.49 на nx + ns — 2 = 111.
Таким образом, байесовская процедура классификации заключается в следующем: вектор х = (хи хАЗ)' относится к популяции W, если
13
atXi >
(0.37487 + 0.28851)
0.00442 = 0.32727,
и к W2 — в противном случае.
Наконец, для проверки гипотезы Я0: А2 = 0, или, что тоже самое, Я0: щ = ц2, воспользуемся значением /^-статистики, вычисляемым программой: F (13, 99) = 17.52. Последнее значимо с Р <0.001. ' "/ . - /2 " )
В примере 5.5.3 приводится метод классификации, использующий повторные наблюдения над состоянием пациентов.
5.3.3. Вычисление вероятностей ошибочной классификации
В случае когда параметры распределений известны, значения вероятностей ошибочной классификации Рг (2 | 1) и Рг (1 | 2) даются формулами (5.3.20)—(5.3.21). В случае, когда параметры оцениваются, существует несколько способов оценки этих вероятностей. Преимущества и недостатки таких способов будут рассмотрены ниже. Более подробно об этом см. Hills (1966) и La-cheubruch, Mickey (1968).
Метод 1. Поскольку D2 является оценкой А2, в формулах (5.3.20) и (5.3.21) можно заменить А2 на D2. Следует, однако, заметить, что такие оценки будут смещенными, т. е. действительная вероятность ошибочной классификации будет в среднем больше, чем такая оценка. Преимуществом метода является простота таких оценок: их легко получить по результатам работы программы.
Метод 2. Этот метод состоит в классификации каждого элемента выборки объема пх из популяции Wx и выборки объема п2
Предыдущая << 1 .. 115 116 117 118 119 120 < 121 > 122 123 124 125 126 127 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed