Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 118

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 112 113 114 115 116 117 < 118 > 119 120 121 122 123 124 .. 183 >> Следующая

т'2 = (Х1 ~Хг)'8-1 (Х1 -Хг)> (5-26)
где
^^Е*'" г'=1'2' (5'2'7)
— оценка ц(. Если гипотеза Я0: цх = 1Л2 верна, то величина
р = % + /и - Р - Г2 (5 2.8)
(«1 + гц - 2) р у >
имеет ^-распределение с /) и ях + ^ — р — 1 степенями свободы.
Замечание 5.2.3. 1. Выборочные векторы средних и ковариационные матрицы для каждой выборки могут быть получены с помощью дескриптивной программы. Общая ковариационная матрица вычисляется согласно выражению (5.2.5). Для вычисления выражения (5.2.6) можно использовать программу, указанную в замечании 5.2.1, в которой следует положить А = хх — хг и В = Б.
2. Р-статистику можно получить с помощью программы двух-выборочного дискриминантного анализа (см. замечание 5.3.2.3). Поэтому примеры приводятся в соответствующем разделе.
3. Многомерный аналог доверительного интервала для линей-
р
ной комбинации разностей средних 2 а< 0% — Н-г/) имеет вид
«=1
р
2 аг (хи - *«) ±
1=1
і=\ /=і
1/23
где —элементы матрицы 8. Общий уровень значимости для всех комбинаций аъ аР равен 1 —а. Например, доверительный интервал для р,1г — [12г имеет вид
(хи — хи) ±
(щ + я,-2)р щ + я, р (о п ,п _п_и„ у*
П А. Афифи, О. Эйзеи
322
Гл. 5. Методы многомерного статистического анализа
5.3. Классификация индивидуума в случае двух популяций
Задача классификации состоит в отнесении ^некоторого индивидуума ы> к одной из & популяций №2, №А на основе измерения р параметров хи хр. Следующие два примера иллюстрируют суть проблемы.
Пример 5.3.1. Приемная комиссия колледжа задается целью отнести каждого абитуриента либо к популяции студентов, которые успешно закончат колледж, либо к популяции Ц72 тех, кто не закончит колледж. Решение комиссии складывается на основе оценок абитуриента по р вступительным экзаменам.
Пример 5.3.2. Врач должен определить, какой из к болезней болен пациент на основе наличия или отсутствия р симптомов. Этот пример будет рассмотрен в разд. 5.4.3.
В этом разделе будет рассмотрен частный случай классификации — отнесение индивидуума к одной из двух популяций, т. е. & = 2. В разд. 5.3.1 этот вопрос изучается в предположении многомерных нормальных распределений с известными параметрами в каждой популяции, тогда как в разд. 5.3.2 представлена та же задача с неизвестными параметрами распределений. В разд. 5.3.3 рассматриваются способы оценивания вероятности ошибочной классификации, разд. 5.3.4 посвящен оцениванию апостериорных вероятностей.
5.3.1. Классификация в случае многомерных нормальных популяций с известными параметрами
Стандартная процедура классификации для случая р непрерывных переменных предполагает, что наблюдения принадлежат одной из двух популяций, имеющих многомерные нормальные распределения. Наблюдения хи х2, хр записываются в виде вектора х = (хи хр)', и предполагается, что ЧРХ имеет распределение N (цГх1, ЪРХр), а ^-распределение N (№, ЪРХР), где № — (Н^и •••! Ргр)', 1 = 1.2. Другое упрощающее предположение состоит в том, что 2Х = 22 = 2 = {о1}), I = 1,р, / = 1,р. Итак, вектор х имеет распределение N (ць 2) или N (ц%, 2).
Параметры щ, ц2 и 2 вначале будут считаться заданными. Интуитивно кажется разумным найти линейную комбинацию наблюдений, называемую дискриминантнов функцией, имеющую вид
г = Ол*! + а2л:2 -)----+ а,рХр, (5.3.1)
где а,, ар — некоторые постоянные, и отнести х к №ь если
г с, (5.3.2)
5.3. Классификация в случае двух популяций
323
И К W2, если
2<с, (5.3.3)
где с — постоянная. Тогда задача будет сведена к определению значений alt ар и с, минимизирующих вероятность ошибочной классификации. Вначале будем выбирать эти постоянные на интуитивном уровне, а затем покажем, что получившаяся процедура классификации оптимальна.
Если наблюдение х поступило из Wu то величина z имеет нормальное распределение со средним
?i = 23 «/гЧ/ (5.3.4) /=1
и дисперсией
<? = 23 23 Win- (5.3.5)
i—i /=i
Аналогично для х из W2 величина z имеет нормальное распределение со средним
р
?2=|o/N (5.3.6)
и с той же дисперсией а\. Имеет смысл выбрать такие аъ ар, при которых ?х и ?2 были бы как можно больше удалены друг от друга относительно о\. Для этого введем расстояние Махала-нобиса
| Л2= . ^ (5.3.7)
Эта величина была предложена в работе Mahalanobis (1936) для измерения «расстояния» между двумя популяциями. Таким образом, требуется найти коэффициенты а1? ар, максимизирующие А2. В работе Fisher (1936) показано, что такие at служат решением системы линейных уравнений
агоп + а2а12 -|----+ ара1р = u.u — u.21,
«1^21 + a20"22 Н-----h ар°2Р = Hl2 — ^22, (5.3.8)
а1°"р1 + + * • * + ар°рр = Hlp — Нр-
После подстановки полученных at в (5.3.1) каждому объекту
хх..... хр ставится в соответствие значение дискриминантной
функции г.
Для определения постоянной с следует рассмотреть рис. 5.3.1, на котором показаны два распределения величины z относительно постоянной с. Если вектор х принадлежит W2, но г = Sf^ja^^ ^ ^ с, то х относится к Wi и, таким образом, будет совершена ошибка. Вероятность Pr (1 | 2) этой ошибки показана на рис. 5.3.1. На этом рисунке показана также вероятность Рг (2 | 1)
Предыдущая << 1 .. 112 113 114 115 116 117 < 118 > 119 120 121 122 123 124 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed