Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 120

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 114 115 116 117 118 119 < 120 > 121 122 123 124 125 126 .. 183 >> Следующая

Рг(1 |2) = Ф [-j-i-j, (5.3.21)
где
* = 1пЩщЬ (5-3.22)
а А2 задается равенством (5.3.7). Заметим, что, когда С (1 | 2) = = С (2 | 1) и ?1 = ft = V2,
Рг.(211) = Рг (112) = Ф (-4-)- (5-3-23)
Замечания 5.3.1. 1. Системы уравнений (5.3.8) можно решить при помощи любой из подпрограмм для решения систем линейных уравнений, например подпрограммы SIMQ из SSP.
5.3. Классификация в случае двух популяций
327
2. Можно показать, что набор аи ар, полученный умножением решения системы (5.3.8) на любое положительное число, также максимизирует А2. Если почему-либо а1г ав умножены на положительную постоянную, то величина
к - 1П <&С(1|2) С (2 | I) '
встречающаяся в процедуре классификации, умножается на ту же постоянную.
3. Величины Рг (2 | 1) и Рг (1 | 2) являются убывающими функциями от А2, т. е. вероятности ошибочной классификации убывают, когда расстояние между двумя популяциями растет.
* 4. Решение системы (5.3.8) можно записать в матричных обозначениях
а = 2"1 (VI — Мя). где а = (аь .. ., а„)'. Подстановка в (5.3.7) позволяет записать расстояние Махалано-биса в виде
А2 = (^ - ц2)' 2"10*1 -14)- ?
5. Если х принадлежит к одной из двух известных популяций с произвольными функциями плотности {г (х) и /2 (х) соответственно, то обобщенная байесовская процедура сводится к отнесению х к №ь если
%С(2|1)Мх) ^ , <?,С(1|2)/1(х) * 1'
и к ^ в противном случае.
Пример 5.3.1 (продолжение). Пусть приемная комиссия учитывает оценки, полученные абитуриентами на р = 2 экзаменах. Пусть х = (хъ х%)' — вектор оценок абитуриента. Из опыта предыдущих лет известно, что
^ Г100 70"
И! = (60, 57)', ц2 = (42, 39)' и 2 = ?() т
Пусть = 1/8, <72 = 2/3 и примем для иллюстрации, что С (1 | 2) = = 2000 и С (2 | 1) = 3000 долл. Подставляя эти значения в систему ^уравнений (5.3.8), получаем 100«! + 70а2 = 18, 70ах + + 100а2 = 18, откуда аг = а2 = 54/510. Следовательно, дискри-минантная функция имеет вид г = (54/510) (х\ + х^). Согласно (5.3.4), ^ = (54/510) (60 + 57) = 12.39, а по формуле (5.3.6) имеем ?2 = 8.58. Следовательно, (5.3.9) и (5.3.22) соответственно дают с = (12.39 + 8.58)/2 = 10.49 и К = 1п (4/3) = 0.288. Итак, обобщенная баейсовская процедура относит х к популяции И?!, если (54/510) + *2) ^ 10.49 + 0.288, т. е. х1 + х., ^ 101.79. Если же хх + хг <1101.79, то вектор относится к№2. Величина о2 (5.3.5) равна 3.81 и расстояние Махаланобиса А2 (5.3.7) также
328
Гл. 5. Методы многомерного статистического анализа
равно 3.81. Затем по формулам (5.3.20)—(5.3.21) можно получить вероятности ошибочной классификации: Рг (2 | 1) = Ф (—0.83) = = 0.203, Рг (1 | 2) = Ф (—1.12) = 0.131.
Итак, абитуриент принимается, если линейная комбинация его оценок больше или равна 101.79 и не принимается в противном случае. При такой процедуре 20.3 % потенциально хороших студентов отвергается комиссией и принимается 13.1 % потенциально плохих.
5.3.2. Классификация в случае двух многомерных
нормальных популяций при неизвестных параметрах
Пусть имеется объект, которому соответствует вектор наблюдений х = (хг, хг, хРУ. Требуется отнести его на основе этих наблюдений к популяции Wt с распределением N (|ufxl, 2РХР) или к W2: N (ц2Х1, 2рХр). Предполагается, что известны априорные вероятности и стоимости ошибочной классификации, но средние (tx, fi2 и матрица ковариаций 2 неизвестны. Если хц( Xi„t и x2i, х2п2 — независимые случайные выборки из популяций Wx и W2 соответственно, то можно оценить цг выборочным вектором средних х,- = (ха, xip)', {=1,2 (см. (5.2.7)), а 2 — объединенной выборочной ковариационной матрицей S = (Sjk), j = 1, р, k = 1, р\ см. (5.2.5). В такой ситуации невозможно найти процедуру классификации, которая была бы оптимальной в смысле стоимости ошибочной классификации (5.3.19). Однако можно показать (Anderson (1958, теорема 6.5.1)), что если параметры в обобщенной байесовской процедуре (5.3.17)—(5.3.18) заменить их состоятельными оценками, то в результате ожидаемая стоимость ошибочной классификации будет убывать при пг и п2 ->оо. Поскольку приведенные выше оценки состоятельны, обобщенная процедура байесовской классификации, на основе оценок параметров заключается в следующем: вначале решается система уравнений (5.3.8) с заменой \ij на хц, I = 1, 2, / = 1, р, и заменой Gim на >;m, т = 1, р. Затем полученные оценки коэффициентов Ох, ар (обозначим их аи ар) используются для определения значения дискриминантной функции zu (5.3.1) для каждого вектора наблюдений х(7, 1=1, щ. Далее ?(, заданные формулами (5.3.4), (5.3.6), оцениваются величинами
а а%, заданные (5.3.5), — величиной
р р
«8 " И S а^щОп. (5.3.25)
/=1 m=l
5.3. Классификация в случае двух популяций
329
Таким образом, обобщенная байесовская процедура оценивания состоит в отнесении х = (хх, хр)' к №г, если
1=1
и к №2 — в противном случае. Выборочное расстояние Маха-ланобиса
О2 = (г1-г2)7^ (5.3.27)
является оценкой для А2 (см. (5.3.7)). /-~
В результате работы программ дискриминантного анализа, как правило, получаем следующее: а) оценки коэффициентов дискриминантной функции ах, ар; Ь) значение дискриминант-ной функции га для каждого вектора наблюдений хп, I = 1, 2, / = 1, п; с) выборочные средние гх и гг; а) выборочное расстояние Махаланобиса О2. Эта информация достаточна для записи процедуры классификации (5.3.26).
Предыдущая << 1 .. 114 115 116 117 118 119 < 120 > 121 122 123 124 125 126 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed