Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 119

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 113 114 115 116 117 118 < 119 > 120 121 122 123 124 125 .. 183 >> Следующая

11*
324
Гл. 5. Методы многомерного статистического анализа
ошибочной классификации объекта из популяций №1; как принадлежащего популяции №2. Естественно искать такую постоянную с, чтобы сумма вероятностей Рг (1 | 2) + Рг (2 | 1) была минимальной. Это можно достигнуть выбором постоянной с, равноудаленной от средних, т. е.
с = (Ь + Е2)/2. (5.3.9)
Итак, эвристическая процедура классификации состоит в вычислении аь ап, удовлетворяющих системе уравнений (5.3.8),
х а У/г ,х в Щ
/ 1 \ / 1 \ / 1 \ РгСгЮу' 1 \ —!^^^ / 1 \^Vr(\\2)
1 <
Рис. 5.3.1. Распределение величины г, когда х принадлежит Wx и Ц72 соответ-ствеиио; №(. имеет распределение N 2), i = 1> 2.
оценок и ?2, согласно (5.3.4) и (5.3.6), а затем постоянной с — из формулы (5.3.9). Для каждого вектора наблюдений вычисляется значение (5.3.1) дискриминатной функции z и х относится к популяции Wlt если выполняется условие (5.3.2), иначе — к W2.
Приведем теперь более строгое решение задачи классификации, основанное на теореме Байеса. Определим вначале априорную вероятность qt как вероятность того, что индивидуум принадлежит к популяции Wj, i = 1, 2. Предполагается, что сумма априорных вероятностей qx + ц2 равна 1. В частности, для примера 5.3.1 может быть известно из опыта предыдущих лет, что колледж оканчивает 1/3 поступающих в него студентов. Отсюда <7i == XU и аг — 2U- В примере 5.3.2 при k = 2 априори может быть известно, что 20 % пациентов имеют болезнь А и 80 % — болезнь В. Следовательно, qx = 0.2 и q2 = 0.8. РЛ *
Определим далее условную вероятность Рг (х | Wt) получения некоторого вектора наблюдений х, если известно, что объект принадлежит к популяции Wt, i =1,2. Обозначим также через Рг (W,- | х) условную вероятность того, что объект принадлежит к популяции Wt при данном векторе наблюдений х. Величины Рг (Wx | х) и Рг (W2 | х) называются апостериорными вероятностями. Разница между априорными и апостериорными вероятностями заключается в том, что до получения вектора наблюдений данного объекта известно, что он принадлежит к совокупности Wt с вероятностью qt. После анализа вектора наблюдений этого
5.3. Классификация в случае двух популяций
325
объекта можно сказать, что он принадлежит популяции Wt с вероятностью РГ (W; | х).
Сформулируем следующую теорему для задачи классификации.
Теорема Байеса. Во введенных выше обозначениях равенство
справедливо для любого распределения величин х.
Если х имеет многомерное нормальное распределение N (цх, 2) или N (fi2, 2), то Рг (х I Wx) и Pr (х | W2) можно заменить соответственно на плотности распределений fx(x) и f2 (х). В результате получим
РтфРЛх) = . ,q'fi_(X)f , . , / = 1,2. (5.3.11)
v " ' qJx (х) + q2f2 (x) v ;
Байесовская процедура классификации состоит в отнесении вектора наблюдений х к Wlt если
Pr (W1|x)^Pr {W2\x),
и к W2, если
Pr {Wx\x)<Pv {W2\x).
Подставляя в эти неравенства значения апостериорных вероятностей из (5.3.11), получаем следующее правило классификации: х относится к популяции Wx, если
(fc/i(x))/(<72Mx))2sl, (5-3.12)
и к W2, если
(?i/i(x))/(?2/2(x))<l. (5.3.13)
Можно показать, как это сделано, например, в работах Rao (1965), Anderson (1958), что такая процедура минимизирует ожидаемую вероятность ошибочной классификации
71Рг(2|1) + 7аРг(1|2). (5.3.14)
Заметим, что эта величина является вероятностью того, что объект, принадлежащий к популяции №ь ошибочно классифицируется, как принадлежащий W2, или наоборот, объект из W2 ошибочно относится к Wx.
Алгебраическими преобразованиями неравенства (5.3.12) можно показать, что байесовская процедура эквивалентна отнесению х к Wx, если
2аЛ^-Ц^- + 1п(-^-), (5.3.15)
и к W2, если
gaA<ii+^ + ln(!_). (5.3.16)
326
Гл. 5. Методы многомерного статистического анализа
Постоянные а; являются решениями системы уравнений (5.3.8), а ?х и ?2 задаются соответственно выражениями (5.3.4) и (5.3.6). Заметим, что при qx = q% = V2 байесовская процедура аналогична эвристической процедуре классификации в соответствии с (5.3.3).
Дальнейшее усовершенствование байесовской процедуры связано с включением в нее стоимости ошибочной классификации. Для этого введем величину С (2 | 1) — стоимость потери из-за отнесения объекта из Wx к популяции Wz. Аналогично, С (1 | 2) является стоимостью потери из-за отнесения объекта из W2 к Wx. В примере 5.3.1 С(1 | 2) выражает стоимость обучения студента, который бросает колледж, недоучившись, а С (2 | 1) — стоимость потери потенциально хорошего студента.
Обобщенная процедура классификации Байеса состоит в отнесении х к Wlt если
^«Л^Ь + Ь +1п^(^. (5.3.17)-
и к W-i, если
Ii — + lnqiC(2\l) • (5-ЗЛ8)
Такая процедура минимизирует ожидаемую стоимость ошибочной классификации
qiC (2 11) Рг (2 11) + <?2С (11 2) Pr (112). (5.3.19)
Эта процедура сводится к байесовской процедуре, когда стоимости равны, и к эвристической, когда при этом qx = q2 = 1/2.
Для обобщенной байесовской процедуры вероятности ошибочной классификации имеют вид
Рг(2|1) = Ф^-) (5.3.20)
Предыдущая << 1 .. 113 114 115 116 117 118 < 119 > 120 121 122 123 124 125 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed