Научная литература
booksshare.net -> Добавить материал -> Биология -> Тутубалин В.Н. -> "Теория вероятностей и случайных процессов" -> 64

Теория вероятностей и случайных процессов - Тутубалин В.Н.

Тутубалин В.Н. Теория вероятностей и случайных процессов — М.: МГУ, 1992. — 400 c.
ISBN 5-211-02264-5
Скачать (прямая ссылка): teoriyaveroyatnosteyisluchaynihprocessov1992.djvu
Предыдущая << 1 .. 58 59 60 61 62 63 < 64 > 65 66 67 68 69 70 .. 161 >> Следующая

перплоскость. Посмотрим, чему равна матрица ковариаций Сс вектора ?, если ее рассматривать в этой гиперплоскости, т. е. для векторов z = (*i......zm), таких, что
^zt]/pi=0. Матрицу ковариаций можно понимать как матрицу такого (симметричного) линейного оператора Cf, что D(?, г) = (Схг, г). Используя тот факт, что матрица Cv записанная в базисе всего m-мерного евклидова пространства» имеет элементы CcjVPiPj . гДе С = ||с(/|| — матрица ковариаций случайного вектора е,, проведем следующее вычисление:
D(C, z) = (CxZ, z) = (l — pjz]— —•
-OmPtW*-••• + (! — Pj*m) -2? + Z?+ ... +
+ zi—zt vTi (v z, Vpl) VpI (S 2< v'pT) —
Это означает, что нормальное распределение в плоскости L с матрицей ковариаций С: есть стандартное нормальное распределение в пространстве размерности (m—1). Таким образом 11?Н2 при больших п имеет приблизительно распределение хи-квадрат с (т—1) степенями свободы:
Такова метрика, в которой удобно рассматривать различия между pi и \ц/п. Зная распределение статистики ll?lr, мы без труда назначаем критическую область для проверяемой гипотезы. С другими вариантами применения критерия хи-квадрат (в том числе при неизвестных pi, зависящих от каких-то параметров) можно познакомиться по книге Г. Крамера [24].
2.5. Дискриминантный анализ. Пусть имеется некоторая совокупность объектов, которая состоит из объектов (для 156
— VРгРт ZlZm 4- (— VPtPi V» + (1 — P*)zi —
— Vwl Z,Z3 - ... — Vp^n)*iZm + . .. + (— -
m
простоты) двух классов: «здоровых» и «больных». У каждого объекта можем измерить набор параметров 1=(1ь .... ?п). Требуется на основании этих измерений отнести данный объект к одному из двух классов, т. е. сказать «здоров» он или «болен».
В математической модели предполагается, что вектор % лмкет многомерное нормальное распределение с различными векторами средних at и а2 для двух классов объектов, но (обычно) с одинаковой матрицей ковариаций о2. Практически — на основании корреляционного анализа наблюдений над объектами, класс которых известен, — сначала оцениваются параметры at и а2 и матрица о2 (последняя путем взятия средневзвешенных ковариаций между параметрами объектов двух классов). Затем для неизвестных объектов производится классификация.
Если предположить, что матрица о2 единичная, то для нового объекта, характеризуемого набором х= (*|, ...,хп), надо выбрать тот класс (т. е. такое среднее а.\ или а2), до которого меньше расстояние от точки х до центра распределения: ззять
min{ll.v—aili2, II.v—02II2}.
Таким образом, все пространство разделится на два
подпространства гиперплоскостью, проходящей через середину отрезка [аь а2] и ортогональной к этому отрезку. Правда, в зависимости от целей исследования, можем предпочесть, например, чаще ошибочно относить объекты второго класса в первый, чтобы зато не терять объекты первого класса, ошибочно относя их во второй. Тогда можем предпочесть другую гиперплоскость: будем относить объект к первому классу,
если
(а2—аи ж) <с,
где константу с будем выбирать, исходя из получающихся ошибок первого и второго рода.
Случай произвольной матрицы о2 сводится к случаю единичной матрицы преобразованием у=о-1х. Математические ожидания для объектов двух классов при этом преобразуются в о-1^ и а-1 Ог, а гиперплоскость вида (а2—ait х) в гиперплоскость
(о-,(а2 — а,), а~1 х)^{а~2(аг — а1), *)<с.
Иными словами, речь идет о расстоянии в метрике, определяемой матрицей а-2, т. е. матрицей, обратной к матрице ковариаций (так называемое расстояние Махаланобиса). Таким образом, можно кратко сказать, что задача отнесения объекта к одному из двух классов решается путем сравнения расстояний вектора наблюдений х до двух центров распределе-
157
ний ai и а2, но только расстояние понимается в метрике Ма-халанобиса. В этом и состоит в простейшем случае дискриминантный анализ, но только требуется определить по наблюдениям неизвестные параметры распределений.
Сделаем в заключение несколько замечаний о статистических исследованиях, основанных на гипотезе многомерного нормального закона. В то время как для одномерного нормального закона возможна наглядная проверка нормальности с помощью выборочной функции распределения, в многомерном пространстве такие проверки затруднительны. Дело не только в том, что против хорошо сформулированной альтернативы в многомерном случае технически труднее прозести проверку нормальности; просто в многомерном пространстве так много места, куда может спрятаться отклонение от нормальности, что затруднительно предложить разумный круг альтернатив. Поэтому для многомерных распределений проверка нормальности обычно не производится. Тем не менее даже в случаях, когда нормальности заведомо не может быть (например, потому что какие-то случайные переменные принимают дискретные значения 0, 1, 2, ...), применение методов, якобы имеющих теоретическое обоснование в многомерной нормальности, оказывается удивительно эффективным (см. во второй части книги § 2 гл. 3). Очевидно, многомерное пространство так трудно осмыслить без математической обработки, что даже заведомо несовершенная обработка можег довольно часто принести полезный результат.
Предыдущая << 1 .. 58 59 60 61 62 63 < 64 > 65 66 67 68 69 70 .. 161 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed