Математическая статистика - Варден Б.Л.
Скачать (прямая ссылка):
где, как всегда, х и у являются выборочными средними:
* = й-2>- у = \2у- О2)
Так как (10) представляет собой несмещенную оценку, то оценка (И) также является несмещенной.
Для того чтобы получить оценку для q, разделим (11) па sxsy. Такая оценка называется выборочным коэффициентом корреляции
г _ 2 (а — ») (У—У) _ 2 (х — х) (у— у)__ , ]
V2’(«-!)¦ 2 (*-^г'
Можно показать, что г обладает теми же свойствами, какими обладает указанный выше истинный коэффициент корреляции q. Положим Я = —с и выберем с таким образом, чтобы значение многочлена (10) стало наименьшим. Точка минимума и минимальное значение многочлена задаются формулами
с — г— — Ж^ПУ-У). (14)
аУ 2 (х — а:)2
и
*3-„ = (1 -r2)s*. (15)
Так как выражение (15) всегда неотрицательно, то значение г всегда заключено между —1 и +1. Если г = +1, то, в силу (15), все yt — cxt принимают одинаковое значение а, т. е. все наблюденные точки с координатами (ж,, yt) лежат на прямой с уравнением
у = сх + а.
Если же эти точки не лежат на одной прямой, то через точку с координатами (х, у) можно провести прямую, угловой коэффициент которой задается равенством (14). Эта прямая представляет собой эмпирическую линию регрессии, о которой говорилось выше, в § 33,
у — у = с(х — х). (16)
§ 66. Ковариация и коэффициент корреляции 361
В § 33 эта линия определялась таким образом, чтобы сумма квадратов отклонений точек (xt, у,) от прямой была наименьшей (отклонения измеряются по направлению Оу). Угловой коэффициент с этой прямой называется выборочным коэффициентом регрессии. Связь между выборочным коэффициентом регрессии и выборочным коэффициентом корреляции выражается формулой (14).
Числитель (13) можно вычислять различными способами, контролирующими друг друга:
2 (X — Х)(у — у)=2(х — х)у = 2х(у — у) =
= 2 ХУ — пхУ =
= 2(х — а)(У — Ъ) — п(х — а)(у — Ъ).
Как уже отмечалось ранее, то же самое справедливо и для знаменателя.
Пример 46. Теммис1 исследовал различные виды цветочной пыльцы и нашел связь между величиной пылинки и количеством пор для выхода пыльцевых трубок. В качестве примера мы рассмотрим результаты исследований пыльцы шаровидной фуксии (Fuchsia Globosa). Эта пыльца может иметь от 0 до 4 пор, расположенных в экваториальной плоскости пылинки. Для измерения диаметров пылинок были выделены 5 групп (по 10 пылинок в каждой группе) с количеством пор 0, 1, 2, 3 и 4. Результаты измерений округлялись до числа, кратного 5 микронам. Количества пылинок указаны а корреляционной таблице.
Диаметр
Количество пор
10
15
20
25
30
35
40
45
50
55
60
1 Т a m m е s Р. М. L., On the origin of number and arrangement of the places of exit on the surface of pollen-grains. Diss., Groningen, 1930.
362
Гл. XIII. Корреляция
Очень красивый и редко встречающийся случай линейной регрессии! Находим
х = 2, =
у = 33,2, У (У —У)2 = 12 588,
?{х — х) (у — у) = 1090.
Выборочный коэффициент регрессии равен
1090
с = ----- = 10,9.
100
Уравнение эмпирической линии регрессии имеет вид У •— У — с (х — х)
или
у = 10,9а; -f 11,4.
Собственно говоря, выборочный коэффициент корреляции имеет смысл вычислять лишь тогда, когда пары (х, у) являются независимыми, т. е. получаются чисто случайно. Поэтому общее количество пылинок для каждого фиксированного х должно быть случайной величиной с частотой приближенно равной вероятности данного значения х. В нашем же случае для всех х выбирается по 10 пылинок. Если, несмотря на это, все-таки вычислить г по формуле (13), то корреляция окажется очень высокой:
1090
: = 0,97.
'100 • 12 588
§ 67. Коэффициент корреляции как признак зависимости
Так как т является оценкой для q и так как q = 0, для независимых хи у, то в том случае, когда г значительно отличается от нуля, можно сделать вывод, что о ф 0 и поэтому случайные величины х и у зависимы1.