Математическая статистика - Варден Б.Л.
Скачать (прямая ссылка):
§ S. Проблема случайного отбора. Выборочный метод 51
с :tM, что истинный доверительный уровень приближенных доверительных границ с изменением к колеблется около 2/9, в то время как уровень значимости точных границ не превышает 2/9 (как правило, он бывает меньше 2/9).
Какими же границами следует пользоваться, точными или приближенными? Мне представляется, что если условились считать допустимым риск ошибки, вероятность которого равна 2/9, то, по-впднмому, следует примириться и с> колебаниями этой вероятности около 2/9. Если оценивается не одна, а несколько вероятностей, и при этом каждый раз пользуются приближенными доверительными границами, то отклонения доверительных уровней вверх и вниз будут компенсировать друг друга и поэтому в среднем доверительные границы будут ошибочными лишь в 2/9 ¦ 100 случаях из ста возможных. При очень малых значениях к (например, к< 4) для большей уверенности приближенную нижнюю доверительную границу следует несколько понизить.
§ 8. Проблема случайного отбора.
Выборочный метод
Из урны, содержащей К белых и L черных шаров (К -\- L = N), извлекается наугад п шаров (без возвращения). Какова вероятность того, что среди извлеченных шаров будет ровно к белых и I черных (k^rl — n)}
Число возможных отборов п шаров из общего количества N
равно (*п|- Если шары хорошо перемешаны, то все эти отборы одинаково вероятны; следовательно, каждый из них имеет вероятность Число возможных отборов, содержащих к бе-
^|. Таким образом, искомая вероятность равна
w _ (*)(*) _ К< V. п\ (Дт —7))!
k |jvj k'.(K-k)'. l\(L — l)\' N\ •
Если теперь, так же как в § 5, внести случайную величину х. значения которой совпадают с количеством извлеченных белых шаров, то окажется, что ж равна сумме xt -j- . . . -) хп, где ж,- зависит от цвета г-го извлеченного шара, а именно, если ?'-й шар белый, то а?,- --- 1, если же этот шар черный, то xt = 0. Вероятность того, что х примет значение к, выражается формулой (1). 4*
лых л I черных шаров, равно L ||
52 Г л. II. Вероятности и частоты
Распределение вероятностей, соответствующее (1), называют ги-пергеометрическим распределением.
Вычислим теперь среднее значение и дисперсию случайной величины ж. Согласно § 1 (пример 3), вероятность того, что ж,- = 1, равна К/N. Аналогично вероятность того, что ж,ж= 1, равна
либо ~ (если i ф j), либо К/N (если г — j).
Таким образом,
Q(x2t) =
6(Ж, жj) = ? (г ф j).
Отсюда следует, что &х = V gx, = п ~ ,
6ж2 = Х<У1 = 6Л2 +22 xi xj^ =
/>i
К , . К(К — 1)
= п ц + п{п — 1) 1у(Л—1} ,
0-2 = ? X2 — (g Ж)2 = 71^ + п(п—\)
_ „ и Л'(ЛТ - 1) + -V(” - 1) (К - 1) - и(Лт — ' ЛТ-(Л-—1)
_пК(\ — АТ)(Л' — v) К L п(Х—п)
= Л'^ЛГ _Л) = " ’
Таким образом, значения к, с которыми практически приходится иметь дело, лежат вблизи от среднего значения тгК/М, причем отклонение
является величиной порядка
1 \! KLn(X — v) ч,
(Г = хЧ—2^
С помощью формулы Стирлинга для «!, которую мы выведем в § 12, можно найти асимптотическую формулу для вероятности (1) при больших K,L,ti и N—п. Опуская длинные выкладки, укажем лишь результат1:
1 Теорему о нормальном приближен ни для гипергеометрпческого,
распределения см. в книге С. Н. Бернштейна, Теория вероятностей, изд. 4.
ГТ1И, М., 1946. — Прим. перее.
111 ¦1)
1) к
----- 71-
(2)
,ss‘ S. Проблема случайного отбора. Выборочный метод
53
1
W и ~
СГ
", , (K --- L)(X --- 2n) z г3
1 -г Л-2- -- 2 о-2
(4)
Следовательно, как и в § 6, вероятность того, что к будет заключено в пределах (nK/N) — да- и (nK/N) -f- да-, приближенно равна
я
-Д( e~'iPdt = 2<D(g)^l. (5)
[ 2тг J
О
Величину д по-прежнему можно выбрать таким образом, чтобы интеграл (5) принимал заданное значение 1—2/3 (см. табл. 3).
Неравенство
| к — nW | ^ дсг’ ^
вероятность которого выражается формулой (5),, можно переписать так:
(kN — пК)* =? g*N*o*
или, если воспользоваться для сг формулой (3),
JkX пК)г (А 1) о 17\
KLn(X — п) ' 4 ' у >
Следовательно, вероятность неравенства (7) приближенно равна 1—2/3. Это приближение является равномерным в следующем смысле: для всякого е> 0 существует такое М(е), что коль скоро все математические ожидания четырех случайных величин k,l,K—к и L — I будут больше М, то вероятность неравенства (7) будет отличаться от 1 —2/3 менее чем на ?. Этим обстоятельством мы воспользуемся в следующем разделе.