Математическая статистика - Варден Б.Л.
Скачать (прямая ссылка):
Для пояснения постановки задачи вторая часть очень полезна, но логически она не представляется необходимой.
В третьей части (§ 40—44) развивается метод, с помощью которого можно достигнуть большего, чем с помощью упомянутого неравенства. Метод третьей части приводит к наиболее точным несмещенным оценкам даже в тех случаях, когда метод наибольшего правдоподобия перестает действовать.
Совсем короткая четвертая часть (§ 45) содержит обзор асимптотических свойств оценок наибольшего правдоподобия.
В этой главе в большинстве случаев предполагается, что результаты наблюдений, служащие отправным пунктом при построении оценки неизвестного параметра, являются непрерывными случайными величинами xv . .хп. В следующей, гл. 9 будет рассмотрен случай, когда результаты наблюдений являются частотами. Однако примеры этого рода будут встречаться уже и в этой главе (примеры 21, 28 и 31).
184
Гл. VIII. Оценки неизвестных параметров
§ 35. Метод наибольшего правдоподобия Р. А. Фишера
Как мы видели в § 30, основой гауссовского обоснования метода наименьших квадратов является принцип, согласно которому наилучшими значениями неизвестных параметров $г
являются те значения, при которых результат наблюдений имеет наибольшую вероятность1. Этот принцип Р. А. Фишер использовал в качестве основы общего метода, позволяющего оценить неизвестные параметры . ..,0Г в том случае, когда результаты наблюдений являются случайными величинами с распределением, зависящим от f>1;. . ., $г.
Наблюдаемые величины х1,...,хп могут быть дискретными или непрерывными. Введем функцию
g(t | С) = д{к, 101........0Г)
и будем считать, что в дискретном случае g(t [ с) -— вероятность того, что величины хг, . . ., хп соответственно равны tlt. . ., tn. Если же хг,. . ., хп — непрерывные случайные величины, то g(t | €) = g(tv . . ., tn| i>i,. . ., ar) будем истолковывать как плотность совместного распределения величин xv . . ., хп. Напомним, что в теории метода наименьших квадратов g(t ] f>) представляет собой произведение гауссовых функций ошибок
g(t\€) = °--n(2nf* e~^EiU'U)\ (1)
где «истинные значения» являются заданными функциями от €. Теперь мы откажемся от этого специального предположения и будем считать, что g(t \ f>) -— произвольная плотность вероятности, зависящая от f>.
Непосредственно наблюденные значения xt Фишер подставил в g(t [ €) (т. е. положил tt = х{) и полученную функцию д(х ] €) от Slr . . ., 0Г назвал функцией правдоподобия. Те значения параметров 0, для которых функция правдоподобия достигает максимума, называются правдоподобными значениями параметров 0. Согласно методу наибольшего правдоподобия, в качестве оценок для истинных значений параметров € выбирают правдоподобные значения f>.
Логарифм функции д(х [ €) мы в дальнейшем будем обозначать2 символами L(x [ f>) или ?(0).
1 Так как хх, . . ., хп — непрерывные случайные величины, то вероятность, о которой говорит автор, всегда равна нулю. На самом деле, максимальной должна быть не вероятность, а соответствующая плотность вероятности (см. (3) § 30). — Прим. перев.
2 Функцию L(xlC) = In д (ж/й) называют логарифмической функцией, правдоподобия. — Прим. перев.
§ 35. Метод наибольшего правдоподобия Р. А. Фишера 185
Функцию правдоподобия не следует смешивать с вероятностью. Хотя эта функция и определяется с помощью вероятностей (в дискретном случае) или плотности вероятности (в непрерывном случае), однако и вероятности, и плотность вероятности относятся не к неизвестным параметрам, а к результатам наблюдений. Параметры совсем не зависят от случая и поэтому не имеют плотности вероятности. Для каждого фиксированного результата наблюдений некоторые значения параметров могут оказаться более правдоподобными, так как при таких значениях вероятность получения наблюденных результатов имеет заметную величину, а другие — менее правдоподобными, потому что наблюденные результаты при таких предположениях являются весьма маловероятными.
Пусть g(t | С) — плотность совместного распределения случайных величин хг, . . ., хп. Если вместо ж, ввести новые случайные величины х\ по формулам ж, = ср{{х[,. . ., а:'), то соответствующая плотность вероятности будет иметь вид (см. (2) § 11)
h(f | С) = g(t | 0)
d(ii,.. tn) J
где tt = cpi (t[, . . ., t'n). Таким образом, h(t' | tf) отличается от g(t | €) множителем, зависящим лишь от t', и, следовательно, при замене переменных t{ точка максимума функции правдоподобия остается неизменной. Точно так же в дискретном случае с целью упрощения функции g(t \ С) мы будем считать себя вправе умножать ее на некоторый множитель, зависящий лишь от t. Точка максимума g как функции С от этого, очевидно, не изменится.
В качестве примеров использования метода наибольшего правдоподобия в первую очередь служат все примеры отыскания оценок методом наименьших квадратов (гл. VI).