Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 72

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 66 67 68 69 70 71 < 72 > 73 74 75 76 77 78 .. 183 >> Следующая

которую можно использовать для проверки гипотез о коррелиро-ванности е{.
Пример 3.2.5. Автоматический анализатор изображений был использован для подсчета количества положительных клеток альвеолярных стенок, содержащих лактатдегидрогеназы (пневмо-циты типа 2) в легких группы морских свинок, обработанных 2ррт двуокиси азота (Агеп а/. (1977с)). Результаты автоматической обработки каждого из 141 слайда картины, полученной под
(3.2.27)
3.2. Множественная линейная регрессия и корреляции
191
микроскопом, сравнивались с результатами ручной обработки этих же слайдов. Так как полученные числа были велики, они обрабатывались как значения непрерывных переменных с использованием корреляционного и регрессионного анализов. Хотя коэффициент корреляции оказался высоким (г = 0.8, Р < Ю-6), на графике остатков (рис. 3.2.1) видно, что на нижнем и верхнем
Е 240
-1-1-1-1-1—
»0 130 210 270 330
Автоматический подсчет клеток
Рис. 3.2.1. График среднего для зависимости ручного подсчета клеток от автоматического.
концах оси ручной обработки наблюдаются большие значения остатков. Итак, автоматический подсчет клеток менее точен, когда имеется мало или много пневмоцитов типа 2. Вероятно, использование квадратичного члена могло бы улучшить предсказание в области большого количества клеток. Другой возможной альтернативой проведенному анализу могло бы стать использование ¦взвешенной регрессии с присвоением малых весов экстремальным значениям. Некоторые программы (например, BMDP1R) допу--скают такое взвешивание данных.
¦3.2.7» Многомерные наблюдения
с отсутствующими значениями
В разд. 1.7.5 было введено понятие отсутствующих значений. При использовании одномерных по своей природе методов анализа (например, ^-критерия) наиболее разумный способ действия состоит
192
Гл. 3. Регрессионный и корреляционный анализы
в удалении из выборки элементов с отсутствующим значением X (анализируемой переменной). Однако ситуация меняется при использовании существенно многомерных методов анализа, т. е. когда для каждого элемента выборки имеется р наблюдаемых переменных Хъ Хр. Теперь, если элемент выборки имеет отсутствующее значение, скажем, для переменной Х1г удаление этого элемента выборки из анализа не является необходимым, поскольку оно приводит к потере информации о переменных Х2, Хр, доставляемой этим элементом. Так как множественный линейный регрессионный анализ, равно как и другие многомерные процедуры (гл. 5) основаны на векторе средних ц и матрице Ковариаций 2, можно оставить этот элемент в выборке и использовать имеющиеся в нем измерения для вычисления оценок вектора средних х и матрицы ковариаций 8.
Рассмотрим теперь различные методы оценивания ц и 2 (или, что эквивалентно, матрицы корреляций Ю, когда отсутствуют некоторые значения (обзор литературы по этому вопросу см. в АШ\, ЕХазЪоИ (1966)). Пусть щ — число элементов выборки, у которых известно значение Хи Щ] — число элементов, у которых известны значения обеих переменных Х1 и X], а пс — число комплектных элементов, в которых измерены значения всех переменных Хи Хр (щ, пи, пс <: п, п — объем выборки, I, ) = 1, р, I Ф /).
Приведем теперь некоторые методы получения х и 8 (или Я).
Метод 1. Для вычисления оценок х и 8 используются только пс комплектных элементов. Этот метод называется методом удаления элементов.
Метод 2. Для получения х1 используются щ наблюдений. Вместо отсутствующих значений переменной Х{ подставляется величина хг. Затем, используя укомплектованную таким образом выборку объема п, получают х и в. Этот метод называется методом подстановки среднего.
Метод 3. Используется га; наблюдений для получения хг и в,5 и пг1 наблюдений — для вычисления э^. Эти статистики служат компонентами х и в.
Метод 4. Используется щ наблюдений для получения х1 и и наблюдений — для вычисления гг;. Затем значение вычисляется как зи = г1,-5Г3], в чем и состоит отличие данного метода от предыдущего. Методы 3 и 4 носят название методов попарного вычеркивания.
Метод 5. Используется пс комплектных элементов для оценки регрессии какой-либо переменной по всем остальным переменным.
3.2. Множественная линейная регрессия и корреляции
193
Например, пусть уравнение регрессии имеет вид Хх = f (Х2, ...
Хр). Теперь, если в j-м случае имеется отсутствующее значение Хъ оно заменяется оценкой xv = f (x2j, xpj). Аналогичные уравнения можно получить и для Х2, Хр. Затем укомплектованные таким образом наблюдения используются для вычисления
х и S.
Метод 6. В отличие от метода 5 для предсказания значения, например Хх, используется либо одна переменная из Хг, ХР, наиболее коррелированная с Хъ или некоторое подмножество переменных из Х2, Хр. Методы 5 и 6 носят названия методов подстановки регрессии.
Основной недостаток любого из перечисленных методов связан с тем, что их статистические свойства за редким исключением неизвестны (Afifi, Elashoff (1966, 1969а, b)). Кроме того, применение таких методов часто приводит к смещенным оценкам. Учитывая все это можно дать следующую рекомендацию исследователю: элементы выборки и1или переменные с отсутствующими значениями должны быть удалены так, чтобы обеспечить баланс между оставшимся числом переменных и оставшимся числом элементов, т. е. максимизировать число комплектных элементов выборки. Следовательно, если элемент содержит много пропусков, его нужно удалить. С другой стороны, следует удалить переменную, если ее значение неизвестно для большинства элементов. После этого можно обычным образом использовать метод наименьших Квадратов или процедуры многомерного статистического анализа, описанные в гл. 3 и 5.
Предыдущая << 1 .. 66 67 68 69 70 71 < 72 > 73 74 75 76 77 78 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed