Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 20

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 14 15 16 17 18 19 < 20 > 21 22 23 24 25 26 .. 183 >> Следующая

EMS = ~ S Н - V (NHGB)) .
50
Гл. 1. Введение в анализ данных
где V (NHGB) — найденная аналитически оценка дисперсии. EMS служит мерой согласия с оценкой при разных объемах выборки п. Результаты исследования методом Монте-Карло показали, что моделированием на ЭВМ получаются состоятельные и точные значения дисперсии V, несмотря на то, что при оценивании использовалось несколько предположений, относящихся к независимости пяти переменных. И в результате было решено, что колебания NHGB могут считаться следствием только ошибок измерений. *
1.7. Проверка данных
Очень важно, чтобы данные, полученные при статистическом анализе, были тщательно проверены и отредактированы до начала более сложного анализа. Иногда искушение немедленно получить данные для обработки так велико, что исследователь пренебрегает важным первым шагом — чисткой данных. Ошибки в наборе данных могут привести к интригующим результатам, иногда интерпретируемым, иногда — нет, но всегда неправильным. Никогда не следует забывать программистскую пословицу: «Мусор на входе — мусор на выходе».
В этом разделе мы обсудим использование ПСП для проверки данных с тремя основными задачами: а) обнаружение грубых ошибок, т. е. ошибок кодирования и/или перфорации; Ь) локализация выбросов, т. е. возможных, но непредставительных наблюдений популяции, из которых производится выборка; с) обнаружение, хвойств распределения „кдждой из пере^нных. Для" этих целей ПСП весьма полезны. Поэтому здесь мы обсудим проверку двух- и трехмерных данных, а проверку многомерных данных на выбросы изложим в гл. 5. Обсудим также графические средства определения свойств распределения.
1.7.1. Программа подсчета частот.
Проверка дискретных распределений
В данном разделе мы обсудим обычно используемые программы из пакетов, так называемые программы подсчета частот или табулирования. Для любой дискретной переменной X эта программа просматривает множество из п наблюдений и табулирует частоту ]х появления значения х в этих наблюдениях. Затем программа выводит на печать частотную таблицу, состоящую из
1.7. Проверка данных 51
имени переменной и ее значений вместе с их частотами. В приведенной таблице 1Х. представляет собой частоту появления хп I = 1, к. 1
Некоторые программы допускают Имя переменной алфавитно-цифровые значения для X. Значение Частота Они табулируют и печатают частоты
появления чисел, букв и таких спе- Х1 >ч
циальных символов, как *, $, / и т. д. х ^
В таких программах значения перемен- 2 *2
ной, измеряемые в шкалах наименований или порядковой, могут кодироваться как буквами, так и числами.
Указанные программы служат трем *
основным целям. Во-первых, обнаружению грубых ошибок в колоде данных. Например, пусть X — двоичная переменная, значения которой кодируются как 1 или 2. Тогда в приведенной ниже частотной таблице для выборки из
25 наблюдений можно с уверенностью Имя переменной рассматривать $ как ошибку перфора-Значение Частота Чии- Затем следует локализовать наблюдение и исправить его. Такие ошиб-
1 ^ ки называются грубыми. .
2 11 Второй целью рассматриваемых я. 1 программ является локализация выбро-
сов. Выбросы не относятся к грубым ошибкам —• это скорее столь сильно отличающиеся по своей величине наблюдения, что их можно рассматривать как выборку ; из другой популяции. Например, предположим, что мы изучаем . порядковую переменную X, значения которой кодируются числами от 1 до 5, где 1 — низкий и 5 — вы- ,, сокий. Тогда по частотной таблице для Имя переменной выборки объема п == 25 наблюдений Значение Частота мы видим, что все наблюдения, кроме 1 19
одного, лежат в нижней части шкалы.
Если наблюдение с кодовым значением 2 5
х = 5 не является результатом ошибки 3 О
¦ В перфорации, то исследователь может . ~
^предпочесть удалить его из выборки,
^ограничивая тем самым популяцию 5] 1
[только индивидуумами с малым значением X. По существу-это означает, что он рассматривает х]~ 5 ;)как результат наблюдения над индивидуумом из другой попу-'ляции — с большими значениями X. Разумеется, это решение Зависит от плана эксперимента и его целей.
( Третья задача рассматриваемых программ состоит в получении эмпирического распределения X в виде таблицы,
52
Гл. 1. Введение в анализ данных
перечисляющей все значения х из X и соответствующие им относительные частоты рх. = fxjn, i = 1. k.
После того как эмпирическое рас-Имя переменной пределение получено, естественно сде-Относитель- лать статистические выводы о популя-Значение наячастота ции, из которой произведена выборка.
Мы изложим это в разд. 2.1.1.
х2 рх Пример 1.7.1. Это исследование
2 основывается на 816 случаях, собранных в 16 центрах (Hill, Adams (1974)). [ \ Переменные включают четырехзначный
номер истории болезни пациента, воз-Xk P*k раст, пол, расу, текущий вес, записан-
ный со слов пациента обычный вес, рост, 12 показателей анализа крови, сведения о том, употреблял ли пациент противозачаточные пилюли и стимуляторы. Карта с пробивкой «9999» в первых четырех столбцах означает конец набора данных из очередного центра.
Предыдущая << 1 .. 14 15 16 17 18 19 < 20 > 21 22 23 24 25 26 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed