Научная литература
booksshare.net -> Добавить материал -> Математика -> Афифи А. -> "Статистический анализ: Подход с использованием ЭВМ" -> 9

Статистический анализ: Подход с использованием ЭВМ - Афифи А.

Афифи А., Эйзен С. Статистический анализ: Подход с использованием ЭВМ. Под редакцией Башарина Г.П. — М.: Мир, 1982. — 488 c.
Скачать (прямая ссылка): stap1982.djvu
Предыдущая << 1 .. 3 4 5 6 7 8 < 9 > 10 11 12 13 14 15 .. 183 >> Следующая

1. Каждому индивидууму (или экспериментальной единице) должен быть присвоен свой собственный идентификатор, позволяющий отличить его от других индивидуумов выборки. Идентификаторы обычно кодируются в первых или последних столбцах таблицы. Для этой цели часто используются столбцы 73—80.
Один из обычных методов идентификации, состоящий в присвоении индивидуумам последовательных целых чисел, имеет то преимущество, что карты могут быть упорядочены по идентифицирующим номерам, если их последовательность нарушена. Число столбцов, используемых для идентификации, определяется известным или ожидаемым объемом выборки. Например, для выборки объема 493 нужно использовать не менее трех столбцов. Здесь у всех кодируемых данных цифры должны быть выровнены по правому краю. Так, если для идентификации номера истории болезни используются столбцы 73—80, то число 2 кодируется в столбце 80, а не в столбцах 78 или 79. Аналогично, число 32 кодируется в столбцах 79 и 80. Чтобы избежать ошибок, часто вводятся ведущие нули, так что, например, 2 и 32 записываются как 002 и 032.
Другими примерами идентификаторов являются 9-значный индекс социального страхования или набор из букв и цифр, пред-
26
Гл. 1. Введение в анализ данных
ставляющих такие свойства, как пол, расу, первую и последнюю буквы первого имени, дату рождения и др.
2. Каждое наблюдение должно быть закодировано с той точностью, с которой производятся измерения, так как, вообще говоря, округление или усечение (отбрасывание младших разрядов) нежелательно. Например, если температура записывается с одним десятичным знаком после точки, то не рекомендуется кодировать ее как целое число. Это позволяет сохранить более подробную информацию, по крайней мере на первых этапах анализа. На более поздних этапах могут производиться округление или усечение.
3. Для каждой переменной должно быть выделено Достаточное число столбцов, чтобы можно было записать все наблюдения в выборке — минимальное число столбцов определяется наблюдением с наибольшим числом знаков. Так, если наблюдения дали 386, 7232 и 24, то требуется не менее 4 столбцов. Если результаты наблюдений — пелые числа разной значности, то они всегда выравниваются по правому краю и могут быть дополнены ведущими нулями. Например, указанные наблюдения можно записать в одном из двух видов:
Столбец 12 3 4 Столбец 12 3 4
3 8 6 0 ПГ~6
7 2 3 2 ит ¦ 7 2 3 2
2 4 0 0 2 4
Если хотя бы одно из наблюдений является отрицательным числом, то следует предусмотреть дополнительный столбец для знака минус. Например, если третье наблюдение дало —24, данные можно записать в виде
Столбец 1 2 3 4 5
3 8 6 7 2 3 2 2 4
Знак плюс может предшествовать положительным числам, но это необязательно.
4. Если значения переменных включают десятичные дроби, то для десятичной точки можно использовать отдельный столбец, а можно этого не делать. Если десятичная точка кодируется, она необязательно должна занимать один и тот же столбец.
1.4. Подготовка данных для пакетов программ
27
Например, числа 723.2, 38.6 и 0.24 можно кодировать в виде Столбец 1 2 3 4 5 6
7 2 3.2 0 3 8.60 0.24
когда точке отводится столбец 4, или в виде
Столбец 1 2 3 4 5
7 2 3.2 3 8.6 0.240
когда точка ставится в любом столбце. Заметим, что если точка перфорируется, то результаты наблюдений не обязательно должны быть выравнены по правому краю. Если десятичная точка не кодируется, то размещение десятичной точки определяется оператором формата (обсуждается ниже). В этом случае предполагается, что десятичная точка должна находиться в одном и том же месте и все результаты наблюдений выравниваются по правому краю. Так, предыдущие наблюдения записываются в виде
Столбец 1 2 3 4 5
7 2 3 2 0 3 8 6 0 0 2 4
где точка предполагается между столбцами 3 и 4. А вот пример ошибочной записи:
Столбец 1 2 3 4 5
7 2 3 2 0 3 8 6 0 0 2 4 0
5. Отсутствующее значение (наблюдение не было выполнено или его результат утерян) можно закодировать как пробел или ему можно присвоить специальное значение, т. е. число, которое В действительности не может наблюдаться. Например, —10.0 (футов) — специальное значение для роста индивидуума, 999 (лет) — для его возраста, 9 — специальное значение для порядкового измерения со шкалой от 1 до 7.
28
Гл. 1. Введение в анализ данных
Пробел неудобен, поскольку некоторые ЭВМ не отличают его от цифры 0. Поэтому, если 0 — одно из возможных значений переменной, то пробел может быть неправильно прочитан как 0. Правда, некоторые ЭВМ воспринимают пробел как —0, позволяя различать пробел и 0.
Использование специального символа имеет тот недостаток, что при кодировке можно забыть пробить специальный знак и использовать вместо него тире или пробел.
6. При измерениях в шкалах наименований или порядковой лучше присваивать цифры, чем буквы. Желательно не использовать 0, так как его можно перепутать с пробелом.
7. Не рекомендуется переводить измерения в интервальной или относительной шкалах в порядковую шкалу. Например, измерения возраста в годах не следует кодировать как «1 — менее 21», «2 = от 21 до менее 35», «3 = 35 или более», так как это приводит к неоправданной потере исходной информации. При необходимости такую перекодировку может произвести ЭВМ или исследователь на дальнейших этапах.
Предыдущая << 1 .. 3 4 5 6 7 8 < 9 > 10 11 12 13 14 15 .. 183 >> Следующая

Реклама

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed

Есть, чем поделиться? Отправьте
материал
нам
Авторские права © 2009 BooksShare.
Все права защищены.
Rambler's Top100

c1c0fc952cf0704ad12d6af2ad3bf47e03017fed