Laboratornaya_rabota_7


Чтобы посмотреть этот PDF файл с форматированием и разметкой, скачайте его и откройте на своем компьютере.
ЛАБОРАТОРНАЯ РАБОТА №
7

ВЫЯВЛЕНИЕ СВЯЗИ МЕЖДУ ПР
И
ЗНАКАМИ

Методы определения связи признаков заметно отличаются в зависимости от
вида шкалы измерений этих пр
и
знаков:



для изучения связи качественных признаков, измеренных в номинальной
шкале (например, призна
ков вида «да» или «нет») применяются таблицы с
о-
пряженности, статистика Фишера
-
Пирсона χ
2
, различные меры связи признаков
(коэффициенты Юла, Крамера и др.) и логарифмические линейные м
о
дели;



для признаков, измеренных в порядковой шкале


данных типа «лучше
-
хуже», тестовых баллов и т.д.


применяются ранжирование и коэффициенты
корреляции Спирмена и Кендэлла;



для данных, измеренных в количественных шкалах, применяются выборо
ч-
ные коэффициенты корреляции и модель пр
о
стой линейной регрессии.


КОРРЕЛЯЦИОННЫЙ АНАЛ
ИЗ ПОКАЗАТЕЛЕЙ ДЕЯТЕЛЬНОСТИ
ПЕСЧАНЫХ КАРЬЕРОВ

Задача.
Деятельность 8 карьеров характеризуется себестоимостью 1 т. песка
(
x
(1)
), сменной добычей песка (
x
(2)
), и фо
н
доотдачей (
x
(3)
). Значения показателей
представлены в таблице

x
(1)

(тыс. руб)

30

20

40

35

45

25

50

30

x
(2)

(т.)

20

30

50

70

80

20

90

25

x
(3)

(%)

20

25

20

15

10

30

10

20

Требуется в предположении нормальности распределения трехмерной случа
й-
ной величины (
x
(1)
,
x
(2)
,
x
(3)
) построить корр
е
ляционную матрицу, найти частные
коэффициенты корреляции.

Зд
есь данные измерены в количественных шкалах, применим исследование с
помощью коэффициента корреляции Пи
р
сона.

Введите данные, должна получиться следующая таблица:


В строке меню выберите
Describe
, в раскрывшемся меню выберите
Numeric

D
a-
ta
, затем
Multiple
-
Variable

Analysis
. Раскроется окно, в котором в поле
Data

необходимо перевести названия всех рассматриваемых столбцов,


затем нажмите ОК. Раскроется окно
Multiple
-
Variable

Analysis
.


Обратите внимание на диаграмму рассеяния. Точки представляют из себя о
б-
лачко, если оно вытянуто вдоль оси


значит, есть связь. В данном случае ви
д-
но, что есть связь между х1 и х2. Связь между х1 и х3 тоже наблюдается, но
наклон линии в другую сторону. Это


пример отрицательной связи.

Щелкните дважды по окну
Correlations
,
если оно есть на экране. В проти
в-
ном случае нажмите
кнопку
Tabl
es
, в диалоговом окне выберите
Corr
e
lations
.



Раскройте окно
Correlations
,
оно будет выглядеть следующим обр
а
зом:


Эта таблица показывает коэффициенты корреляции Пирсона между каждой п
а-
рой п
еременных. Здесь под коэффициентом корреляции в скобках стоит объем
выборки, а ниже
p
-
value

данного коэффициента корреляции. Значение
p
-
value
,

меньшее 0,05, означает статистическую значимость с 95 % доверительным и
н-
тервалом.
Эти
p
-
value

отображаются на экр
ане красным цветом.
Следующие п
а-
ры переменных имеют
p
-
value

меньшее 0,05:
x
1

и
x
2
,
x
1

и
x
3
,
x
2

и
x
3
.Коэффициент
корреляции между:
x
1

и
x
3
отрицателен и статистически зн
а
чим, следовательно,
можно сделать вывод, что с ростом фондоотдачи себестоимость песка у
меньш
а-
ется.

Построим матрицу частных коэффициентов корреляции. Для

этого

нажмите

кнопку

Tabl
es
,
выберите

Partial

Correlations
.
Перед вами

раскроется окно:



Эта таблица показывает частные коэффициенты корреляции. Например, час
т-
ный коэффициент
r
13

характер
изует степень тесноты линейной связи между
x
1

и
x
3
при исключенном влиянии фиксированной
x
2
. В скобках под коэ
ф
фициентом
частной корреляции стоит размер выборки
, а ниже
-

p
-
value
.

Сравним парный коэффициент корреляции между
x
1

и
x
3
и частный коэфф
и-
циент к
орреляции
r
13
. Так как |
-
0,8737| � |
-
0,4622|, то можно утверждать, что
x
2
.усиливает тесноту связи между
x
1

и
x
3
. Аналогично можно исследовать связь
между остальными переменн
ы
ми.

Для того чтобы лучше понять, для чего нужен частный коэффициент корр
е-
ляции,
рассмотрим пример. Откройте файл E_H.sf. В нем находятся следующие
да
н
ные:


• В столбце Year


год, с 1057 по 1966


• В столбце Н


данные о рекордах по прыжкам в высоту с шестом по
годам;


• В столбце Е


данные о производстве электроэнергии в США.

Есть
ли связь между производством электроэнергии и рекордам по прыжкам в
высоту?

Вычислите самостоятельно коэффициент корреляции. Получится результат


Видим, что коэффициент корреляции между Н и Е равен 0,9487 (близок к ед
и-
нице) и статистически значим (p
-
val
ue равно 0). Следовательно, имеется связь

6

4

между прыжками в высоту и производством электроэнергии. Результат дост
а-
точно странный. Найдем частный коэффициент корреляции между Е и Н при
фиксированном параметре Year.


Видим, что частный коэффициент раве
н 0,4954, он достаточно мал, p
-
value
=0,1750



0,1
и это
говорит о незначимости

коэффициента
. Следовател
ь-
но, можно считать, что есть связь между ростом рекорда по прыжкам в завис
и-
мости от года и ростом производства электроэнергии
в зависимости от года

(т.е
. производство электроэнергии растет с каждым годом и рекорды по пры
ж-
кам тоже растут из года в год). Если же убрать зависимость от времени, то св
я-
зи между рекордом по прыжкам в высоту и производством электр
о
энергии нет.


АНАЛИЗ СВЯЗИ ПО ТАБЛИЦАМ СОПРЯЖЕНН
ОСТИ


Задача.
По данным переписи населения 1939, 1959 и 1970 гг. получены сл
е-
дующие выборочные данные об образовании городских и сел
ь
ских жителей.

Образ
о
вание

1939

1959

1970

г
о
род

с
е
ло

г
о
род

село

г
о
род

с
е
ло

Высшее или среднее

107

31

376

210

800

358

Нач
ал
ь
ное

453

1094

621

879

552

703


1.

Можно ли говорить о наличии связи между уровнем образования и местом
проживания?


7

2.

Если выборочные данные доказывают наличие такой связи, то можно ли
проследить, как изменялась теснота этой связи в динамике (в 1939, 1959 и
1970 гг)?

3.

По данным, представленным в следующей таблице, проанализируйте зав
и-
симость образовательного уровня мужчин и женщин от места их прожив
а-
ния в 1970 г.:

Образование

Мужч
и
ны

Женщ
и
ны

г
о
род

с
е
ло

г
о
род

с
е
ло

Высшее или сре
д
нее

388

188

412

170

Начальное

238

297

314

406

Введите данные в таблицу следующим образом:


В строке меню выберите
Describe
, в строке меню выберите
Categorical

Data
, з
а-
тем
Contingency

Table
. Раскроется окно, в котором последовательно надо в
ы-
бирать названия столбцов и нажимат
ь на кнопку со стрелкой в поле
Columns
.


8


Нажмите кнопку ОК. Откроется окно
Contingency

T
a
ble
s
.


Щелкните дважды по окну
Tests

of

Independence
,
если оно есть на экране. В

противном

случае

щелкните

по

кнопке

Tab
l
es
,
выберите

Tests

of

Independence
.

Chi
-
Sq
uare

Test
.


9


В
StatAdvisor

можно прочитать, что χ
2

-
тест представляет собой проверку гип
о-
тезы о том, можно или нет отклонить гипотезу о независимости столбцов и
строк. Так как
p
-
value

меньше чем 0,01, то мы можем отклонить гипотезу о н
е-
зависимости с 99 %
уровнем дов
е
рия.

Для анализа тесноты связи нажмите снова на кнопку
Tabular

Options
,
в ра
с-
крывшемся окне выберите
Summary

Statistics
. Раскроется следующее окно:


Посмотрите значения
коэффициента сопряженности

(
Contingency

Coeff
.) и
коэффициента Крамера

(
Cr
amer

s

V
). Эти коэффициенты всегда принимают
зн
а
чения от 0 до 1: они равны 0 в случае отсутствия связи между признаками и
возрастают с увеличением тесноты связи.
Они нужны для того чтобы сравн
и-
вать тесноту связи. Запишите в тетрадь коэффициент Крамера.
Пов
торите ан
а-
лиз тесноты связи для остальных данных обеих таблиц. Сформулируйте выв
о-
ды
(растет ли теснота связи или уменьшается? Как можно это интерпретир
о-
вать?). Покажите
результаты преподавателю.


10

КОЭФФИЦИЕНТЫ РАНГОВОЙ КОРР
Е
ЛЯЦИИ

Задача.
Директор фирмы выста
вил оценки своим сотрудникам по двадцат
и-
балльной системе, учитывая два признака:

1.

Степень соответствия образования занимаемой ими в данной фирме дол
ж-
ности.

2.

Качество выполнения ими служебных обяза
н
ностей.

Получились следующие результаты:

Фам
и
лия

A

B

C

D

E

F

G

H

I

L

Образ
о
вание

5

8

18

9

10

10

14

16

19

20

Качес
т
во

8

10

15

8

12

13

18

17

18

20

Используя ранговые критерии, выясните, влияет ли на качество выполнения
служебных обязанностей образование по специальности, соответствующей
должности. Какова направле
нность этой связи (пр
я
мая или обратная)?

Введите данные в соответствии с таблицей. Должна
получиться следующая таблица. В строке меню в
ы-
берите
Describe
, в раскрывшемся меню выберите
Numeric

Data
, затем
Multivariable

Analysis
. Нажм
и-
те кнопку
Tabl
es
,

в ра
с
крывшемся окне выберите
Rank

Correlations
. Раскроется окно анал
и
за:


Эта таблица представляет нам матрицу ранговых коэффициентов корреляции
Спирмена. Под коэффициентом в скобках стоит количество пар переменных, а
ниже


значение
p
-
value
. Значение
p
-
value

= 0,0063
,

меньшее 0,05, означает

11

статистическую значимость коэффициента.
(
Здесь коэффициент статистически
зн
а
чим, так как 0,0
0
63 0,05
)
.
Можно применить еще один метод


вычислить
ранговый коэффициент Кендалла. Щелкните в окне правой кнопкой, выберите
Pan
e Options
,
появится окно


Выберите в этом окне нужный вариант.


Известно, что коэффициент Кендалла всегда «более осторожный».

ЗАДАНИЯ

1.

В таблице приведены результаты небольшого опроса о возможности в
ближайшие 12 месяцев краха фондового ры
н
ка.


Акционеры

Не акционеры

Очень вероятно

18

26

Весьма вероя
т
но

41

65


12

Маловероятно

52

68

Невероятно

19

31

Не уверен

8

13

Зависит ли ответ от того, является ли опрашиваемый акционером?

2.

Влияет ли рост на быстроту бега?


Бегуны


1

2

3

4

5

6

7

8

9

10

Рост (ранги)

1

2

3

4

5

6

7

8

9

10

Быс
т
рота

5

6

10

7

9

4

3

1

8

2

3.

В таблице представлены темпы прироста (%) следующих макроэконом
и-
ческих показателей десяти развитых стран мира за 1992 г.: ВНП (
х
(1)
), промы
ш-
ленного производства (
х
(2)
), индекса цен (
х
(3)
) и доли безработн
ых (
х
(4)
).

Хорошо бы эту задачу заменить!

Страны

х
(1)

х
(2)

х
(3)

х
(4)

Япония

3,5

4,3

2,1

2,3

США

3.1

4,6

3,9

6,3

Германия

2,2

2,0

3,4

5,1

Франция

2,7

3,1

2,9

9,7

Италия

2,7

3,0

5,6

11,1

Великобрит
а
ния

1,6

1,4

4,0

9,5

Канада

3,1

3,4

3,0

10,0

Австрали
я

1,8

2,6

4,0

2,6

Бельгия

2,3

2,6

3,4

8,9

Нидерланды

2,3

2,4

3,5

6,4

Требуется:

а) найти оценку коэффициента корреляции между темпами прироста ВНП и
промышленного производства, проверить его значимость;


13

б) оценить тесноту связи между
х
(1)

и
х
(3)
, провер
ить значимость коэффиц
и-
ента коррел
я
ции;

в) влияет ли доля безработных на тесноту связи между промышленным пр
о-
изводством и индексом цен?

4.
По данным обследования получена информация о занятом населении по
наличию второй работы и готовности к дополнительной

занятости

Таблица Данные о наличии работы и готовности к дополнительной занятости.

Дополнительная занятость

Имеют работу

Мужчины

Женщины

одну

две и более

одну

две и более

Ищут

212

29

145

20

Не ищут

2913

46

1915

45


Охарактеризу
йте отдельно для мужчин и женщин связь поиска дополнительной
занятости с наличием одной, двух и более видов работ. У кого связь теснее?
З
а-
висит

ли от пола поиск работы среди имеющих одну? среди имеющих две и б
о-
лее?



ВОПРОСЫ

1.

С помощью какого критерия можно

выявить связь между двумя колич
е-
ственными признак
а
ми?

2.

Что характеризует выборочный коэффициент коррел
я
ции?

3.

Что характеризует частный коэффициент корреляции?

4.


Что Вы понимаете под порядк
о
вым признаком?

5.

С помощью какого критерия можно выявить связь между дв
умя порядков
ы-
ми призн
а
ками?

6.

Для чего используются коэффициенты Спирмена и Кэ
н
делла?

7.

С помощью какого критерия можно выявить связь между двумя качестве
н-
ными призн
а
ками?

8.

Что характеризует коэффициент Крамера?


14



Приложенные файлы

  • pdf 17751447
    Размер файла: 393 kB Загрузок: 0

Добавить комментарий