Ситуац-е задачи по статистике для студ-в 1кМеди..


МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ
И СОЦИАЛЬНОГО РАЗВИТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
ГБОУ ВПО Волгоградский государственный медицинский университет
Кафедра общественного здоровья и здравоохранения с курсом общественного здоровья и здравоохранения ФУВ

9207524765
В.И. Сабанов
А.Н. Голубев
Л.Н. Грибина
Е.Р. Комина
Ситуационные задачи
по медицинской статистике
с примерами решений
в программе Microsoft Excel
Учебно-методическое пособие к практическим занятиям
по дисциплине «Медицинская информатика» для студентов лечебного, стоматологического, педиатрического и медико-профилактического факультетов
(ред.3)
ФАЙЛ: \\room.cl.volgmed.ru\Base\Преподавателю\МЕДИНФОРМАТИКА-1курс\УМК-Мединформатика_инф-ка_стат-ка-Медпроф\Практики Мединформатика-Медпроф1к\Ситуац-е задачи по статистике для студ-в 1кМединформатика ред3.docxВолгоград 2012
МИНИСТЕРСТВО ЗДРАВООХРАНЕНИЯ
И СОЦИАЛЬНОГО РАЗВИТИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
ГБОУ ВПО ВОЛГОГРАДСКИЙ ГОСУДАРСТВЕННЫЙ МЕДИЦИНСКИЙ УНИВЕРСИТЕТ
Кафедра общественного здоровья и здравоохранения с курсом общественного здоровья и здравоохранения ФУВ
В.И. Сабанов, А.Н. Голубев, Л.Н. Грибина, Е.Р. Комина
Ситуационные задачи
по медицинской статистике
с примерами решений
в программе Microsoft Excel
Учебно-методическое пособие к практическим занятиям
по дисциплине «Медицинская информатика»
Для специальностей: 060101.65 Лечебное дело, 060103.65 Педиатрия, 060104.65 Медико-профилактическое дело, 060105.65 Стоматология.
Волгоград
Издательство
ВолгГМУ
2012
УДК _________
ББК _________
УМО -
Сабанов В.И., Голубев А.Н., Грибина Л.Н., Комина Е.Р.
Ситуационные задачи по медицинской статистике с примерами решений в программе Microsoft Excel . Учебно-методическое пособие к практическим занятиям по дисциплине «Медицинская информатика» для студентов лечебного, педиатрического, медико-профилактического и стоматологического факультетов . – Волгоград: Изд-во ВолгГМУ, 2012. – __с.: ил.
Учебно-методическое пособие к практическим занятиям подготовлено на кафедре общественного здоровья и здравоохранения с курсом общественного здоровья и здравоохранения ФУВ Волгоградского государственного медицинского университета. Издание имеет целью оптимизацию изучения студентами важнейшего раздела дисциплины «Медицинская информатика» - «Медицинская статистика». В нем приведены примеры типовых ситуационных задач, встречающихся в медицинских исследованиях, их решения, а также задания для самостоятельной работы. Пособие предназначено для студентов медицинских вузов следующих специальностей: 060101.65 Лечебное дело, 060103.65 Педиатрия, 060104.65 Медико-профилактическое дело, 060105.65 Стоматология.
Рецензенты:
Печатается по решению Центрального методического совета
Волгоградского государственного медицинского университета
ISBN
© В.И. Сабанов, А.Н. Голубев, Л.Н. Грибина, Е.Р. Комина, 2012
© Волгоградский государственный медицинский университет, 2012
Содержание
TOC \o "1-2" \h \z \u Введение PAGEREF _Toc317675130 \h 5I.Организация и этапы статистического исследования PAGEREF _Toc317675131 \h 6II.Статистические таблицы PAGEREF _Toc317675132 \h 10III.Относительные величины, динамические ряды PAGEREF _Toc317675133 \h 14IV.Вариационные ряды, средние величины, вариабельность признака PAGEREF _Toc317675134 \h 24V.Проверка статистических гипотез, критерий Стьюдента PAGEREF _Toc317675135 \h 39VI.Проверка статистических гипотез, критерий Хи-квадрат PAGEREF _Toc317675136 \h 48VII.Метод стандартизации PAGEREF _Toc317675137 \h 55VIII.Дисперсионный анализ PAGEREF _Toc317675138 \h 60IX.Метод корреляции PAGEREF _Toc317675139 \h 68X.Метод регрессии PAGEREF _Toc317675140 \h 79Контрольные вопросы PAGEREF _Toc317675141 \h 83Список сокращений PAGEREF _Toc317675142 \h 85Литература PAGEREF _Toc317675143 \h 86
ВведениеВ современных условиях медицинские работники постоянно встречаются с множеством статистических данных. В основе решения вопроса об эффективности применении любого способа, тактики лечения или профилактики патологии лежит проверка статистической гипотез. Для понимания сущности такой информации врачу необходимо ориентироваться в фундаментальных понятиях и методах статистики, знать терминологию, уметь правильно оценить статистические критерии и показатели.
Развитие средств вычислительной техники и внедрение информационных систем в здравоохранение значительно расширили возможности статистической обработки материалов научно-практических работ. Большинство врачей получили возможность применять удобные программные средства не только для автоматизации своей основной деятельности, но и для статистической обработки данных. Поэтому владение методологией применения современных способов статистического анализа является основой для получения обоснованных выводов в любых медико-биологических исследованиях.
В настоящем пособии рассматриваются примеры решения типовых задач, встречающихся в различных сферах системы здравоохранения. Оно рассчитано на студентов и практических врачей, изучающих медицинскую статистику и осваивающих методы статистической обработки данных с применением компьютерной техники. Пособие может использоваться для проведения занятий со студентами медицинских и фармацевтических вузов в рамках учебной программы «Медицинская информатика».
Организация и этапы статистического исследованияСовременное состояние медицинской науки и практики основано на достижениях научных исследований, которые были выполнены выдающимися учеными на протяжении нескольких столетий. Любое медико-биологическое или социологическое исследование основано на проведении статистического наблюдения с последующей обработкой данных методами статистики.
СТАТИСТИКА - это общественная наука, которая изучает количественную сторону массовых общественных явлений в неразрывной связи с их качественной стороной.
САНИТАРНАЯ (МЕДИЦИНСКАЯ) СТАТИСТИКА - это раздел статистики, изучающий состояние здоровья населения (показатели общественного здоровья) и деятельность лечебно-профилактических учреждений (ЛПУ), то есть состоит из СТАТИСТИКИ ЗДОРОВЬЯ И СТАТИСТИКИ ЗДРАВООХРАНЕНИЯ.
Основными этапами статистического исследования являются:
1 этап - составление программы и плана исследования;
2 этап - собирание статистического материала;
3 этап - обработка собранного статистического материала;
4 этап - анализ полученных данных.
На 1-м этапе (Составление программы и плана статистического исследования) выполняется:
1) определение цели и задач исследования;
2) составление плана и программы сбора материала;
3) составление программы разработки материала;
4) составление программы анализа собранного материала.
Цель статистического исследования - это проверка тех или иных статистических гипотез в практике здравоохранения, сформулированных на основе потребности изучения того или иного явления. В зависимости от цели конкретизируются частные задачи и составляются план проведения всей работы, а также детальные программы сбора, разработки и анализа собранного материала.
План исследования включает:
1. Выбор места проведения исследования.
2. Определение единицы наблюдения.
3. Пути формирования объекта наблюдения (объем выборки, время, способы сбора материала).
4. Способы разработки материала.
5. Сроки работ по этапам.
6. Исполнители.
7. Финансирование.
8. Организационное и методическое руководство.
Для проведения исследования потребуется определить: какие единицы наблюдения будут изучаться, какой перечень признаков (параметров) потребуется определить и какое исследование будет выполняться.
ЕДИНИЦА НАБЛЮДЕНИЯ – это каждое конкретное явление, признаки которого подлежат исследованию и описанию в соответствии с программой наблюдения для получения в дальнейшем обобщающих показателей.
ОБЪЕКТ НАБЛЮДЕНИЯ - статистическая совокупность, в которую входят единицы наблюдения, объединенные вместе в конкретных границах территории и времени.
СТАТИСТИЧЕСКАЯ СОВОКУПНОСТЬ - это группа, состоящая из большого числа относительно однородных элементов (единиц наблюдения), взятых вместе в известных границах времени и пространства.
ГЕНЕРАЛЬНАЯ СОВОКУПНОСТЬ состоит из всех единиц наблюдения, которые могут быть к ней отнесены в соответствии с целью исследования.
Генеральная совокупность в статистических исследованиях используется довольно редко. Чаще всего исследователь имеет дело с выборочной совокупностью.
ВЫБОРОЧНАЯ СОВОКУПНОСТЬ – это часть генеральной совокупности, отобранная специальным методом и предназначенная для характеристики генеральной совокупности.
В зависимости от продолжительности исследования принято различать единовременное и текущее статистическое наблюдение.
ЕДИНОВРЕМЕННОЕ - это наблюдение, при котором статистические данные собираются на определенный (критический) момент времени. Пример: перепись населения.
ТЕКУЩЕЕ – это наблюдение непрерывное, повседневное, производимое в течение определенного периода: месяца, полугода, года.
Методами статистического наблюдения являются:
- СПЛОШНОЕ исследование, при котором изучаются все явления генеральной совокупности.
- ВЫБОРОЧНОЕ, при котором изучается определенная часть генеральной совокупности, наиболее полно характеризующая совокупность в целом.
ПРОГРАММА СБОРА МАТЕРИАЛА - это образец первичного статистического учетного документа (бланка), в который включены учетные признаки, подлежащие регистрации, соответствующие цели исследования.
При составлении учетного документа необходимо соблюдать следующие правила:
1) документ должен иметь четкое заглавие, в котором сформулирована единица наблюдения;
2) учетные признаки должны быть четкими, краткими, соответствовать цели и задачам исследования;
3) на каждый вопрос следует предусмотреть варианты ответов в соответствии с принятой группировкой изучаемых признаков.
Программа разработки материала предусматривает определение критериев группировки единиц наблюдения и составление макетов статистических таблиц.
На 2-м этапе проводится сбор статистического материала.
Статистическим материалом в каждом данном случае являются первичные учетные документы, официально существующие или специально разработанные (талоны, карты и т.п.). Сбор материала проводят в соответствии с составленной ранее программой и планом статистического исследования.
На 3-м этапе осуществляется обработка собранного статистического материала. Он включает следующие последовательно выполняемые действия: контроль, шифровка, группировка, сводка в статистические таблицы, вычисление статистических показателей и их графическое изображение.
КОНТРОЛЬ - это проверка собранного материала с целью отбора учетных документов, имеющих дефекты, для их последующего исправления, дополнения или исключения из исследования.
ШИФРОВКА - это применение условных обозначений выделяемых признаков. При ручной обработке материала шифры могут быть цифровые, буквенные, знаковые; при машинной только цифровые.
ГРУППИРОВКА - это распределение собранного материала на однородные группы по характеру или величине признаков.
Виды группировок:
- ТИПОЛОГИЧЕСКАЯ - это группировка атрибутивных (качественных) признаков. (Например: пол, профессия)
- ВАРИАЦИОННАЯ - это группировка признаков, имеющих числовое выражение. (Например: возраст, стаж)
СВОДКА - занесение полученных после подсчета цифровых данных в таблицы.
Для дальнейшего анализа материала необходимо произвести РАСЧЕТЫ СТАТИСТИЧЕСКИХ ПОКАЗАТЕЛЕЙ и средних величин в соответствии с программой исследования и выполнить ГРАФИЧЕСКОЕ ИЗОБРАЖЕНИЕ.
На 4-м этапе выполняется обобщение и анализ полученных данных. Он включает:
- интерпретацию полученных различных статистических величин и графических изображений на основе сопоставления с нормативами, со средними уровнями аналогичных величин, со стандартами, с данными по другим учреждениям и территориям, литературными данными, в динамике;
- литературное оформление работы;
- выводы;
- предложения для внедрения в практику;
- прогноз, рекомендации.
Пример создания электронного документа «Протокол работы студента» для изучения медицинской статистики.
Задача: необходимо составить документ, который отражает учебную программу изучения методов статистического исследования студентом.
Решение: запустите программу Excel, внесите на листе1 заголовок документа, ФИО студента(ов), которые будут работать с этим документом, сроки обучения и ожидаемый результат. Например, как показано на рисунке 1.

Рис. 1. Пример заполнения электронного документа работы студента.
Сохраните файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», покажите файл преподавателю для проверки выполнения задания.
Статистические таблицыКаждое медико-биологическое или социологическое исследование начинается с этапа планирования эксперимента. Уже на этом этапе необходимо подготовить макеты статистических таблиц, которые должны стать основой для последующей обработки и анализа данных. Знание методики построения статистических таблиц позволяет подготовить проведение исследования в соответствии с рабочей гипотезой.
СТАТИСТИЧЕСКАЯ ТАБЛИЦА - это форма записи сгруппированных статистических данных.
В таблице, как и в грамматическом предложении, выделяют табличное подлежащее и табличное сказуемое. Табличное подлежащее – это то, о чем говорится в таблице, основной признак или признаки, которые, как правило, обозначены в строках таблицы. Табличное сказуемое или несколько сказуемых – это признаки, характеризующие подлежащее. Они, как правило, расположены в столбцах (графах) таблицы.
Каждая таблица должна иметь заголовок, отражающий ее содержание, шапку с указанием показателей или признаков и единиц измерений, а также столбец «Всего» и строку «Итого». В таблице не должно быть пустых ячеек. Если в документе встречается несколько таблиц, каждая из них обязательно нумеруются. Номер таблицы указывают над ней в правой части страницы.
В зависимости от размера и содержания таблицы она может относиться к одному из видов:
- ПРОСТАЯ (таблица, в которой подлежащее характеризуется лишь одним признаком);
- ГРУППОВАЯ (таблица, в которой подлежащее характеризуется двумя связанными между собой признаками);
- КОМБИНАЦИОННАЯ (таблица, в которой подлежащее характеризуется тремя и более связанными между собой признаками).
Пример создания макетов статистических таблиц.
Задача: необходимо составить макеты простой, групповой и комбинационной таблиц для внесения данных распределения заболевших жителей района N в 2010 году по социальному статусу (учащиеся, рабочие, служащие), классам заболеваний (болезни органов дыхания, инфекционные заболевания, травмы, прочие болезни), возрасту (до 19 лет, 20-39, 40-59, 60 лет и старше).
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте на листе1 соответствующие макеты таблиц сохраните файл и покажите решение преподавателю.
а) простая таблица 1 (один признак, только табличное подлежащее).
Таблица 1
Абсолютное число заболевших по классам заболеваний
Класс заболеваний Число заболевших
Болезни органов дыхания Инфекционные заболевания Травмы Прочие болезни Итого: б) групповая таблица 2 (два связанных между собой признака, один - табличное подлежащее, другой - сказуемое)
Таблица 2
Абсолютное число заболевших по классам заболеваний в социальных группах жителей района
Класс заболеваний Число заболевших в группах Все группы
учащиеся рабочие служащие Болезни органов дыхания Инфекционные заболевания Травмы Прочие болезни Итого: в) комбинационная таблица 3 (три и более связанных между собой признака, один - табличное подлежащее, другие - сказуемые)
Таблица 3
Абсолютное число заболевших по классам заболеваний в возрастных и социальных группах жителей района
Класс заболеваний Число заболевших
учащиеся Рабочие служащие все группы
до 19 лет 20-39 лет 40-59 лет 60 лет и
старше всего до 19 лет 20-39 лет 40-59 лет 60 лет и старше всего до 19 лет 20-39 лет 40-59 лет 60 лет и старше всего до 19 лет 20-39 лет 40-59 лет 60 лет и старше всего
Болезни органов дыхания Инфекционные заболевания Травмы Прочие болезни Итого: ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте НОВЫЙ лист, переименуйте его, обозначив название «Макеты_таблиц», решите требуемый вариант задания, сохраните, запретите изменения в файле паролем и покажите файл преподавателю.
Вариант 1
Для изучения состава инвалидов Н-ского района требуется собрать данные о больных, прошедших МСЭК по группам инвалидности (I, II, III), причинам (общее заболевание, профессиональное, производственная травма, прочие причины) и возрасту (до 19 лет, 20-39, 40-59, 60 лет и старше). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 2
Изучается распределение среднего медицинского персонала г. Волгограда по специальностям (фельдшеры, акушерки, медицинские сестры, лаборанты, рентгенотехники, помощники санитарных врачей и пр.), стажу (до 5 лет, от 5 до 10 лет, свыше 10 лет), возрасту (до 19 лет, 20-29, 30-39, 40-49, 50-59, 60 лет и старше). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 3
Выполняется сбор данных о распределении болевших рабочих Н-ской фабрики по видам временной нетрудоспособности (заболевание, травма, карантин, по уходу, беременности, родам), цехам (ткацкий, прядильный, мотальный), возрасту (до 19 лет, 20-29, 30-39, 40-49, 50-59, 60 лет и старше) и полу. Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 4
Производится изучение числа умерших, подвергшихся патологоанатомическому вскрытию в больнице, с учетом нозологических форм болезни (туберкулез, рак, язвенная болезнь, инфаркт миокарда), качества диагностики (совпали клинический и патологоанатомический диагнозы, не совпали диагнозы), длительности лечения в стационаре (до 7 дней, от 8 дней до 1 мес., от 1 до 2 мес., свыше 2 мес.). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 5
Выполняется сбор данных о распределении работающих Н-ского завода по цехам (механический, литейный, модельный, кузнечный и др.), стажу работы (до 5 лет, от 5 до 10 лет, более 10 лет), профессиям (слесари, токари, инструментальщики и другие). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 6
Изучается распределение больных язвенной болезнью желудка и двенадцатиперстной кишки, находящихся на диспансерном наблюдении в Н-ской поликлинике, по длительности заболевания (до 1 года, от 1 года до 3 лет, свыше 3 лет), методам лечения (хирургический, консервативный), возрасту (до 19 лет, 20-39, 40-59, 60 лет и старше). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 7
Изучается распределение прошедших через Н-скую больницу больных язвенной болезнью по длительности пребывания в больнице (до 1 мес., от 1 мес. до 3 мес., свыше 3 мес.), длительности течения заболевания (до 1 года, от 1 года до 3 лет, свыше 3 лет) и методам лечения (хирургический, консервативный). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 8
Изучается число больных в терапевтическом отделении стационара, госпитализированных по поводу крупозной пневмонии, в зависимости от сроков госпитализации (в 1-й, 2-й, 3-й день болезни и позднее), длительности лечения (до 15 дней, свыше 15 дней), наличию осложнений (с осложнениями, без осложнений). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 9
Изучается распределение врачей Н-ской области по стажу работы (до 5 лет, от 5 до 10 лет), специальности (терапевты, хирурги и т.д.) и месту работы (областная больница, городская больница, районная больница, сельская участковая больница, другие учреждения). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 10
Изучается распределение больных, прошедших через терапевтическое отделение стационара, по нозологическим формам (пневмония, язвенная болезнь, холецистит), качеству поликлинической диагностики (совпал диагноз направившего учреждения с диагнозом стационара, не совпал), исходам (выздоровление, смерть). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 11
Изучается распределение населения города Волгограда по возрасту (0-14 лет, 15-19, 20-39, 40-59, 60 лет и старше), полу, образованию (начальное, среднее, высшее) и социальному положению (рабочие, служащие, ИТР). Составьте макеты простой, групповой и комбинационной таблиц.
Вариант 12
Изучается состав больных, выписанных из инфекционного отделения, по нозологическим формам (дизентерия, инфекционный гепатит типа А, скарлатина, корь), длительности лечения (до 10 дней, 10-20 дней, свыше 20 дней) и исходам (выздоровление, смерть). Составьте макеты простой, групповой и комбинационной таблиц.
Относительные величины, динамические рядыСтатистические таблицы могут содержать абсолютные и относительные величины. Абсолютными называются данные, полученные непосредственно при измерении учетных признаков каждой единицы наблюдения. Например, артериальное давление каждого пациента, число коек в каждой больнице города, число дней болезни каждого больного и др. Абсолютные величины служат основой для вычисления относительных величин, которые применяются для сравнения явлений, оцениваемых в различных группах, регионах, странах и т.д.
Относительные величины (коэффициенты, показатели) вычисляются путем деления одной абсолютной величины на другую с последующим умножением на требуемое основание. Смысл получения относительных величин – нахождение общей меры, приведение к общему знаменателю - основанию. Основание (1, 100, 1000 и т.д.) выбирается в зависимости от типа показателя и удобства последующего представления и анализа полученных значений. Для условного обозначения относительных величин применяется знак “P”.
Наиболее часто применяются следующие типы относительных величин:
- интернсивные;
- экстенсивные;
- соотношения;
- наглядности.
Интенсивные показатели отображают интенсивность развития (частоту, уровень, распространённость) явления в своей среде, т.е. в среде, которая продуцирует это явление. Применяются они, чаще всего, в медицине и демографии, отвечая на вопрос: как часто явление встречается в известной среде? Интенсивные величины отражают ЧАСТОТУ (встречаемость) явления в среде, ПОРОДИВШЕЙ это явление и, как правило, вычисляются на основание 1000 (промилле, %0). Выражается, как правило, в промилле %о. Если полученное значение выражается малым числом, возможно использование других оснований: продецимилле (%00), просантимилле (%000).

Экстенсивные коэффициенты отражают структуру или часть явления во всем явлении в целом. Они характеризуют отношение части статистической совокупности к целой совокупности (долю, удельный вес, часть от целого), т.е. отношение отдельного элемента к итогу. Поэтому эти показатели нельзя использовать для определения уровня изучаемого явления, они демонстрируют только соотношение его частей, всегда вычисляются на основание 100 и выражаются в % (проценты).

Коэффициенты соотношения применяются, когда необходимо получить соотношение не связанных между собой явлений. Например, обеспеченность населения больничными койками, врачами, соотношение средних медработников и врачей, обеспеченность жилой площадью на душу населения, и т. д. Они вычисляются как отношение величины одного явления к другому явлению и выражаются, как правило, в продецимилле, реже - в процентах, промилле и др.

Для анализа изменения изучаемого явления во времени вычисляются динамические показатели на основе динамического ряда.
Динамическим называется ряд чисел, состоящий из однородных сопоставимых величин, характеризующих изменения какого-либо явления за определенные отрезки времени.
Основными видами динамических рядов являются:
- ПРОСТОЙ (состоит из абсолютных величин);
- СЛОЖНЫЙ (из относительных и средних);
- МОМЕНТНЫЙ (состоит из величин, характеризующих размеры явлений на определенные даты);
- ИНТЕРВАЛЬНЫЙ (состоит из величин, характеризующих размеры явления за определенный интервал времени).
Числа динамического ряда называются УРОВНЕМ.
К показателям динамического ряда относятся:
- ПОКАЗАТЕЛЬ НАГЛЯДНОСТИ характеризует отношение каждой последующего уровня к исходному, принятому за 100%;
- ПОКАЗАТЕЛЬ РОСТА (темп роста) - процентное отношение каждого последующего уровня к предыдущему уровню, принятому за 100%;
 ПОКАЗАТЕЛЬ ПРИРОСТА (темп прироста) - процентное отношение абсолютного прироста к предыдущему уровню, принятому за 100%;
- АБСОЛЮТНЫЙ ПРИРОСТ - разность уровней данного года и предыдущего.
Пример вычисления относительных величин, заполнения статистических таблиц и графического отображения данных.
Условие задачи: получены данные статистического наблюдения - абсолютные величины заболеваемости в р-не N за 2010 год.
Число детей, проживающих в районе города в 2010 году: 3500 человек.
Из них:мальчики - 1700 чел.;
девочки -1800 чел.
Число болевших детей на протяжении 2010 года: 2900 человек.
Из них:мальчиков - 1400 чел.;
девочек -1500 чел.
Общее число зарегистрированных заболеваний у детей за 2010 год: 3820 случаев.
Из них:мальчики - 1900 случаев;
девочки -1920 случаев.
Число заболеваний скарлатиной у детей за 2010 год: 66 случаев.
Из них:мальчики - 35 случаев;
девочки -31 случай.
Задание: а) вычислить показатели распространенности болевших лиц, частоту случаев всех заболеваний и случаев скарлатины (интенсивные величины);
б) вычислить показатели доли (удельного веса) мальчиков и девочек среди детей района и долю заболеваний скарлатиной во всех заболеваниях детей и среди мальчиков и девочек (экстенсивные);
в) построить статистическую таблицу, содержащую интенсивные показатели;
г) нарисовать секторную и внутристолбиковую диаграммы по экстенсивным величинам.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 2 этого файла решите задачу, сохраните и покажите файл преподавателю.
а) Интенсивные показатели распространенности (частоты) болевших лиц, случаев всех заболеваний и скарлатины, отражают ЧАСТОТУ (встречаемость) явления в среде, ПОРОДИВШЕЙ это явление. Числитель – явление, знаменатель – среда, основание 1000.
Принцип вычисления: РИнт. = (Уровень явления / Уровень среды) * 1000
Pбол.лиц всего= (2900/3500)*1000=828,6%о
Pмальчики = (1400/1700)*1000=83,5%о
Pдевочки = (1500/1800)*1000=833,3%о
Pслуч. = (3820/3500)*1000=1091,4%о
Pмальчики = (1900/1700)*1000=1117,6%о
Pдевочки = (1920/1800)*1000=1066,7%о
Pслуч.скарл. = (66/3500)*1000=18,9%о
Pмальчики = (35/1700)*1000=20,6 %о
Pдевочки = (31/1800)*1000=17,2 %о
б) Экстенсивные показатели доли (удельного веса) мальчиков и девочек среди детей района и долю заболеваний скарлатиной во всех заболеваниях детей и среди мальчиков и девочек. Отражают часть явления в этом же явлении (СТРУКТУРУ). Числитель – часть явления, знаменатель – всё явление, основание 100. Выражается в %. Например: доля кардиологических заболеваний во всей заболеваемости населения, структура смертности, возрастная или половая структура населения.
Принцип вычисления: РЭкст. = (Часть явления / Уровень явления) * 100
Pдоля мальчиков= (1700/3500)*100=48,6%
Pдоля девочек= (1800/3500)*100=51,4%
Pуд.вес случаев скарлаты= (66/3820)*100=1,7%
Pуд.вес скарлатиы среди мальчиков= (35/1900)*100=1,8%
PУд.вес скарлатины среди девочек = (31/1920)*100=1,6%
в) Статистическая таблица интенсивных относительных величин, таблица 4.
Таблица 4
Распространенность заболеваний среди детей в 2010 году
Пол Число болевших на 1000 детей (%о) Число случаев заболеваний на 1000 детей (%о) Число случаев скарлатины на 1000 детей (%о)
Мальчики 823,5 1117,6 17,2
Девочки 833,3 1066,7 20,6
Итого: 828,6 1091,4 18,9
г) Секторная (рис. 2) и внутристолбиковая (рис. 3) диаграммы, демонстрирующие экстенсивные величины.
324866090805-381090805
51,4%

51,4%

48,6%

48,6%

Рис. 2. Удельный вес заболеваний скарлатиной мальчиков и девочек района N. Рис. 3. Удельный вес заболеваний скарлатиной мальчиков и девочек района N.
Пример расчета и анализа показателей первичной заболеваемости населения и структуры заболеваемости.
Условие задачи: получены данные статистического наблюдения: среднегодовая численность жителей района в 2010 году составляла 200 тыс. чел.
Абсолютные величины числа зарегистрированных заболеваний в этом районе показаны в таблице 5.
Таблица 5
Данные заболеваемости района N за 2010 год
Заболевания Число первичных случаев заболеваний
Заболевания органов дыхания 9200
Заболевания сердца и сосудов 8200
Травмы 900
Новообразования 135
Инфекционные заболевания 1600
Прочие заболевания 1650
Итого: =SUM(ABOVE) 21685
Задание: вычислить интенсивный показатель общей заболеваемости и структуру заболеваемости жителей района N за 2010 год. Отобразить наглядно эти показатели. Проанализировать и сделать вывод.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 2 этого файла решите задачу, сохраните и покажите файл преподавателю.
Вычисление интенсивных и экстенсивных показателей заболеваемости представлено в таблице 6, а их графическое изображение на рис. 4 и рис. 5.
Таблица 6
Показатели заболеваемости населения района N за 2010 год
Заболевания Общая заболеваемость (%о)
интенсивный показатель Структура заболеваемости (%)
экстенсивный показатель
Органов дыхания 46,0
=9200/200000*1000 42,4
=9200/ =SUM(ABOVE) 21685*1000
Сердца и сосудов 41,0
=8200/200000*1000 37,8
=8200/ =SUM(ABOVE) 21685*1000
Прочие 8,3
=1650/200000*1000 7,6
=1650/ =SUM(ABOVE) 21685*1000
Инфекционные 8,0
=1600/200000*1000 7,4
=1600/ =SUM(ABOVE) 21685*1000
Травмы 4,5
=900/200000*1000 4,2
=900/ =SUM(ABOVE) 21685*1000
Новообразования 0,7
=135/200000*1000 0,6
=135/ =SUM(ABOVE) 21685*1000
Итого: 108,4
=21685/200000*1000 100

Рис. 4. Общая заболеваемость жителей района N в 2010 году.

Рис. 5. Структура заболеваемости жителей района N в 2010 году (экстенсивные показатели).
Вывод: заболеваемость в районе N характеризуется повышенным уровнем болезней органов дыхания и сердечно-сосудистой системы по сравнению с другими классами заболеваний, причем их доли в структуре заболеваемости приблизительно равны.
Пример расчета и анализа показателей динамики численности студентов в г.N.
Условие задачи: получены данные о численности студентов и населения города N с 2005 по 2010 годы (таблица 7).
Таблица 7
Численность студентов и населения города N с 2005 по 2010 годы
Годы Абсолютное значение числа студентов
(чел.) Абсолютное значение числа жителей
(чел.)
2005 12 150 900 000
2006 12 100 910 000
2007 11 730 890 000
2008 12 050 920 000
2009 12 100 925 000
2010 12 300 920 000
Задание: вычислить показатели динамики числа студентов и изобразить их графиком, проанализировать и сделать вывод.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 3 этого файла решите задачу, сохраните и покажите файл преподавателю.
Принцип вычисления динамических показателей представлен в таблице 8, а их графическое изображение на рисунке 6.
Таблица 8
Вычисление относительных величин в динамических рядах
Годы Абсолютное значение числа студентов
(чел.) Абсолютное значение числа жителей
(чел.) Число студентов на 1000 жителей (%о) Абсолют-ный прирост или убыль
(чел.) Показатель наглядности
(%) Показатель роста/ убыли
(%) Показатель темпа прироста/ убыли
(%)
2005 12 150 900 000 13,5
=12 150/ 900 000*1000 - 100 - -
2006 12 100 910 000 13,3 -50
=12 100-12 150
99,6
=12 100/ 12 150
*100 99,6
=12 100/
12 150
*100 -0,4
=-50/12 150 * 100
2007 11 730 890 000 13,2 -370
=11 730-12 100
96,5
=11 730/ 12 150
*100 96,9
=11 730/
12 100
*100 -3,1
=-370/12 100 * 100
2008 12 050 920 000 13,1 320 99,2 102,7 2,7
2009 12 100 925 000 13,1 50 99,5 100,4 0,4
2010 12 300 920 000 13,4 200 101,2 101,7 1,7
В среднем за 6 лет 12 071,6 910 833,3 13,3 - - 100,3 0,3

Рис. 6. Динамика показателя числа студентов на 1000 жителей за 6 лет.
Вывод: изменение числа студентов за 6 лет (с 2005 по 2010 годы) в городе N характеризуется общим снижением до 2009 года с последующей тенденцией к восстановлению численности до уровня 2005 года.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте НОВЫЙ лист, переименуйте его, обозначив названием «Отн_вел», решите требуемый вариант задания, сохраните, запретите изменения в файле паролем и покажите файл преподавателю.
Вариант 1
Вычислить динамические показатели на основе данных таблицы 9, отобразить их графически, проанализировать и сделать вывод.
Таблица 9
Динамика заболеваемости населений за 5 лет
Годы Общая
заболеваемость
(%о) Динамические показатели
наглядности(%) роста (%) прироста (%)
2006 187,6 100 - -
2007 198,4 2008 228,7 2009 234,2 2010 240,8 В среднем за 5 лет - - -
Вариант 2
Вычислить динамические показатели на основе данных таблицы 10, отобразить их графически, проанализировать и сделать вывод.
Таблица 10
Динамика инвалидности населений за 5 лет
Годы Инвалидность (%о) Динамические показатели
наглядности
(%) роста (%) прироста
(%)
2006 14,6 100 - -
2007 18,4 2008 21,7 2009 23,2 2010 15,8 В среднем за 5 лет - - -
Вариант 3
Вычислить динамические показатели на основе данных таблицы 11, отобразить их графически, проанализировать и сделать вывод.
Таблица 11
Динамика обращаемости к врачу эндокринологу за 5 лет
Годы Обращаемость (%о) Динамические показатели
наглядности
(%) роста (%) прироста
(%)
2006 1,6 100 - -
2007 1,4 2008 1,5 2009 2,2 2010 2,8 В среднем за 5 лет - - -
Вариант 4
Вычислить динамические показатели на основе данных таблицы 12, отобразить их графически, проанализировать и сделать вывод.
Таблица 12
Динамика обращений к врачу офтальмологу за 5 лет
Годы Обращаемость (%о) Динамические показатели
наглядности(%) роста (%) прироста (%)
2006 2,6 100 - -
2007 2,4 2008 2,1 2009 2,2 2010 2,8 В среднем за 5 лет - - -
Вариант 5
Вычислить динамические показатели на основе данных таблицы 13, отобразить их графически, проанализировать и сделать вывод.
Таблица 13
Динамика больничной летальности в г. N за 5 лет
Годы Летальность (%о) Динамические показатели
наглядности(%) роста (%) прироста %)
2007 1,0 100 - -
2008 1,4 2009 1,6 2010 1,2 2011 0,8 В среднем за 5 лет - - -
Вариант 6
Вычислить динамические показатели на основе данных таблицы 14, отобразить их графически, проанализировать и сделать вывод.
Таблица 14
Динамика рождаемости в г.N за 5 лет
Годы Рождаемость (%о) Динамические показатели
наглядности(%) роста (%) прироста (%)
2007 11,0 100 - -
2008 10,4 2009 10,6 2010 10,2 2011 9,8 В среднем за 5 лет - - -
Вариационные ряды, средние величины, вариабельность признака
Особое место в статистическом анализе принадлежит определению среднего уровня изучаемого признака или явления. Средний уровень признака измеряют средними величинами.
Средняя величина характеризует общий количественный уровень изучаемого признака и является групповым свойством статистической совокупности. Она нивелирует, ослабляет случайные отклонения индивидуальных наблюдений в ту или иную сторону и выдвигает на первый план основное, типичное свойство изучаемого признака.
Средние величины широко используются:
Для оценки состояния здоровья населения: характеристики физического развития (рост, вес, окружность грудной клетки и пр.), выявления распространенности и длительности различных заболеваний, анализа демографических показателей (естественного движения населения, средней продолжительности предстоящей жизни, воспроизводства населения, средней численности населения и др.).
Для изучения деятельности лечебно-профилактических учреждений, медицинских кадров и оценки качества их работы, планирования и определения потребности населения в различных видах медицинской помощи (среднее число обращений или посещений на одного жителя в год, средняя длительность пребывания больного в стационаре, средняя продолжительность обследования больного, средняя обеспеченность врачами, койками и пр.).
Для характеристики санитарно-эпидемиологического состояния (средняя запыленность воздуха в цехе, средняя площадь на одного человека, средние нормы потребления белков, жиров и углеводов и т. д.).
 Для определения медико-физиологических показателей в норме и патологии, при обработке лабораторных данных, для установления достоверности результатов выборочного исследования в социально-гигиенических, клинических, экспериментальных исследованиях.
Вычисление средних величин выполняется на основе вариационных рядов. Вариационный ряд – это однородная в качественном отношении статистическая совокупность, отдельные единицы которой характеризуют количественные различия изучаемого признака или явления.
Количественная вариация может быть двух типов: прерывная (дискретная) и непрерывная.
Прерывный (дискретный) признак выражается только целым числом и не может иметь никаких промежуточных значений (например, число посещений, численность населения участка, число детей в семье, степень тяжести болезни в баллах и др.).
Непрерывный признак может принимать любые значения в определенных пределах, в том числе и дробные, и выражается лишь приближенно (например, вес – для взрослых можно ограничиться килограммами, а для новорожденных – граммами; рост, артериальное давление, время, потраченное на прием больного, и т. д.).
Цифровое значение каждого отдельного признака или явления, входящего в вариационный ряд, называется вариантой и обозначается буквой V. В математической литературе встречаются и другие обозначения, например x или y.
Вариационный ряд, где каждая варианта указана один раз, называется простым. Такие ряды используются в большинстве статистических задач в случае компьютерной обработки данных.
При увеличении числа наблюдений, как правило, встречаются повторяющиеся значения вариант. В этом случае создается сгруппированный вариационный ряд, где указывается число повторений (частота, обозначается буквой «р»).
Ранжированный вариационный ряд состоит из вариант, расположенных в порядке возрастания или убывания. Как простой, так и сгруппированный ряды могут быть составлены с ранжированием.
Интервальный вариационный ряд составляют с целью упрощения последующих вычислений, выполняемых без использования компьютера, при очень большом числе единиц наблюдения (более 1000).
Общими характеристиками значений признака, отражаемого в вариационном ряду, являются средние величины. Среди них наиболее применяемые: средняя арифметическая величина М, мода Мо и медиана Me. Каждая из этих характеристик своеобразна. Они не могут подменить друг друга и лишь в совокупности достаточно полно и в сжатой форме представляют собой особенности вариационного ряда.
Модой Мо называют значение наиболее часто встречающейся варианты.
Медианой Me – значение варианты, делящей ранжированный вариационный ряд пополам (с каждой стороны медианы находится половина вариант). В редких случаях, когда имеется симметричный вариационный ряд, мода и медиана равны между собой и совпадают со значением средней арифметической.
Наиболее типичной характеристикой значений вариант является средняя арифметическая величина М. В математической литературе она обозначается .
Средняя арифметическая величина (M) – это общая количественная характеристика определенного признака изучаемых явлений, составляющих качественно однородную статистическую совокупность. Различают среднюю арифметическую простую и взвешенную. Средняя арифметическая простая вычисляется для простого вариационного ряда путем суммирования всех вариант и делением этой суммы на общее количество вариант, входящих в данный вариационный ряд. Вычисления проводятся по формуле:
,
где: М - средняя арифметическая простая;
ΣV- сумма вариант;
n - число наблюдений.
В сгруппированном вариационном ряду определяют взвешенную среднюю арифметическую. Формула ее вычисления:
,
где: М - средняя арифметическая взвешенная;
ΣVp - сумма произведений вариант на их частоты;
n - число наблюдений.
Средняя арифметическая имеет следующие свойства:
сумма отклонений вариант от средней (Σd) равна нулю (см. табл. 15);
при умножении (делении) всех вариант на один и тот же множитель (делитель) средняя арифметическая умножается (делится) на тот же множитель (делитель);
если прибавить (вычесть) ко всем вариантам одно и то же число, средняя арифметическая увеличивается (уменьшается) на это же число.
Средние арифметические величины, взятые сами по себе без учета вариабельности рядов, из которых они вычислены, могут не в полной мере отражать свойства вариационного ряда, в особенности когда необходимо сопоставление с другими средними. Близкие по значению средние могут быть получены из рядов с различной степенью рассеяния. Чем ближе друг к другу отдельные варианты по своей количественной характеристике, тем меньше рассеяние (колеблемость, вариабельность) ряда, тем типичнее его средняя.
Основными параметрами, которые позволяют оценить вариабельность признака являются:
Размах;
Амплитуда;
Среднее квадратическое отклонение;
Коэффициент вариации.
Приблизительно о колеблемости признака можно судить по размаху и амплитуде вариационного ряда. Размах указывает на максимальную (Vmax) и минимальную (Vmin) варианты в ряду. Амплитуда (Am) является разностью этих вариант: Am = Vmax - Vmin.
Основной, общепринятой мерой колеблемости вариационного ряда являются дисперсия (D). Но наиболее часто применяется более удобный параметр, вычисляемый на основе дисперсии - среднее квадратическое отклонение (σ). Оно учитывает величину отклонения (d) каждой варианты вариационного ряда от его средней арифметической (d=V - M).
Поскольку отклонения вариант от средней могут быть положительными и отрицательными, то при суммировании они дают значение «0» (d=0). Чтобы избежать этого, величины отклонения (d) возводятся во вторую степень и усредняются. Таким образом, дисперсия вариационного ряда является средним квадратом отклонений вариант от средней арифметической и вычисляется по формуле:
.
Она является важнейшей характеристикой вариабельности и применяется для вычисления многих статистических критериев.
Поскольку дисперсия выражается квадратом отклонений, ее величина не может использоваться в сопоставлении со средней арифметической. Для этих целей применяется среднее квадратическое отклонение (стандартное отклонение), которое обозначается знаком «Сигма» (σ). Оно характеризует среднее отклонение всех вариант вариационного ряда от средней арифметической величины в тех же единицах, что и сама средняя величина, поэтому они могут использоваться совместно.
Среднее квадратическое отклонение определяют по формуле:
σ= d2n .
Согласно теории вероятности в явлениях, подчиняющихся нормальному закону распределения, между значениями средней арифметической, среднеквадратического отклонения и вариантами существует строгая зависимость (правило трех сигм). Например, 68,3% значений варьирующего признака находятся в пределах М ± 1σ , 95,5% — в пределах М ± 2σ и 99,7% — в пределах М ± 3σ .
Величина среднеквадратического отклонения позволяет судить о характере однородности вариационного ряда и исследуемой группы. Если величина среднеквадратического отклонения небольшая, то это свидетельствует о достаточно высокой однородности изучаемого явления. Среднюю арифметическую в таком случае следует признать вполне характерной для данного вариационного ряда. Однако слишком малая величина сигмы заставляет думать об искусственном подборе наблюдений. При очень большой сигме средняя арифметическая в меньшей степени характеризует вариационный ряд, что говорит о значительной вариабельности изучаемого признака или явления или о неоднородности исследуемой группы. Однако сопоставление величины среднего квадратического отклонения возможно только для признаков одинаковой размерности. Действительно, если сравнивать разнообразие веса новорожденных детей и взрослых, мы всегда получим более высокие значения сигмы у взрослых.
Сравнение вариабельности признаков различной размерности может быть выполнено с помощью коэффициента вариации. Он выражает разнообразие в процентах от средней величины, что позволяет производить сравнение различных признаков. Коэффициент вариации в медицинской литературе обозначается знаком «С», а в математической «v» и вычисляемого по формуле:
.
Значения коэффициента вариации менее 10% свидетельствует о малом рассеянии, от 10 до 20% – о среднем, более 20% – о сильном рассеянии вариант вокруг средней арифметической.
Средняя арифметическая величина, как правило, вычисляется на основе данных выборочной совокупности. При повторных исследованиях под влиянием случайных явлений средняя арифметическая может изменяться. Это обусловлено тем, что исследуется, как правило, только часть возможных единиц наблюдения, то есть выборочная совокупность. Информация обо всех возможных единицах, представляющих изучаемое явление, может быть получена при изучении всей генеральной совокупности, что не всегда возможно. В то же время с целью обобщения данных эксперимента представляет интерес величина средней в генеральной совокупности. Поэтому для формулировки общего вывода об изучаемом явлении, результаты, полученные на основе выборочной совокупности, должны быть, перенесены на генеральную совокупность статистическими методами. Чтобы определить степень совпадения выборочного исследования и генеральной совокупности, необходимо оценить величину ошибки, которая неизбежно возникает при выборочном наблюдении. Такая ошибка называется «Ошибкой репрезентативности» или «Средней ошибкой средней арифметической». Она фактически является разностью между средними, полученными при выборочном статистическом наблюдении, и аналогичными величинами, которые были бы получены при сплошном исследовании того же объекта, т.е. при изучении генеральной совокупности. Поскольку выборочная средняя является случайной величиной, такой прогноз выполняется с приемлемым для исследователя уровнем вероятности. В медицинских исследованиях он составляет не менее 95%.
Ошибку репрезентативности нельзя смешивать с ошибками регистрации или ошибками внимания (описки, просчеты, опечатки и др.), которые должны быть сведены до минимума адекватной методикой и инструментами, применяемыми при проведении эксперимента.
Величина ошибки репрезентативности зависит как от объема выборки, так и от вариабельности признака. Чем больше число наблюдений, тем ближе выборка к генеральной совокупности и тем меньше ошибка. Чем более изменчив признак, тем больше величина статистической ошибки.
На практике для определения средней ошибки выборки в статистических исследованиях пользуются следующей формулой:
,
где: m — ошибка репрезентативности;
σ – среднее квадратическое отклонение;
n – число наблюдений в выборке.
Из формулы видно, что размер средней ошибки прямо пропорционален среднему квадратическому отклонению, т. е. вариабельности изучаемого признака, и обратно пропорционален корню квадратному из числа наблюдений.
Определение средней ошибки для относительных показателей производится по формуле:
,
где: Р – величина относительного показателя, выраженного в процентах, промилле и т.д.;
q – величина, обратная Р и выраженная как (1-Р), (100-Р), (1000-Р) и т. д., в зависимости от основания, на которое рассчитан показатель;
n – число наблюдений в выборочной совокупности.
Прогнозирование величины средней арифметической в генеральной совокупности выполняется с указанием двух значений – минимального и максимального. Эти крайние значения возможных отклонении, в пределах которых может колебаться искомая средняя величина генеральной совокупности, называются доверительными границами.
Постулатами теории вероятностей доказано, что при нормальном распределении признака с вероятностью 99,7%, крайние значения отклонений средней будут не больше величины утроенной ошибки репрезентативности (М ± 3m); в 95,5% – не больше величины удвоенной средней ошибки средней величины (М ± 2m ); в 68,3% – не больше величины одной средней ошибки (М ± 1m) (рис. 7).
P%

Рис. 7. Плотность вероятностей нормального распределения.
Отметим, что приведенное выше утверждение справедливо только для признака, который подчиняется нормальному закону распределения Гаусса.
Понятие о нормальном распределении признака.
Большинство экспериментальных исследований, в том числе и в области медицины, связано с измерениями, результаты которых могут принимать практически любые значения в заданном интервале, поэтому, как правило, описываются моделью непрерывных случайных величин. В связи с этим в большинстве статистических методов рассматриваются непрерывные распределения. Одним из таких распределений, имеющим основополагающую роль в математической статистике, является нормальное, или гауссово, распределение.
Это объясняется целым рядом причин.
1. Прежде всего, многие экспериментальные наблюдения можно успешно описать с помощью нормального распределения. Следует сразу же отметить, что не существует распределений эмпирических данных, которые были бы в точности нормальными, поскольку нормально распределенная случайная величина находится в пределах от  до , чего никогда не встречается на практике. Однако нормальное распределение очень часто хорошо подходит как приближение.
Проводятся ли измерения IQ, роста и других физиологических параметров - везде на результаты оказывает влияние очень большое число случайных факторов (естественные причины и ошибки измерения). Причем, как правило, действие каждого из этих факторов незначительно. Опыт показывает, что результаты именно в таких случаях будут распределены приближенно нормально.
2. Многие распределения, связанные со случайной выборкой, при увеличении объема последней переходят в нормальное.
3. Нормальное распределение хорошо подходит в качестве аппроксимации (приближенного описания) других непрерывных распределений (например асимметричных).
4. Нормальное распределение обладает рядом благоприятных математических свойств, во многом обеспечивших его широкое применение в статистике.
В то же время следует отметить, что в медицинских данных встречается много экспериментальных распределений, описание которых моделью нормального распределения невозможно. Для этого в статистке разработаны методы, которые принято называть «Непараметрическими».
Выбор статистического метода, который подходит для обработки данных конкретного эксперимента, должен производиться в зависимости от принадлежности полученных данных к нормальному закону распределения. Проверка гипотезы на подчинение признака нормальному закону распределения выполняется с помощью гистограммы распределения частот (графика), а также ряда статистических критериев. Среди них:
- Критерий асимметрии ,
- Критерий проверки на эксцесс ,
- Критерий Шапиро – Уилкса W;
- Тест Колмогорова – Смирнова.
Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Чтобы уверенно судить о соответствии распределения параметра нормальному закону, необходимо достаточно большое число единиц наблюдения (не менее 50 значений).
Пример построения вариационных рядов, вычисления средних величин, создания графика распределения признака и проверки на нормальность распределения.
Условие задачи: Для выявления общей характеристики частоты сердечных сокращений (ЧСС) детей 1-го года жизни в отделении №1 больницы выполнено 16 измерений пульса у детей:
Иванов Василий – 120 уд.в мин.
Сидоров Костя – 130 – “ -
. . . - 115
. . . - 120
. . . - 120
. . . - 125
. . . - 110
. . . - 125
. . . - 115
. . . - 120
. . . - 125
. . . - 135
. . . - 115
. . . - 130
. . . - 125
. . . - 120
Задание: а) составить простой вариационный ряд;
б) вычислить простую среднюю арифметическую вариационного ряда;
в) определить степень рассеяния вариант в вариационном ряду;
г) выполнить группировку и упорядочение (ранжирование) ряда по возрастанию и построить график распределения признака;
д) определить медиану;
е) определить моду и среднюю взвешенную величину;
ж) определить статистические критерии нормальности распределения;
з) определить доверительные границы колебания средней арифметической в генеральной совокупности.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 3 этого файла решите задачу, сохраните и покажите файл преподавателю.
а) построение простого вариационного ряда частоты пульса детей, поступивших в отделение №1 больницы, Простой вариационный ряд представляет собой статистическую таблицу, в которой подлежащим является изучаемый признак, обозначаемый знаком V (варианта). Полученные в эксперименте данных вносят в таблицу в порядке их записи в журнал регистрации (условия задачи). Затем вычисляют сумму вариант, среднюю арифметическую, отклонения (d) каждой варианты от средней величины и квадрат отклонения (d2) соответствующими формулами (таблица 15).
Таблица 15
Простой неранжированный вариационный ряд
  V d=V-M d2
1 Иванов Василий 120 -1,88 3,52
2 Сидоров Костя 130 8,13 66,02
3 … 115 -6,88 47,27
4 … 120 -1,88 3,52
5 … 120 -1,88 3,52
6 … 125 3,13 9,77
7 … 110 -11,88 141,02
8 … 125 3,13 9,77
9 … 115 -6,88 47,27
10 … 120 -1,88 3,52
11 … 125 3,13 9,77
12 … 135 13,13 172,27
13 … 115 -6,88 47,27
14 … 130 8,13 66,02
15 … 125 3,13 9,77
16 … 120 -1,88 3,52
   1950 0,00 643,75
n=16 б) вычисление средней арифметической (M) в простом вариационном ряду выполняется по формуле:
M = Vn = 1950/16 = 121,9 уд/мин.
В программе Excel для вычисления средней арифметической может применяться функция =СРЗНАЧ(Диапазон ячеек). Использование этой функции даст такой же результат.
в) вычисление среднего квадратического отклонения (σ - Сигма), ошибки средней (m, ошибка репрезентативности или стандартная ошибка) и коэффициента вариации (С):
σ= d2n = КОРЕНЬ(643,75 / 16-1) = 6,551.
В программе Excel для вычисления среднего квадратического отклонения применяться функция =СТАНДОТКЛОН(Диапазон данных).

6,551 / КОРЕНЬ(16-1) = 1,64
C= σ/M *100 = 6,551/121,9 * 100 = 5,4% - малое рассеяние (< 10%).
Вариабельность признака (рассеяние) оценивается как малая при С<10%, средняя при 10%< С < 20%, высокая если С >20%
Вывод: средняя частота пульса пациентов изучаемой группы составляет 121,9 ударов в минуту, вариабельность низкая.
г) построение ранжированного ряда (таблица 16) выполняется на основе данных простого ряда с помощью команды упорядочения по столбцу V.
Таблица 16
Ранжированный вариационный ряд
  V d=V-M d2
1 110 -11,88 141,02
2 115 -6,88 47,27
3 115 -6,88 47,27
4 115 -6,88 47,27
5 Иванов Василий 120 -1,88 3,52
6 120 -1,88 3,52
7 120 -1,88 3,52
8 120 -1,88 3,52
9 120 -1,88 3,52
10 125 3,13 9,77
11 125 3,13 9,77
12 125 3,13 9,77
13 125 3,13 9,77
14 Сидоров Костя 130 8,13 66,02
15 130 8,13 66,02
16 135 13,13 172,27
Сумма = 1950 0 643,75
Средняя арифм. =СРЗНАЧ(Диапазон ячеек) 121,875    
Ме= варианта, занимающая срединное положение, если ряд состоит из четного числа вариант, медианой является полусумма двух центральных вариант = 120уд/мин.
В программе Excel для определения медианы применяться функция =МЕДИАНА(Диапазон ячеек).
д) построение сгруппированного ранжированного ряда (таблица 17) и графика частот (рис. 8).

3122930106045Таблица 17
Сгруппированный ранжированный
вариационный ряд
  V p 1 110 1 2 115 3 3 120 5 4 125 4 5 130 2 6 135 1  735 16 Рис. 8. График распределения признака.
е) вычисление моды и средней взвешенной:
Мо= наиболее часто повторяющаяся варианта = 120 уд/мин (встречается 5 раз).
В программе Excel для определения моды применяться функция =МОДА(Диапазон данных).

В сгруппированном вариационном ряду средняя арифметическая вычисляется по модифицированной формуле и называется «Средняя взвешенная»:

Независимо от способа построения вариационного ряда и вычисления средней арифметической, для одинаковых данных значения их средней величины должны совпадать.
ж) определение вида распределения или оценка нормальности. Статистические критерии нормальности распределения определяются с помощью модуля «Описательная статистика», который может быть вызван командой «Данные» - «Анализ данных» - «Описательная статистика».
Если указанных команд нет в ленте «Данные», необходимо выполнить установку модуля «Пакет анализа», для этого требуется открыть разделы основного меню кнопкой «Office», выбрать «Параметры Excel» -> «Надстройки» -> «Перейти» -> «Пакет анализа» и «Пакет анализа - VBA» -> «ОК». Модуль анализа данных в программе Excel, как правило, не подключается при типовой установке пакета программ Microsoft Office. В связи с этим требуется однократно выполнить дополнительную настройку программы.
Результат вычислений, выполненный модулем «Описательная статистика», показан в таблице 18.
Таблица 18
Простой неранжированный
вариационный ряд   V d=V-M d2 Результат выполнения команды «Анализ данных» -> «Описательная статистика».
1 Иванов Василий 120 -1,88 3,52 2 Сидоров Костя 130 8,13 66,02 Столбец1
3 … 115 -6,88 47,27 Среднее 121,875
4 … 120 -1,88 3,52 Стандартная ошибка 1,63777
5 … 120 -1,88 3,52 Медиана 120
6 … 125 3,13 9,77 Мода 120
7 … 110 -11,88 141,02 Стандартное отклонение 6,551081
8 … 125 3,13 9,77 Дисперсия выборки 42,91667
9 … 115 -6,88 47,27 Эксцесс -0,16979
10 … 120 -1,88 3,52 Асимметричность 0,209598
11 … 125 3,13 9,77 Интервал 25
12 … 135 13,13 172,27 Минимум 110
13 … 115 -6,88 47,27 Максимум 135
14 … 130 8,13 66,02 Сумма 1950
15 … 125 3,13 9,77 Счет 16
16 … 120 -1,88 3,52 Наибольший(1) 135
   1950 0,00 643,75 Наименьший(1) 110
n=16 Уровень надежности(95,0%) 3,490827
Эксцесс = -0,17. Распределение близко к нормальному. Для нормального распределения эксцесс = 0.
Асимметричность = 0,2. Распределение близко к симметричному. Для нормального распределения асимметричность = 0.
Модуль «Описательная статистика» программы Excel вычисляет множество параметров вариационного ряда. При этом ошибка средней арифметической (m) обозначается «Стандартная ошибка», а среднее квадратическое отклонение - Сигма (σ) - «Стандартное отклонение».
ж) с вероятностью P>95% доверительные границы колебания средней арифметической в генеральной совокупности = М ± 2m = 121,9 ± 2*1,64 =
121,9 ± 3,28уд/мин.
Вывод: Средняя частота пульса пациентов 1-го отделения с вероятностью 95,5% составляет от 118,6 до 125,2 ударов в минуту.
Пример сравнения рассеяния вариационных рядов.
Условие задачи: Для выявления общей характеристики частоты сердечных сокращений (ЧСС) детей 1-го года жизни в отделении №2 больницы выполнено 17 измерений пульса у детей: 1. Казаков Саша – 130 уд.в мин; 2. Литвинов Сережа – 135 уд.в мин.; 3…– 125; 4… – 115; 5 …– 125; 6 … – 125; 7 … – 120; 8 … – 125; 9 … – 130; 10 … – 120; 11 … – 140; 12 … – 145; 13 … – 115; 14 …– 130; 15 … – 125; 16 … – 120; 17 … – 125.
Задание: а) создать простой и сгруппированный, ранжированный вариационный ряды, определить средние величины вариационного ряда;
б) построить график распределения признака и проверить его на нормальность;
в) определить параметры вариабельности признака: амплитуду, размах, среднеквадратическое отклонение, коэффициент вариации и ошибку репрезентативности;
г)сравнить характеристики рассеяния вариационных рядов, используемых в  примерах данного раздела.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 3 этого файла ввести данные в соответствии с таблицей 19, выполнить вычисления с помощью формул и метода «Описательная статистика». Покажите результат выполнения задания преподавателю.
а) построение вариационных рядов (таблицы 19, 20) и вычисление их основных характеристик.
Таблица 19
Простой неранжированный вариационный ряд и его характеристики
V d=V-M d2 Результат выполнения команды «Анализ данных» -> «Описательная статистика».
1 Казаков 130 -3,82 14,62 2 Литвинов 135 -8,82 77,85 Столбец1  
3 125 1,18 1,38 4 115 11,18 124,91 Среднее 126,1764706
5 125 1,18 1,38 Стандартная ошибка 2,035051839
6 125 1,18 1,38 Медиана 125
7 120 6,18 38,15 Мода 125
8 125 1,18 1,38 Стандартное отклонение 8,390733685
9 115 11,18 124,91 Дисперсия выборки 70,40441176
10 130 -3,82 14,62 Эксцесс 0,3573165
11 140 -13,82 191,09 Асимметричность 0,659063476
12 145 -18,82 354,33 Интервал 30
13 115 11,18 124,91 Минимум 115
14 130 -3,82 14,62 Максимум 145
15 125 1,18 1,38 Сумма 2145
16 120 6,18 38,15 Счет 17
17 125 1,18 1,38 Наибольший(1) 145
  0,00 1126,47 Наименьший(1) 115
n=17 Уровень надежности(95,0%) 4,314116203
M2= 126,2 m2= 2,04 Сигма (σ)= 8,390734 C=6,6% Вывод: Средняя частота пульса пациентов 2-го отделения с вероятностью 95,5% составляет 126,2±2,04 ударов в минуту, вариабельность малая.
321945065405Таблица 20
Сгруппированный, ранжированный
вариационный ряд
V p 1 115 3 2 120 2 3 125 6 4 130 3 5 135 1 6 140 1 7 145 1   910 17 n=17 Рис. 9. График распределения признака.
б)   Ме= варианта, занимающая срединное положение =МЕДИАНА(Диапазон данных) = 125 уд/мин.
Мо= наиболее часто повторяющаяся варианта
=МОДА(Диапазон данных) = 125 уд/мин.
в) амплитуда (интервал) = 30 уд/мин, размах от 115 до 145 уд/мин и среднеквадратическое отклонение = 8,4 уд/мин, коэффициент вариации = 6,6%, ошибка репрезентативности = 2,04 уд/мин.
Вывод: вариабельность пульса пациентов 1-го отделения (С=5,4%) ниже, чем пациентов 2-го отделения больницы (С=6,6%) и в обоих случаях малая (<10%).
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте НОВЫЙ лист, переименуйте его, обозначив названием «Сред-е_вел», решите требуемый вариант задания, сохраните, запретите изменения в файле паролем и покажите файл преподавателю.
Вариант 1
а) В районе N, где расположена тепловая электростанция, в одной из точек жилого поселка было взято 100 проб атмосферного воздуха. Количество пыли в пробах воздуха измерялось следующими цифрами: 0,09 мг/м3 в 2-х пробах, 0,08 мг/м3 – 2 раза, 0,15 мг/м3 – 16 раз, 0,12мг/м3 – 14раз, 0,14мг/м3 – 30 раз, 0,16 мг/м3 – 4 раза, 0,13 мг/м3 – 16 раз, 0,11 мг/м3 – 9 раз, 0,10 мг/м3 – 5 раз, 0,17 мг/м3 – 2 раза. Составьте ранжированный вариационный ряд. Определите среднесуточную концентрацию пыли и ее вариабельность.
б) Сравните характер разнообразия массы тела у новорожденных, детей первого года жизни и семилетних, если известны следующие параметры:
Возраст Средняя масса (М), кг σ, кг
Новорожденные 3,4 ±0,5
1 год 10,5 ± 0,8
7 лет 22,9 ±2,7
Вариант 2
а) В N-ской районной больнице в истекшем календарном году число дней занятости койки было представлено следующем образом: 4 койки – 285 дней, 4 – 290, 8 – 295, 8 – 300, 16 – 315, 20 – 320, 24 – 325, 40 – 330, 50 – 335, 24 – 340, 20 – 347, 10 – 350,8 – 355,4 – 360. Составьте ранжированный вариационный ряд. Определите среднегодовую занятость койки и степень вариабельности признака.
б) Сравните характер разнообразия лабораторных анализов с различной размерностью:
Наименование теста Средний показатель σ
Общий белок крови, мг% 6,8 ±0,4
СОЭ, мм/ч 9 ± 2
Лейкоциты 8000 ±800
Вариант 3
а) При стоматологическом обследовании группы школьников 4-х классов сельского района были получены следующие результаты: 2 человека имели по 5 кариозных зубов, 28 – по 1, 8 – по 4,1 – 8, 20 – по 3, 16 – по 2 и 6 человек не имели пораженных кариесом зубов. Составьте ранжированный вариационный ряд. Определите интенсивность поражения кариесом школьников района и степень вариабельности признака.
б) Сравните характер разнообразия антропометрических данных у мальчиков 7-и летнего возраста:
Показатель М σ
Рост, см 123,4 ±4,9
Масса тела, кг 24,2 ± 3,1
Окружность грудной клетки, см 60,1 ±2,5
Вариант 4
а) Перед сдачей экзамена у студентов определялась частота пульса. Были получены следующие данные: у 2 студентов — 76 ударов в минуту, у 3 – 80, у 4 – 108, у 2 – 116, у 20 – 88, у 6 – 98, у 17 – 86, у 11 – 92. Составьте ранжированный вариационный ряд. Определите среднюю частоту пульса у студентов перед экзаменом, степень вариабельности признака и доверительные границы колебаний средней.
б) Сравните характер разнообразия антропометрических данных у девушек 17-и летнего возраста:
Показатель М σ
Рост, см 161,2 ±5,1
Масса тела, кг 55,8 ±7,2
Жизненная емкость легких, см3 3400 ±250
Вариант 5
а) Исследовалась длительность лечения больных пневмонией в стационаре центральной районной больницы N-ского района. Были получены следующие результаты: 25 дней лечилось 2 больных, 26 дней – 1 больной, 11 дней – 1, 12 дней – 1, 23 дня – 3, 13 дней  1, 21 день – 3, 24 дня – 1, 22 дня – 3, 14 дней – 2, 20 дней – 5, 15 дней – 2, 16 дней – 3, 17 дней – 4, 19 дней – 8, 18 дней – 7. Составьте ранжированный сгруппированный вариационный ряд. Рассчитайте среднюю длительность лечения пневмонии и степень вариабельности признака.
б) Сравните характер разнообразия антропометрических данных у 12-летних мальчиков:
Показатель М, см σ
Рост 142,0 ±8,5
Окружность грудной клетки 66,0 ±4,0
Окружность головы 50,0 ±2,0
Вариант 6
а) Исследовалась длина тела новорожденных девочек по данным родильного дома. Были получены следующие данные: у 8 девочек рост составил 48 см, у 6 – 51, у 7 – 53, у 1 – 49, у 9 – 52, у 8 – 50, у 1 – 47, у 2 – 46, у 2 – 54, у 1 – 55, у 1 – 56. Составьте ранжированный вариационный ряд, определите среднюю длину тела новорожденных девочек и степень вариабельности признака.
б) Сравните характер разнообразия антропометрических данных у 12-летних девочек:
Показатель М σ
Рост, см 140 ±9,5
Масса тела, кг 40 ± 6
Жизненная емкость легких, см3 2300 ±460
Проверка статистических гипотез, критерий Стьюдента
В научно-исследовательской практике часто бывает необходимо сопоставить средние арифметические, например, при сравнении результатов в контрольной и экспериментальной группах, при оценке показателей здоровья населения в различных местностях за несколько лет и т. д.
Методологической основой любого исследования является формулировка рабочей гипотезы. При этом основной целью исследования является получение данных, на основании которых выдвинутую еще до начала исследования, как говорят априори, гипотезу можно было бы принять, т.е признать истиной, либо отвергнуть - признать ложной.
Выдвинутую гипотезу называют основной или нулевой (H0). Гипотезу, которая противоречит нулевой и является ее логическим отрицанием, называют конкурирующей или альтернативной (H1).
Гипотезы H0 и Н1 предоставляют выбор только одного из двух вариантов. Например, если нулевая гипотеза предполагает, что среднее арифметическое М = 15, то логическим отрицанием будет М ≠ 15. Коротко это записывается так: H0: М=15; Н1: М≠15. В медико-биологических исследованиях при сравнении регистрируемых признаков в качестве нулевой гипотезы принимают гипотезу об отсутствии различий.
Например, при оценке токсичности какого-либо вещества обычно берутся две группы лабораторных животных. Подбираются животные одинакового возраста, пола, одинакового содержания и т. п. Таким образом, делается все, чтобы эти группы животных представляли собой единую, как можно более однородную статистическую совокупность, с тем, чтобы максимально снизить исходную вариабельность анализируемых данных. Оптимальным с этой точки зрения считается ситуация, когда отличия сравниваемых групп заключаются только в том, что одна из групп (опытная) подвергается воздействию токсического вещества, а другая (контрольная) - нет. В любом случае, произошли ли после воздействия токсического вещества изменения в опытной группе или нет, различия средних показателей в обеих группах обязательно будут. Вопрос состоит в том, являются ли эти различия только следствием выборочного исследования, или разница возникла из-за того, что произошли существенные сдвиги физиологических функций животных опытной группы, которые будут обнаруживаться всегда, т.е. в генеральной совокупности. Значит, проверяется вопрос: принадлежат ли животные опытной и контрольной групп к той же самой генеральной совокупности или опытная группа принадлежит к другой генеральной совокупности (совокупности с измененными физиологическими параметрами)?
Методы оценки достоверности различий средних величин позволяют установить, насколько выявленные различия существенны (носят ли они закономерный характер или являются результатом действия случайных причин). Эту оценку можно выполнить только с определенной степенью вероятности, когда после установленного уровня вероятности допущение о наличии различий могут считаться закономерными или, наоборот, отвергаются.
Выдвинутая гипотеза может оказаться правильной или неправильной. При ее статистической проверке может быть отвергнута правильная гипотеза. Вероятность совершить такую ошибку называют уровнем значимости. Этот параметр принято обозначать через α или p. В биологии и медицине уровень значимости, как правило, принимают не выше 0,05. Это означает, что в 5 случаях из 100 (в 5%) мы рискуем отвергнуть правильную гипотезу. Соответственно, вероятность принятия такой гипотезы (P) равняется (P = 1  p) 0,95 (или 95%.)
Таким образом, статистическая значимость выборочных характеристик представляет собой меру уверенности в их «истинности». Уровень значимости находится в убывающей зависимости от надежности результата. Более высокая статистическая значимость соответствует более низкому уровню доверия к найденной в выборке средней величине. Именно уровень значимости представляет собой вероятность ошибки, связанной с распространением наблюдаемого результата на всю генеральную совокупность.
Выбор порога уровня значимости, выше которого результаты отвергаются как статистически не подтвержденные, во многом произвольный. Как правило, окончательное решение обычно зависит от традиций и накопленного практического опыта в данной области исследований. Верхняя граница p<0,05 статистической значимости содержит довольно большую вероятность ошибки (5%). Поэтому в тех случаях, когда требуется особая уверенность в достоверности полученных результатов, принимается значимость p<0,01 или даже p<0,001.
В практике медико-биологических исследований наиболее часто используются следующие значения показателей значимости: 0,1; 0,05; 0,01; 0,001. Традиционная интерпретация уровней значимости, принятая в этих исследованиях, представлена в таблице 21.
Таблица 21
Интерпретация уровня значимости (p).
Величина уровня
значимости (p) Интерпретация
≥0,1 Данные согласуются с нулевой гипотезой (H0), различия не подтверждены
≥0,05 Есть сомнения в истинности как нулевой (H0), так и альтернативной гипотез (H1)
<0,05 Нулевая гипотеза (H0) может быть отвергнута.
≤0,01 Нулевая гипотеза (H0) может быть отвергнута. Сильный аргумент
≤0,001 Нулевая гипотеза (H0) наверняка не подтверждается. Очень сильный аргумент
Приблизительно о наличии достоверных различий между средними величинами можно судить по их доверительным границам. Если они имеют пересечение верхней границы одного из интервалов и нижней границы 2-го, можно предположить, что полученная разница средних является случайной и может не повториться в следующих экспериментах с вероятностью, которая использовалась при вычислении этих границ (как правило, 95%).
Если изучаемый признак подчиняется закону нормального распределения Гауса, может использоваться расчет критерия достоверности Стьюдента (t) (коэффициента достоверности). Величина этого коэффициента определяется модулем отношения разности сравниваемых средних величин к ошибке их разности. Ошибка разности равна корню квадратному из суммы квадратов средних ошибок сравниваемых величин: .
Таким образом, коэффициент достоверности (t) определяется по формуле:

,
где:M1 – средняя арифметическая 1-го вариационного ряда,
M2 – средняя арифметическая 2-го вариационного ряда,
m1 – ошибка репрезентативности 1-го вариационного ряда,
m2 – ошибка репрезентативности 2-го вариационного ряда.
Для сравнения относительных величин (показателей) применяется модифицированная формула:

где:P1 – относительная величина (показатель) 1-й группы;
P2 – относительная величина (показатель) 2-й группы;
m1 – ошибка репрезентативности 1-го показателя;
m2 – ошибка репрезентативности 2-го показателя.
При этом ошибка репрезентативности относительной величины может быть вычислена по формуле:
m= Pqn-1 ,
где: Р – величина относительного показателя;
q – величина, обратная Р и вычисленная как (1-Р), (100-Р), (100-Р) и т. д., в зависимости от основания, на которое рассчитан показатель;
n – число наблюдений.
В медико-биологических исследованиях, где число наблюдений больше 30, допускается использовать сравнение вычисленного значения t с критическим значением 2. Если t-критерий больше 2, тогда выявленные различия считаются закономерными (не случайными, достоверными), т.е. они статистически подтверждены с вероятностью более 95%. Если значение критерия меньше 2, то разница не доказана и носит случайный характер, статистически не подтверждается (вероятность менее 95%). При меньшем числе наблюдений значение критического уровня для сравнения с расчетным значением t-критерия необходимо искать в книгах с таблицами Стьюдента, или вычислять в статистической компьютерной программе.
Пример определения достоверности различий между средними величинами по критерию Стьюдента.
Условие задачи: сравнение средней частоты сердечных сокращений (ЧСС) детей 1-го года жизни в отделениях №1, №2 (см. раздел III).
Задание: а) приблизительно оценить достоверность различий между средним пульсом пациентов 1-го и 2-го отделений с помощью доверительных границ;
б) вычислить критерий Стьюдента для сравнения ЧСС детей в этих отделениях, сделать вывод о достоверности различий средних величин.
Решение: Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 4 этого файла выполните следующие вычисления.
а) доверительные границы колебаний средних в каждом отделении при уровне значимости p<0,05, т.е. с вероятностью прогноза более 95%, составляет M±2m, где M – средняя арифметическая, m – ошибка репрезентативности.
По условию задачи в 1-м отделении M1=121,9, m1=1,64. Т.е. 121,9 ± 2*1,64 = 121,9 ± 3,28 уд/мин. В ячейке таблицы Excel вводятся формулы =121,9+3,28 и =121,9-3,28. Получаем доверительные границы колебаний средней частоты пульса в 1-м отделении от =121,9-3,28 118,62 до =121,9+3,28 125,18 уд/мин.
Аналогично определяем доверительные границы средней ЧСС во 2-м отделении. По условию задачи M2=126,2, m2=2,04. Т.е. 126,29 ± 2 * 2,04 = 126,2 ± 4,08 уд/мин. Формулы вычисления =126,29+4,08 и =126,29-4,08. Получаем доверительные границы колебаний средней частоты пульса в 2-м отделении от =126,29-4,08 122,21 до =126,29+4,08 130,37 уд/мин.
Величина доверительных границ частоты пульса в 2-х отделениях больницы позволяют утверждать, что при повторных экспериментах в 95% случаях будут получены средние величины, укладывающиеся в пределах вычисленных значений границ в 1-м отделении от =121,9-3,28 118,62 до =121,9+3,28 125,18 уд/мин, во 2- от =126,29-4,08 122,21 до =126,29+4,08 130,37 уд/мин. Поскольку доверительные границы этих отделений имеют пересечение верхней границы 1-го и нижней границы 2-го отделений, можно предположить, что полученная разница средних является случайной и может не повториться в следующих экспериментах.
б) оценка достоверности различий средней частоты пульса детей, поступающих в 1е и 2-е отделение больницы по критерию Стьюдента.
Формула вычисления критерия Стьюдента:,
где:M1 – средняя арифметическая 1-го вариационного ряда - 121,8,
M2 – средняя арифметическая 2-го вариационного ряда - 126,2,
m1 – ошибка репрезентативности 1-го вариационного ряда - 1,64,
m2 – ошибка репрезентативности 2-го вариационного ряда - 2,04.
В программе Excel эта формула принимает вид:
=(121,8 – 126,2)/КОРЕНЬ(1,64^2+2,04^2) = -1,64667.
Модуль числа может быть получен с помощью функции =ABS(Число) = ABS(-1,64667) = 1,64667. Округление числа выполняется функцией =ОКРУГЛ(Число; Разрядность) = ОКРУГЛ(1,64667;2) = 1,65)
Вычисленное значение t-критерия (-1,65) оценивается по модулю числа (1,65) в сравнении с критическим значением, которое при числе наблюдений n>30 составляет 2. При числе наблюдений n<30 критическое значение находят по таблицам Стьюдента при степенях свободы df = n1 + n2 – 2 = 16 + 17 – 2 = 31. В программе Excel критическое значение критерия Стьюдента вычисляется функцией = СТЬЮДРАСПОБР(Уровень значимости p; Степени свободы df) =
= СТЬЮДРАСПОБР(0,05;(16+17-2)) = 2,04.
Если t>2,04 – статистическая гипотеза о равенстве средних с уровнем значимости p<0,05 опровергается, следовательно, истинной будет являться гипотеза об их различии. Если t<2,04 – гипотеза равенства средних подтверждается.
В нашем примере получаем: t = 1,65 < 2,04.
Если в сравниваемых вариационных рядах равное число наблюдений (n1=n2), программа Excel позволяет выполнить вычисления при помощи функции =ТТЕСТ(массив1;массив2;2;3), где:
Массив1  - первый вариационный ряд (множество данных);
Массив2  - второй вариационный ряд (множество данных).
Функция ТТЕСТ возвращает уровень значимости основной гипотезы при сравнении 2-х числовых массивов, вычисленный по критерию Стьюдента. Он выражает вероятность того, что две выборки взяты из генеральных совокупностей, которые имеют одно и то же среднее.
В нашем случае можно выполнить вычисление этой функцией на основе данных 16-и человек в каждой группе. Получаем опытный уровень значимости 0,12. Это означает, что выдвинутая гипотеза о равенстве средних в генеральной совокупности подтверждается с вероятностью 12%. Поскольку значение опытного уровня значимости больше принятого критического уровня (p=0,05 или 5%), то альтернативная гипотеза о различии средних величин не может быть принята, и значит, различия не подтверждены. В такой ситуации можно провести дополнительное исследование с теми же условиями опыта, но с увеличенным числом единиц наблюдения, что на более качественном уровне подтвердит или опровергнет рабочую гипотезу.
Вывод: Различия средней частоты пульса пациентов 1-го и 2-го отделений НЕдостоверны. Значит, более высокая средняя частота пульса во 2-м отделении больницы (126,2 уд/мин) по сравнению с ЧСС в 1-м отделении (121,9 уд/мин) не подтверждается при уровне значимости p=0,05.
Пример сравнения относительных величин и определения достоверности различий между ними по критерию Стьюдента.
Условие задачи: группа животных в количестве 120 особей получала препарат А. Из них у 98 животных произошло восстановление функций организма. Контрольная группа животных в составе 50 особей содержалась в аналогичных условиях без применения этого препарата, из них восстановление наблюдалось у 15 особей.
Задание: а) вычислить показатели частоты восстановления функций организма животных (интенсивные относительные величины) в 1-ой и 2-ой группах животных;
б) вычислить ошибки репрезентативности относительных величин;
в) определить доверительные границы колебаний относительной величины в каждой группе;
г) вычислить критерий Стьюдента для оценки достоверности различий относительных величин в изучаемых группах;
д) сделать вывод о проявления эффекта препарата в генеральной совокупности с вероятностью более 95%.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 4 этого файла выполните следующие вычисления:
а) расчет относительных величин частоты восстановления функций организма животных в 2-х группах:   ,
P1= 98/120*100 = 81,67% ;
P2= 15/98*100 = 15,31% .
б) вычисление ошибок репрезентативности относительных величин: m= Pqn-1 ,

m1= 3,53%;

m2= 3,64%.
в) определение доверительных границ относительных величин в каждой группе:
при уровне значимости p<0,05, т.е. с вероятностью прогноза более 95%, границы вычисляют по формуле P±2m, где P – относительная величина, m – ошибка репрезентативности.
По условию задачи в 1-й группе животных P1=81,67, m1=15,31. То есть 81,67 ± 2*3,53 = 81,67 ± 7,06%. Получаем доверительные границы колебаний относительных величин в 1-й группе от =81,67-7,06 74,61% до =81,67+7,06 88,73%, во 2-й группе - от =15,31-7,28 8,03% до =15,31+7,28 22,59%. Поскольку доверительные границы не пересекаются, можно предположить, что полученная разница относительных величин не случайна и будет обнаруживаться в следующих экспериментах.
г) вычисление критерия Стьюдента для относительных величин:
t = ABS((81,67 - 15,31) / КОРЕНЬ(3,53^2 + 3,64^2)) = 13,088901 > 2
Вывод: восстановление функций организма животных на фоне действия препарата А проявляется в 81%. Этот показатель достоверно выше, чем в контрольной группе животных, не получавших препарат, при уровне значимости p<0,05.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте НОВЫЙ лист, переименуйте его, обозначив названием «Крит-й_Стьюдента», решите требуемый вариант задания, сохраните, запретите изменения в файле паролем и покажите файл преподавателю.
Вариант 1
а) В районе N, где расположена тепловая электростанция, в одной из точек жилого поселка было взято 125 проб атмосферного воздуха, в результате чего установлено, что средняя концентрация пыли составляла 0,26мг/м3, σ1 = 0,08мг/м3, m1 = ±0,007мг/м3. После установки золоуловителя количество пыли в пробах воздуха измерялось следующими цифрами: 0,09мг/м3 в 2-х пробах, 0,08мг/м3 – 2 раза, 0,15мг/м3 – 16 раз, 0,12мг/м3 – 14 раз, 0,14мг/м3 – 30 раз, 0,16 мг/м3 – 4 раза, 0,13 мг/м3 – 16 раз, 0,11мг/м3 – 9 раз, 0,10мг/м3 – 5 раз, 0,17мг/м3 – 2 раза. Составьте вариационный ряд. Определите, достоверно ли уменьшение среднесуточной концентрации пыли после введения в действие золоуловителя?
б) Группа больных в количестве 130 человек применяла при лечении лекарственный препарат Z в течение 5 дней. У 106 человек наступило полное выздоровление. Определите частоту выздоровления пациентов на 100 больных и доверительные границы с вероятностью безошибочного прогноза 95%, при которых может наступать выздоровление. Оцените достоверность отличия этого показателя от аналогичного в контрольной группе больных, если известно, что он составил Р = 58,3%, m = ±0,63%.
Вариант 2
а) В N-ской районной больнице в истекшем календарном году число дней занятости койки было представлено следующем образом: 4 койки – 285 дней, 4 койки – 290 дней, 8 коек– 295 дней, 8 коек – 300 дней, 16 коек – 315 дней, 20 коек – 320 дней, 24 койки – 325 дней, 40 коек – 330 дней, 50 коек – 335 дней, 24 койки – 340 дней, 20 коек – 347 дней, 10 коек – 350 дней, 8 коек – 355 дней, 4 койки – 360 дней. Составьте вариационный ряд. Определите среднегодовую занятость койки. Достоверно ли отличается показатель среднегодовой занятости койки в больнице N от аналогичного показателя больницы соседнего района, если известно, что он составлял 341 день (m = ± 3,5дня)?
б) При обследовании 280 учащихся 3-х классов пяти школ района К обнаружено, что у 64 из них наблюдается нарушение осанки. Определите распространенность этих нарушений на 100 учеников и доверительные границы частоты нарушения осанки у школьников 3-х классов остальных школ района К с вероятностью безошибочного прогноза 95%. Оцените достоверность отличия этого показателя от аналогичного в соседнем районе, если известно, что он составил Р = 35,5%, m = ±0,42%.
Вариант 3
а) При обследовании группы школьников 4-х классов сельского района А было установлено, что в среднем на одного человека приходится 2,98 кариозных зуба (m = ±0,26). При обследовании аналогичной группы школьников в районе Б были получены следующие результаты: 2 человека имели по 5 кариозных зубов, 28 – по 1, 8 – по 4, 1 – 8, 20 – по 3, 16 – по 2 и 6 человек не имели пораженных кариесом зубов. Составьте вариационный ряд. Определите среднюю интенсивность поражения кариесом школьников района Б и установите, достоверно ли она отличается от такого же показателя в районе А.
б) При выборочном обследовании 220 рабочих одного из промышленных предприятий у 47 из них были выявлены гастроэнтерологические заболевания. Определите частоту встречаемости этих заболеваний на 100 работников и доверительные границы возможной частоты гастроэнтерологических заболеваний среди всех работающих в аналогичных условиях с уровнем вероятности 95%. Оцените достоверность отличия этого показателя от аналогичного показателя на другом предприятии, если известно, что он составил Р = 12,5%, m= ±0,25%.
Вариант 4
а) Перед сдачей экзамена у студентов определялась частота пульса. Были получены следующие данные: у 2 студентов – 76 ударов в минуту, у 3 студентов – 80, у 4 студентов – 108, у 2 студентов – 116, у 20 студентов – 88, у 6 студентов – 98, у 17 студентов – 86, у 11 студентов – 92. Составьте вариационный ряд. Определите среднюю частоту пульса у студентов перед экзаменом. Достоверно ли отличается показатель частоты пульса перед экзаменом от частоты пульса у этих же студентов после экзамена, если известно, что она составляла 72,4уд/мин (m = ±3,0уд/мин)?
б) Было осмотрено 185 учеников 5-х классов. У 26 из них обнаружена миопия. Определите распространенность миопии школьников 5-х классов на 100 учащихся и доверительные границы возможной частоты близорукости у школьников данного района с уровнем вероятности 95%. Оцените достоверность отличия распространенности миопии школьников района от аналогичного показателя в другом районе, если известно, что он составил Р = 25,5%, m = ±0,31%.
Вариант 5
а) Исследовалась длительность лечения больных пневмонией в стационаре центральной районной больницы N-ского района. Были получены следующие результаты: 25 дней лечилось 2 больных, 26 дней – 1, 11 дней – 1, 12 дней – 1, 23 дня – 3, 13 дней – 1, 21 день – 3, 24 дня – 1, 22 дня – 3, 14 дней – 2, 20 дней – 5, 15 дней – 2, 16 дней – 3, 17 дней – 4, 19 дней – 8, 18 дней – 7. Составьте ранжированный вариационный ряд. Рассчитайте среднюю длительность лечения пневмонии. Достоверно ли она отличается от аналогичного показателя соседнего района, если известно, что она составила 23 дня (m = ±1,3дня)?
б) Исследовано 110 больных абсцессом легкого, у 36 из них обнаружена дистрофия пародонта. Определите распространенность этой патологии на 100 человек, доверительные границы возможной частоты дистрофии пародонта при абсцессе легкого с уровнем вероятности 95%. Оцените достоверность отличия распространенности этого заболевания от аналогичного показателя в контрольной группе пациентов, если известно, что он составил Р=1,8%, m = ±0,07%.
Вариант 6
а) Исследовалась длина тела новорожденных девочек по данным родильного дома. Были получены следующие данные: у 8 девочек рост составил 48см, у 6 девочек – 51см, у 7 девочек – 53см, у 1 девочки – 49см, у 9 девочек – 52см, у 8 девочек – 50см, у 1 девочки – 47см, у 2 девочек – 46см, у 2 девочек – 54см, у 1 девочки – 55см, у 1 девочки – 56см. Составьте ранжированный сгруппированный вариационный ряд, определите среднюю длину тела новорожденных девочек. Достоверно ли она отличается от длины тела новорожденных мальчиков, если по данным этого же родильного дома мальчики имели среднюю длину тела 51см (m= ±2,3 см)?
б) При выборочном обследовании 150 ткачих хлопчатобумажного комбината у 32 из них обнаружена гинекологическая патология. Определите распространенность этих заболеваний на 100 работниц и доверительные границы возможной частоты этой патологии у всех работниц комбината с уровнем вероятности 95%. Оцените достоверность отличия распространенности гинекологической заболеваемости от аналогичного показателя другой фабрики, если известно, что она составила Р = 2,8%, m = ±0,44%.
Проверка статистических гипотез, критерий Хи-квадрат
Анализ характера распределения данных (его еще называют проверкой на нормальность распределения) осуществляется по каждому параметру. Если установлено, что признак не является нормально распределенным, применение критерия достоверности Стьюдента не оправдано. Это, прежде всего, относится к дискретным и биномиальным данным, которые выражаются в баллах или строго определенными числовыми значениями.
Непараметрические критерии используются в тех случаях, когда изучаемое явление отличается от нормального распределения. Они позволяют оценить характер, тенденцию явления (увеличение, уменьшение, без перемен), а, с другой стороны, большинство из них обладает достаточно высокой статистической мощностью (чувствительностью). Особенно эффективно применение непараметрических критериев при малых выборках (n<30), а также при изучении качественных признаков.
Наиболее часто в медицинских исследованиях применяется критерий достоверности Хи-квадрат (χ2).
Формула вычисления критерия Хи-квадрат:
χ2=(Э - Т)² / Т ,
где: Э - эмпирическая частота появления признака, т.е. полученная в опыте;
T - теоретическая частота, рассчитанная по нулевой гипотезе (что было бы, если бы группы были одинаковы).

Под частотой понимается количество появлений какого-либо события. Обычно с частотой появления события имеют дело, когда переменные измерены в шкале наименований и другой их характеристики, кроме частоты, подобрать невозможно или сложно. Такие признаки применяются многими исследователями, которые используют балльную оценку величины явления, например: высокий, средний, низкий уровни и т.д.
Пример определения достоверности различий тяжести состояния в группах больных, поступающих в отделение больницы по критерию Хи-квадрат.
Условие задачи: среди больных хирургического отделения больницы N было проведено изучение тяжести состояния при поступлении в стационар. Степень тяжести оценивалась как: высокая, средняя, низкая. Число больных (частота встречаемости) распределилось следующим образом: Высокая (В)  27 чел.
Средняя (С)  12 чел.
Легкая (Л)     11 чел.
Очевидно, что тяжелых больных большинство, но достоверно ли это различие?
Задание: проверить, отличаются ли полученные опытные (эмпирические) данные от теоретически равновероятных (нулевой гипотезы) с помощью критерия Хи-квадрат.
Решение: Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 5 этого файла выполнить следующие вычисления.
Эмпирические частоты встречаемости пациентов с различной степенью тяжести состояния (Э) получены при проведении исследования. Для вычисления критерия Хи-квадрат необходимо найти теоретические частоты (Т).
Теоретические частоты (Т) – это равновероятные частоты, которые находятся путём сложения всех Э-частот и деления на количество категорий (средняя арифметическая). Они соответствуют нулевой гипотезе H0 - тяжесть всех больных одинакова.
В нашем случае Т = (В + С + Л)/3 = (27+12+11)/3 = 16,6 (сумма частот в группах деленная на число групп - 3).

Строим таблицу, вводим данные и выполняем вычисление формулами в соответствующих ячейках таблицы 22.
Таблица 22
Вычисление критерия Хи-квадрат
Число групп= 3 Степень тяжести состояния больных Эмпирические частоты (Э) Теоретические частоты (Т) (В + С + Л)/3 χ2=(Э - Т)² / Т
Высокая (В) 27 16,66666667 6,41
Средняя (С) 12 16,66666667 1,31
Легкая (Л)  11 16,66666667 1,93
Сумма = 50 50 9,64
Результат: вычисленное на экспериментальных данных значение χ2 = 9,64
Далее требуется найти критическое значение критерия по литературным данным в таблице критических значений или вычислить его в компьютерной программе. Для этого понадобится число степеней свободы (df) и уровень значимости, принятый в медицинских исследованиях.
df = (R - 1) * (C - 1),  
где:R – количество групп в таблице;
C – количество столбцов опытных данных.
В нашем случае имеем только один столбец исходных данных(эмпирических частот) и три строки (категории), поэтому формула изменяется (исключаем столбцы).
df = (R - 1) = 3-1 = 2.
Для уровня значимости p≤0,05 и df = 2 определяем критическое значение по таблице, или в программе Excel функцией =ХИ2ОБР(уровень значимости; Степени  свободы). Получаем критическое значение Хи-квадрат = 5,99. Эти вычисления выполняются в отдельных ячейках таблицы Excel, как показано в таблице 23.
Таблица 23
Оценка достоверности различий по критерию Хи-квадрат
Уровень значимости (p) = 0,05 Степени свободы=3-1= 2 Критическое значение Хи-квадрат= ХИ2ОБР(0,05;2) = 5,99
Сравниваем опытное и критическое значения: 9,64 > 5,99
Вычисленное значение Хи-квадрат больше критического.
Вывод: различия степени тяжести больных, постуающих в отделение, достоверны при p≤0,05.
Пример определения достоверности различий ЧСС в группах детей, поступающих в отделения больницы, по критерию Хи-квадрат.
Условие задачи: требуется сравнить частоту сердечных сокращений (ЧСС) детей 1-го года жизни, поступающих в отделениях №1, №2 больницы N (см. раздел III).
Задание: определить достоверность различий частоты пульса детей, поступающих в 1-е и 2-е отделения больницы, по критерию Хи-квадрат и сделать вывод.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 5 этого файла выполните следующие вычисления. Перенести таблицы сгруппированных вариационных рядов, скопировав их с листа 3 на новый лист (см. раздел III), или создайте сгруппированные вариационные ряды, как показано в таблице 24.
Таблица 24
Результаты измерения частоты пульса детей в 2-х отделениях больницы
1-й вариационный ряд: Частота пульса детей, поступивших в отделение №1 больницы в 20… году 2-й вариационный ряд: Частота пульса детей, поступивших в отделение №2 больницы в 20… году
  V p V p
1 110 1 1 110 0
2 115 3 2 115 3
3 120 5 3 120 2
4 125 4 4 125 6
5 130 2 5 130 3
6 135 1 6 135 1
7 140 0 7 140 1
8 145 0 8 145 1
Выполнение расчета (таблица 25):
1. Создаем таблицу и вычисляем опытные (эмпирические) и теоретические частоты.
Эмпирические частоты - это количество единиц наблюдения по баллам, вычисляем из вариационных рядов ручным подсчетом или функцией =СЧЁТЕСЛИ(Диапазон ячеек;Значение).
Теоретические частоты вычисляем из таблицы эмпирических частот как среднее значение в каждом отделении, например: 0,48=1*16/33, 0,52=1*17/33 и т.д. Итоги теоретических частот должны совпасть с итогами частот в эксперименте.
Таблица 25
Вычисление теоретических частот и критерия Хи-квадрат
 
 
 
ЧСС Эмпирические частоты баллов (Э) Теоретические частоты (Вcего*Итого/n) (Т) Расчет χ2 = (Э - Т)² / Т
1-е отд-е 2-е отд-е Всего 1-е отд-е 2-е отд-е Всего 1-е отд-е 2-е отд-е Всего
1 110 1 0 1 0,48 0,52 1 0,55 0,52 1,06
2 115 3 3 6 2,91 3,09 6 0,00 0,00 0,01
3 120 5 2 7 3,39 3,61 7 0,76 0,72 1,48
4 125 4 6 10 4,85 5,15 10 0,15 0,14 0,29
5 130 2 3 5 2,42 2,58 5 0,07 0,07 0,14
6 135 1 1 2 0,97 1,03 2 0,00 0,00 0,00
7 140 0 1 1 0,48 0,52 1 0,48 0,46 0,94
8 145 0 1 1 0,48 0,52 1 0,48 0,46 0,94
  Итого: 16 17 n=33 16 17 33 2,50 2,36 4,86
2. Вычисляем опытное (эмпирическое) значение критерия Хи-квадрат. 209550328295 В ячейках каждого отделения и балла используется формула: (Э - Т)² / Т, а затем суммируется строка «Итого» или столбец «Всего». Общая формула вычислений имеет вид:
= 4,86 3. Вычисляем критическое значение критерия Хи-квадрат или вероятность различий.
Уровень значимости = 0,05 Степени свободы (df) =
(R - 1) * (C - 1),  где R – количество групп в таблице, C – количество столбцов опытных данных.
Число столбцов = 2 Число строк = 8 df = (2 - 1) * (8- 1)= 7 Критическое значение определяется по таблице или вычисляется функцией =ХИ2ОБР(0,05;7)
Критическое значение Хи-квадрат = 14,06714 при p = 0,05
или: Расчетная значимость вычисляется функцией =ХИ2ТЕСТ(Опытный интервал; Теоретический интервал). Такой расчет позволяет сократить вычисления, используя диапазоны данных из таблицы частот, и возвращает в ячейку непосредственно опытный уровень значимости.
Расчетная значимость по ХИ2ТЕСТ = 0,677 > 0,05 4. Сравниваем опытное значение с критическим значением критерия Хи-квадрат или критическим уровнем значимости, формулируем вывод.
4,86 < 14,07 опытное значение (4,86) МЕНЬШЕ критического значения (14,07)
или: 0,677 > 0,05 опытный уровень значимости (0,677) больше критического (0,05)
Вывод: различия частоты пульса в 2-х отделениях НЕдостоверны при уровне значимости p<0,05.
Вывод, сделанный на основе вычисления критерия Хиквадрат, в основном согласуется с выводом, сделанным по критерию Стьюдента. Однако вероятности того, что выборки взяты из одной генеральной совокупности, существенно отличаются. При использовании критерия Стьюдента эта вероятность составила 12% (0,12), а по критерию Хи-квадрат 67,7% (0,667). Значит, довод о равенстве совокупностей, полученный с применением критерия Хи-квадрат, более весомый.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте НОВЫЙ лист, переименуйте его, обозначив названием «Крит-й_Хи-квадрат», решите требуемый вариант задания, сохраните, запретите изменения в файле паролем и покажите решение преподавателю.
Вариант 1
а) Выполнено экспериментальное изучение на животных степени отравления при передозировке препарата А. Тяжесть отравления была оценена по пятибалльной шкале: гибель, сильное отравление, средне, низкое, слабое. Число животных с этими уровнями распределились следующим образом: гибель – 44 животных, сильное отравление – 25 животных, средняя степень – 10 животных, низкое – 5 животных, слабое – 3 животных. Требуется статистически подтвердить с уровнем значимости p<0,05 высокий риск отравления при передозировке препарата А с использованием критерия Хи-квадрат.
б) В районе N, где расположена тепловая электростанция, в одной из точек жилого поселка было взято 50 проб атмосферного воздуха. Уровень пыли составил: 0,14мг/м3 в 15-и пробах, 0,16мг/м3 в 8-и пробах, 0,13мг/м3 в 2-х пробах, 0,2мг/м3 в 15-и пробах, 0,18мг/м3 в 6-и пробах, 0,17мг/м3 в 4-х пробах.
После установки золоуловителя количество пыли в пробах воздуха измерялось следующими цифрами: 0,09мг/м3 в 2-х пробах, 0,08мг/м3 в 2-х пробах, 0,05мг/м3 в 16-и пробах, 0,02мг/м3 в 20-и пробах, 0,14мг/м3 в 2-х пробах.
Определите, достоверно ли уменьшение запыленности после установки золоуловителя по критерию Хи-квадрат с уровнем значимости p<0,05?
Вариант 2
а) Выполнено изучение уровня заболеваемости на предприятии N. Определено число заболеваний работников предприятия за год: 1 раз в год болели 4 человека, 2 раза – 10 человек, 3 раза и чаще – 25 человек. Необходимо статистически подтвердить высокий уровень профессиональной заболеваемости по критерию Хиквадрат с уровнем значимости p<0,05.
б) В районной больнице города N в истекшем календарном году число дней занятости койки составляло: 4 койки – 285 дней, 4 койки – 290 дней, 8 коек – 295 дней, 8 коек – 300 дней, 16 коек – 315 дней, 22 коек – 320 дней.
В больнице города М за такой же период занятость койки равнялась: 20 коек – 320 дней, 24 койки – 325 дней, 40 коек – 330 дней, 50 коек – 335 дней, 24 койки – 340 дней, 20 коек – 347 дней, 10 коек – 350 дней, 8 коек – 355 дней, 4 койки – 360 дней.
Составьте сгруппированные вариационные ряды, определите среднегодовую занятость койки в городах N и М. Установите, достоверно ли отличается среднегодовая занятость койки в больнице города N от аналогичного показателя больницы М соседнего района по критерию Хи-квадрат с уровнем значимости p<0,05?
Вариант 3
а) При обследовании учащихся школ района К обнаружено, что у 4 из них наблюдается нарушение осанки высокой степени, у 30-и – средней, у 85 – низкой степени и 120 школьников не имели отклонений. Подтвердите различия распространенности нарушений осанки по критерию Хи-квадрат с уровнем значимости p<0,05.
б) При обследовании группы школьников 4-х классов сельского района А было установлено, что 8 человек имели по 5 кариозных зубов, 20 человек – по 1 зубу, 10 человек – по 4 зуба, 1 человек – 8 зубов, 20 человек – по 3 зуба, 16 человек – по 2 зуба и 15 человек не имели пораженных кариесом зубов.
При обследовании аналогичной группы школьников в районе Б были получены следующие результаты: 2 человека имели по 5 кариозных зубов, 28 человек – 1 зуб, 8 человек – по 4 зуба, 1 человек – 8 зубов, 20 человек – по 3 зуба, 16 человек – по 2 зуба и 6 школьников не имели пораженных кариесом зубов.
Сравните среднюю интенсивность поражения кариесом в районах А и Б и установите, достоверно ли она отличается на основе критерия Хи-квадрат с уровнем значимости p < 0,05.
Вариант 4
а) При обследовании загрязнения воздуха были обнаружены превышения допустимой нормы вещества N. При этом 3-х кратное превышение обнаружено в 40 пробах, 2-х кратное - в 20 пробах, однократное - в 15 и в 5 пробах концентрация вещества была ниже предельной. Подтвердите различия частоты превышения норм загрязнения водоема на основе критерия Хи-квадрат с уровнем значимости p<0,05.
б) Перед сдачей экзамена у студентов определялась частота пульса. Были получены следующие данные: у 2-х студентов – 76 ударов в минуту, у 3-х студентов – 80, у 4х студентов – 108, у 2-х студентов – 116, у 20-и студентов – 88, у 6-и студентов – 98, у 17-и студентов – 86, у 11-и студентов – 92.
У этих же студентов была измерена частота пульса после экзамена и получены следующие результаты: у 2-х студентов – 73 удара в минуту, у 3-х студентов – 75, у 4-х студентов – 80, у 2-х – студентов 81, у 20и студентов – 74, у 6-и студентов – 82, у 17-и студентов – 86, у 11-и студентов – 85.
Сравните частоту пульса (ЧСС) студентов до и после экзамена и подтвердите достоверность различий этого признака по критерию Хи-квадрат с уровнем значимости p < 0,05.
Вариант 5
а) При обследовании загрязнения водоема были обнаружены превышения допустимой нормы вещества N. При этом 3-х кратное превышение обнаружено в 50 пробах, 2-х кратное - в 30 пробах, однократное - в 15 и в 3 пробах концентрация вещества была ниже предельной. Подтвердите различия частоты превышения норм загрязнения водоема на основе критерия Хи-квадрат с уровнем значимости p<0,05.
б) Исследовалась длительность лечения больных пневмонией в стационаре 2-х больниц города N. Были получены следующие результаты: в 1-й больнице 25 дней лечилось 10 больных, 26 дней – 8, 11 дней – 1, 12 дней – 1, 23 дня – 5, 13 дней – 1, 21 день – 15, 24 дня – 9, 22 дня – 7, 14 дней – 2, 20 дней – 5, 15 дней – 2, 16 дней – 3, 17 дней – 4, 19 дней – 2, 18 дней – 3.
Во 2-й больнице 25 дней лечился 1 больной, 21 день – 2 больных, 11 дней – 26, 12 дней – 18, 23 дня – 3, 13 дней – 10, 21 день – 3, 24 дня – 1, 22 дня – 3, 14 дней – 6, 20 дней – 5, 15 дней – 7, 16 дней – 5, 17 дней – 4, 19 дней – 1, 18 дней – 1.
Рассчитайте среднюю длительность лечения пневмонии и определите достоверность различий этого показателя в 2-х больницах с помощью критерия Хиквадрат с уровнем значимости p < 0,05.
Вариант 6
а) При обследовании учащихся старших классов школ района N обнаружено, что у 5 из них наблюдается нарушение осанки высокой степени, у 25-и – средней, у 64 – низкой степени и 115 школьников не имели отклонений. Подтвердите различия распространенности нарушений осанки по критерию Хи-квадрат с уровнем значимости p<0,05.
б) Изучалась длина тела новорожденных по данным родильного дома. Были получены следующие данные о новорожденных девочках: у 8 девочек рост составил 48см, у 6 девочек – 51см, у 7 девочек – 53см, у 1 девочки – 49см, у 9 девочек – 52см, у 8 девочек – 50см, у 3 девочек – 47см, у 2 девочек – 46см, у 2 девочек – 54см, у 1 девочки – 55см, у 1 девочки – 56см.
Данные о новорожденных мальчиках: 9 мальчиков родились с длиной тела 56см, 6 мальчиков – 55см, 7 мальчиков – 58см, 1 мальчик – 59см, 9 мальчиков – 52см, 8 мальчиков – 54см, 2 мальчика – 50см, 1 мальчик – 49см, 2 мальчика – 53см, 4 мальчика – 54см, 2 мальчика – 51см, 2 мальчика – 53см.
Определите среднюю длину тела новорожденных детей и установите достоверно ли она различается у новорожденных девочек и мальчиков, Подтвердите различия по критерию Хиквадрат с уровнем значимости p<0,05.
Метод стандартизацииОсновным принципом подбора групп статистического наблюдения в случае необходимости сравнения между ними является однородность сравниваемых совокупностей по характеризующим признакам.
К характеризующим признакам относятся признаки, по которым выполняется группировка совокупностей. Они, как правило, оказывают влияние на результативные признаки и изучаемое явление в целом. Подбор групп с одинаковым уровнем характеризующих признаков позволяет исключить такое влияние и акцентировать внимание на изучаемых особенностях явления.
Например, общие интенсивные коэффициенты (рождаемости, смертности, младенческой смертности, заболеваемости и т.д.) правильно отражают частоту явлений при их сопоставлении лишь в том случае, если состав сравниваемых совокупностей однороден. Если же они имеют различный возрастно-половой или профессиональный состав, разное соотношение по нозологическим формам иди другим характеризующим признакам, то, ориентируясь на общие показатели, сравнивая их, можно сделать неправильный вывод об истинных причинах разницы показателей сравниваемых совокупностей.
Если же не удается провести формирование однородных выборок, или уже после проведения исследования оказывается, что сравниваемые группы не одинаковы по характеризующим признакам, может использоваться метод стандартизации.
Это метод расчета условных (стандартизованных) показателей, заменяющих общие интенсивные (или средние) величины в тех случаях, когда их сравнение затруднено из-за несопоставимости групп. Он позволяет определить, какие показатели были бы получены в случае однородности групп. То есть устранить (элиминировать) возможное влияние различий в составе совокупностей по какому-либо признаку на величину сравниваемых интенсивных показателей. Следовательно, метод стандартизации применяется тогда, когда имеющиеся различия в составе сравниваемых совокупностей могут повлиять на размеры общих коэффициентов.
Стандартизованные показатели – это условные, гипотетические величины, они не отражают истинных размеров явлений, но свидетельствуют о том, каковы были бы значения сравниваемых интенсивных показателей, если бы были исключены различия в составах совокупностей.
Для того, чтобы устранить влияние неоднородности составов сравниваемых совокупностей на величину получаемых коэффициентов, их приводят к единому стандарту, то есть условно допускается, что состав совокупностей одинаков. В качестве стандарта можно принять величину среды одной или всех сравниваемых групп, уровень явления в этих группах или какой-либо близкой по существу третьей совокупности. От выбора стандарта зависит способ вычисления, т.е. модификация метода. Принято выделять прямой, обратный и косвенный варианты соответственно. Варианты используемого метода стандартизации не влияют на конечный вывод и определяются исследователем.
Методика выполнения расчетов состоит из 5 этапов:
- Первый этап. Вычисление общих показателей (относительных или средних величин) отдельно для каждой группы.
- Второй этап. Выбор стандарта осуществляется произвольно.
- Третий этап. Вычисление ожидаемых величин, которые демонстрируют уровень явления, который мог бы быть зафиксирован при отсутствии неоднородности в группах.
- Четвертый этап. Определение стандартизованных показателей.
- Пятый этап. Сравнение групп по стандартизованным показателям и формулирование вывода.
Пример вычисления стандартизованных показателей прямым методом стандартизации.
Условия задачи: проведено углубленное обследование жителей 2-х микрорайонов города N, при котором получены следующие данные. В 1-м районе обследовано 795 человек, из них 156 мужчины, 639 женщины. Выявлена стенокардия у 3 мужчин и 30 женщин. Во 2-м районе обследовано 720 человек(585 мужчин, 135 женщин). Заболевание выявлено у 15 мужчин и 12 женщин.
Задание: сравнить патологическую пораженность стенокардией в 2-х районах города.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 6 этого файла внесите данные условия задачи в таблицу и выполните вычисления.
1-й этап: создание таблицы и вычисление общих относительных величин, как показано в таблице 26.
Таблица 26
Вычисление относительных и стандартизованных величин
Абсолютные данные Патологическая пораженность на 100 обсл. (PОбщ.) Стандарт (1-й+2-й районы)
 
  Ожидаемые величины
 Районы: 1-й 2-й 1-й
2-й
1-й
2-й
  Обсл. Заб. Обсл. Заб. м 639 30 135 12 4,7 8,9 774 36,3 68,8
ж 156 3 585 15 1,9 2,6 741 14,3 19,0
Оба пола 795 33 720 27 4,2 3,8 1515 50,6 87,8
Стандартизованные величины (Pст.) = 3,3 5,8
2-й этап: выбор стандарта.
Для прямого варианта метода стандартизации за стандарт выбирается число обследованных в обоих районах (уровень среды) среди мужчин и женщин отдельно, а затем их сумма, т.е. 741 = 156+585 и т.д.
3-й этап: вычисление ожидаемых величин. Они вычисляются с помощью пропорций, которыми определяют возможное число заболевших, если бы в изучаемых районах был одинаков состав среды:
Из 100 болевших - Pобщ. х= Pобщ. * Стандарт
Из числа стандарта - хОжид.число болевших 100
Ожидаемая величина болевших мужчин района 1:
Из 100 муж. заболело - Pобщ. х= 4,7 * 741 = 36,3
Из числа станд. муж. - хОжид.число болевших 100 Ожидаемая величина болевших женщин района 1:
Из 100 жен. заболело - Pобщ. х= 1,9 * 774 = 14,3
Из числа станд. жен. - хОжид.число болевших 100 Аналогично составляются пропорции для района 2.
Ожидаемые величины по каждому району суммируются.
Для района 1: 36,3+14,3=50,6.
Для района 2: 68,8+19,0=87,8.
4-й этап: вычисление стандартизованных величин. Расчет выполняется по принципам вычисления относительных величин, но на основе ожидаемых значений с помощью составления пропорции:
Из общего числа обслед. - болело число ожидаемых Рст.= Ожид.вел. * 100 = 3,3
Из 100 чел. - Рст. 1515 Для района1:
Из 1515 чел - болело 50,6 Рст1.= 50,6 * 100 = 3,3 Из 100 чел. - Рст. 1515
Для района 2:
Из 1515 чел - болело 87,8 Рст2.= 87,8 * 100 = 5,8 Из 100 чел. - Рст. 1515 5-й этап: оценка достоверности стандартизованных величин, их сопоставление между собой и с относительными величинами (таблица 27) и формулирование вывода.
Вычисление критерия достоверности Стьюдента для относительных величин:
m1= 0,6372 m2= 0,8287 где: q=100-P t= 2,3497 Различия достоверны Таблица 27
Сопоставление интенсивных и стандартизованных величин
Показатели Район 1 Район 2 Результаты сравнения
Интенсивные (PОбщ.) 4,2 3,8 Заболеваемость
в 1-м районе > чем во 2-м районе
Стандартизованные (PСт.) 3,3 5,8 Заболеваемость
в 1-м районе < чем во 2-м районе
Вывод: сравнение стандартизованных показателей выявления стенокардии по районам 1 и 2 позволяет сделать заключение, что, если бы состав обследованных по полу в этих районах был одинаков, то показатель заболеваемости стенокардией в 1-ом районе был бы значительно ниже, чем во 2-ом (уровень значимости p<0,05).
Из анализа общих интенсивных показателей такой вывод сделать нельзя, так как на общие показатели оказал влияние разный состав осмотренных по полу в этих районах. Из литературных данных известно, стенокардия приблизительно в 2 раза чаще встречается среди мужчин, чем среди женщин. Поэтому, в 1-ом районе, где были обследованы преимущественно мужчины, общий интенсивный показатель был завышен (4,2 на 100 обследованных), а во 2-ом районе – занижен (3,8 на 100 обследованных) так как были обследованы в основном женщины. Метод стандартизации позволил увидеть истинную картину заболеваемости, устранив влияние фактора, связанного с полом обследованных.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», создайте НОВЫЙ лист, переименуйте его, обозначив названием «Стандартизация», решите требуемый вариант задания, сохраните, запретите изменения в файле паролем и покажите решение задачи преподавателю.
Вариант 1
Проведено изучение заболеваемости населения в городах N и M. В городе N проживало 30000 человек, из них 20000 мужчин и 10000 женщин. В течение года болели 5000 мужчин и 4000 женщин. В городе М проживало 65000 человек(25000 мужчин, 40000 женщин). Болели в течение года 7000 мужчин и 14000 женщин. Рассчитать интенсивные и стандартизованные показатели заболеваемости (на 1000 жителей), проанализировать и оценить достоверность различий между ними, сделать вывод.
Вариант 2
Требуется сравнить физическое развитие учеников 8-10 классов в 2-х школах. В 1-й школе обследовано 195 человек, из них 31 мальчик и 164 девочки, выявлено, что отставание физического развития есть у 1-го мальчика и 5-ти девочек.
Во 2-й школе обследовано 182 человека, из них 125 мальчиков и 57 девочек, имели отставание 5 мальчиков и 4 девочки. Рассчитать интенсивные и стандартизованные показатели частоты отклонений физического развития детей в этих школах, сравнить их и оценить достоверность различий между ними, сделать вывод.
Вариант 3
Необходимо сравнить качество протезирования зубов в 2-х стоматологических поликлиниках. В 1-й поликлинике изготовлено 400 протезов, из них 35 мостовидных и 365 единичных; плохая фиксация протезов зафиксирована у 1-го пациента с мостовидным протезом и 5-и пациентов с единичным. Во 2-й поликлинике установлено 350 протезов, из них 250 мостовидных и 100 единичных; нарушение фиксации обнаружено 5-и мостовидных и 4-х единичных протезов. Рассчитать интенсивные и стандартизованные показатели качества протезирования в поликлиниках, проанализировать и оценить достоверность различий между ними, сделать вывод.
Вариант 4
Сравнить загрязненность воздуха по количеству проб, не отвечающих санитарным требованиям, в 2-х районах города N. В 1-м районе взято 300 проб, из них 30 в жилых кварталах и 270 вблизи автомобильных дорог; обнаружено несоответствие требованиям в 2-х квартальных пробах и 5 у автодороги. Во 2-м районе взято 200 проб, из них 150 квартальных и 50 у дороги; имели отклонение от норматива загрязненности 5 квартальных и 4 пробы рядом с автодорогой. Рассчитать интенсивные и стандартизованные показатели загрязненности воздуха в 2-х районах, проанализировать и оценить достоверность различий между ними, сделать вывод.
Вариант 5
Требуется сравнить качество работы 2-х лечебно-профилактических учреждений (ЛПУ) по числу послеоперационных осложнений. В 1-й клинике проведено 600 хирургических операций, из них 55 полостных в общем отделении и 545 малоинвазивных в эндоскопическом отделении, послеоперационные осложнения зафиксированы у 20-и пациентов, перенесших полостную операцию, и у 5-ти пациентов из эндоскопического отделения. Во 2-й клинике выполнено 350 операций, из них 250 полостных и 100 малоинвазивных; осложнения были зафиксированы у 5-и пациентов общего отделения и у 4-х - эндоскопического. Рассчитать интенсивные и стандартизованные показатели послеоперационных осложнений в 2-х ЛПУ, проанализировать и оценить достоверность различий между ними, сделать вывод.
Вариант 6
Сравнить загрязненность 2-х водоемов по количеству проб, не отвечающих санитарным требованиям. В 1-м водоеме взято 300 проб, из них 30 поверхностных и 270 с глубины 3 метра; обнаружено несоответствие требованиям в 5-ти поверхностных пробах и 7-ми глубинных. Во 2-м водоеме взято 200 проб, из них 150 поверхностных и 50 глубинных; имели отклонение от норматива загрязненности 8 поверхностных и 3 глубинных пробы. Рассчитать интенсивные и стандартизованные показатели загрязненности водоемов, проанализировать и оценить достоверность различий между ними, сделать вывод.
Дисперсионный анализТрудно представить любое медицинское исследование (социально-гигиеническое, гигиеническое, клиническое, экспериментальное и др.), в котором не ставилась бы в той или иной мере задача определения силы влияния различных факторов на размеры изучаемого признака. Определяя различия средних арифметических двух выборочных групп наблюдения путем расчета критерия Стьюдента t, который позволяет выявить статистическую значимость разницы средних, исследователь подразумевает, как само собой разумеющееся, что группы исследуемых совершенно однородны и отличаются только по одному какому-то признаку или методу воздействия на них.
Между тем на практике это условие соблюдается далеко не всегда. На изучаемое явление и, следовательно, его средний уровень оказывают влияние многочисленные факторы, как постоянные (планируемые или сознательно выделяемые для их изучения), так и случайные (неопределенные). Например, больные гипертонической болезнью, отобранные по полу, возрасту, стадии и длительности заболевания, помимо болезни, подвергаются воздействию других неучтенных факторов, в результате чего у разных больных наблюдается различный уровень артериального давления.
При изучении явлений, сравнении их друг с другом в поисках сходства и различий необходимо обращать внимание не только на величину средних, но и на разнообразие вариант, а также вариабельность изучаемых признаков. Исследователь может встретить вариационные ряды, не отличающиеся по центральной тенденции (размеру средней арифметической), но различные по степени варьирования. И наоборот - ряды, одинаковые по величине разброса вариант, могут различаться по размерам средней арифметической. Установление значимости различий средних арифметических, измерение степени влияния факторов и их градаций на варьирующий (результативный) признак наиболее эффективно достигаются путем применения дисперсионного анализа.
Впервые основа дисперсионного анализа была разработана известным английским статистом Р.Фишером в 1925 году. В нашей стране наиболее полно и систематизировано этот метод представлен в трудах Н.А. Плохинского.
Дисперсионный анализ – это метод в статистической математике, направленный на поиск зависимостей в экспериментальных данных путём исследования значимости различий вариабельности признака в исследуемой совокупности. В литературе также встречается обозначение ANOVA (от англ. ANalysis Of VAriance). Он базируется на определении степени рассеяния (дисперсии) оцениваемых признаков в нескольких группах. Это позволяет измерить силу влияния отдельных факторов на значения показателей.
Известно, что величина отдельных признаков представляет собой результат воздействия разнообразных факторов, различных по силе влияния. Одни факторы имеют значительно большую силу влияния, другие - меньшую. Причем, как правило, факторы сами воздействуют друг на друга, сочетая свое влияние, иногда усиливают действие друг друга, иногда, наоборот, погашают это действие. Преимуществом дисперсионного анализа является то, что он дает возможность изучить и сравнить роль каждого из них.
В отличие от дисперсионного анализа другие общепринятые в медицинских исследованиях статистические методы обработки, как правило, предусматривают проведение попарных сравнений, что приводит к огромному объему расчетов и часто не дает полной оценки.
Сущность дисперсионного анализа заключается в изучении статистического влияния одного или нескольких факторов на результативный признак.
Результативный признак - это элементарное свойство объектов, изучаемое как результат влияния факторов: организованных в исследовании (основных - х) и всех остальных, неорганизованных, не учтенных в данном исследовании (случайных - z).
Фактор - это влияние, воздействие или состояние, которое отражается на размерах и разнообразии результативного признака.
Градации фактора - это степень его воздействия (нулевое действие в контрольной группе), или состояние объектов изучения (пол, возраст и т.д.).
Дисперсионный комплекс - это совокупность градаций комплекса данных (опытных групп исследования) с привлеченными для исследования значениями и средними величинами по каждой градации.
Комплексы, составленные по принципу случайной выборки, называются рандомизированными.
При изучении количественных признаков в градации комплекса заносятся числовые результаты измерения изучаемого признака у каждого отдельного объекта. При изучении качественных признаков в градации комплекса заносится число объектов с наличием признака и общее число объектов.
Статистическое влияние - это отражение в разнообразии результативного признака того разнообразия фактора (его градаций), которое организовано в исследовании.
Сумма основных и случайных факторов составит общие факторы (у). Результативный признак изучается как результат воздействия факторов, организованных в исследовании (х) и неорганизованных (z).
Общее влияние как раз и определяет влияние всех организованных и неорганизованных (случайных) факторов, определивших такое развитие признака, которое наблюдалось в дисперсионном комплексе. Общее влияние служит базой для определения доли влияний - факториальных и случайных.
Факториальное влияние - это простое или комбинированное статистическое влияние изучаемых (учтенных) факторов.
Случайное влияние - это действие тех факторов, которые не учтены в дисперсионном комплексе и составляют общий фон, на котором действуют учитываемые факторы.
Таким образом, дисперсионный анализ исследует важнейшее свойство совокупности – разнообразие (вариабельность, дисперсию) признака. Для этого выделяется три вида разнообразия: межгрупповое, внутригрупповое и общее. Межгрупповое разнообразие зависит от влияния исследуемого фактора, по которому выделяется каждая группа. Иными словами, межгрупповое разнообразие - это различие средних в каждой группе. Внутригрупповое разнообразие зависит от силы влияния каких-то неучтенных случайных факторов. Общее разнообразие складывается из межгруппового и внутригруппового.
В основе дисперсионного анализа лежит предположение о том, что одни переменные могут рассматриваться как причины (факторы, независимые переменные): f1, …, fk, а другие как следствия (зависимые переменные). Независимые переменные называют иногда регулируемыми факторами именно потому, что в эксперименте исследователь имеет возможность варьировать ими и анализировать получающийся результат.
Основной целью дисперсионного анализа является исследование значимости различия между группами с помощью сравнения дисперсий. Разделение общей дисперсии на несколько источников позволяет сравнить дисперсию, вызванную различием между группами, с дисперсией, вызванной внутригрупповой изменчивостью. При истинности нулевой гипотезы (о равенстве средних в нескольких группах наблюдений, выбранных из генеральной совокупности), оценка дисперсии, связанной с внутригрупповой изменчивостью, должна быть близкой к оценке межгрупповой дисперсии. Если выполняется сравнение средних в двух выборках, дисперсионный анализ даст тот же результат, что и обычный t-критерий Стьюдента. Однако помимо этого он позволяет оценить степень такого влияния, а также может использоваться при сопоставлении более, чем 2-х групп.
Сущность дисперсионного анализа заключается в расчленении общей дисперсии (D или SS) изучаемого признака на отдельные компоненты, обусловленные влиянием конкретных факторов, и проверке гипотез о значимости влияния этих факторов на исследуемый признак. Обозначение SS - это сокращение от фразы "суммы квадратов" (Англ. sum of squares). Оно чаще всего используется в зарубежных источниках.
Сравнивая компоненты дисперсии друг с другом посредством F-критерия Фишера, можно определить, какая доля общей вариативности результативного признака обусловлена действием регулируемых факторов.
Критерий Фишера экспериментальных данных (FЭмп.) вычисляется как отношение среднего квадрата дисперсии, обусловленной изучаемым фактором, к среднему квадрату случайной дисперсии:
FЭмп.= MSФакт.MSслуч.,
где: FЭмп. – критерий Фишера, вычисленный в исследуемой совокупности,
MSФакт. – средний квадрат дисперсии, обусловленной изучаемым фактором,
MSСлуч. – средний квадрат дисперсии, обусловленной случайными факторами.
Для оценки достоверности полученного результата вычисленный на экспериментальных данных критерий Фишера сравнивают с его критическим значением (FКрит.) для принятого уровня вероятности (p) и степеней свободы (df ).
С целью уменьшения объема вычислений в программе Excel может применяться надстройка «Анализ данных» и ее модуль «Однофакторный дисперсионный анализ».
Пример задачи на выявление степени влияния изучаемого фактора.
Условие задачи: три различные группы из шести испытуемых получили списки из десяти слов. Первой группе слова предъявлялись с низкой скоростью -1 слово в 5 секунд, второй группе со средней скоростью - 1 слово в 2 секунды, и третьей группе с большой скоростью - 1 слово в секунду. Было предсказано, что показатели воспроизведения будут зависеть от скорости предъявления слов. Результаты измерений представлены в таблице 28.
Таблица 28
Результаты запоминания слов, предъявляемых испытуемым
№ испытуемого Группа 1
(низкая скорость) Группа 2
(средняя скорость) Группа 3
(высокая скорость)
1 8 7 4
2 7 8 5
3 9 5 3
4 5 4 6
5 6 6 2
6 8 7 4
суммы 43 37 24
средние 7,17 6,17 4
Общая сумма 104    
Статистическая гипотеза:
- Основная (H0): различия в объеме воспроизведения слов между группами являются не более выраженными, чем случайные различия внутри каждой группы.
- Альтернативная (H1): Различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 7 этого файла внесите данные условия задачи в таблицу и выполните вычисления.
Этапы выполнения дисперсионного анализа.
1. Подсчет SSФакт. - вариативности признака, обусловленную действием исследуемого фактора (межгрупповое разнообразие):
SSФакт.= Tc2n - ( xi )2N ,  
где: Тс – сумма индивидуальных значений по каждому из условий. Для нашего примера 43, 37, 24 (см. таблицу);
с – количество условий (градаций) фактора (=3);
n – количество испытуемых в каждой группе (=6);
N – общее количество индивидуальных значений (=18);
(xi)2 – квадрат общей суммы индивидуальных значений (=1042=10816).
Отметим разницу между xi2, в которой все индивидуальные значения сначала возводятся в квадрат, а потом суммируются, и (xi)2, где индивидуальные значения сначала суммируются для получения общей суммы, а потом уже эта сумма возводится в квадрат.
По формуле (1) рассчитав фактическую вариативность признака, получаем:
SSФакт.= (432+ 372 + 242) 6 - 124218=31,44.
2. Вычисление SSОбщ. – общей вариативности признака:
SSОбщ.= xi2 - xi 2N== 82+72+92+52+62+82 +72+82…+ 22+42- 104218=63,11.
3. Вычисление случайной (остаточной) величины дисперсии SSСл., обусловленной неучтенными факторами (внутригрупповое разнообразие):
SSСл.= SSОбщ.- SSФакт.=63,11-31,44=31,67.
4. Определение числа степеней свободы dfОбщ. , dfФакт. , dfСл. :
dfОбщ.= N- 1=18-1=17;dfФакт.= df1=С- 1=3-1=2;

dfСл.= df2= dfОбщ.- SSФакт.=17-2=15.5. Математическое ожидание суммы квадратов или «средний квадрат», усредненная величина соответствующих сумм квадратов SS равна:
MSФакт.=SSФакт.dfФакт.= 31,442=15,72;
MSСл.=SSСл.dfСл.= 31,6715=2,11.

6.  Значение статистики критерия FЭмп. вычисляется по формуле:
FЭмп.= MSФакт.MSслуч.=15,722,11=7,45.
Для нашего примера имеем: FЭмп.= 7,45
7. Определение FКрит. выполняется по статистическим таблицам для степеней свободы df1=k1=2 и df2=k2=15 и уровне значимости 0,05. Табличное значение статистики равно FКрит. = 3,68.
В программе Excel критическое значение критерия Фишера определяется функцией =FРАСПОБР(Уровень значимости; df1; df2) =FРАСПОБР(0,05;2;15) = 3,68232034.
8. Если FЭмп.< FКрит., то нулевая гипотеза принимается, в противном случае принимается альтернативная гипотеза. Для нашего примера FЭмп. > FКрит. (7,45>3,68), следовательно, принимается альтернативная гипотеза - влияние существует.
В программе Excel с помощью функции ФТЕСТ можно сразу вычислить вероятность различий двух массивов данных. Вводим в ячейку функцию =ФТЕСТ(Первый диапазон данных ; Второй диапазон данных).
Получаем вероятность 0,99999999 > 0,95 (95%).
Аналогичные вычисления выполняются с помощью надстройки «Анализ данных» в модуле «Однофакторный дисперсионный анализ». Результат обработки данных задачи этой командой показан в таблице 29.
Таблица 29
Однофакторный дисперсионный анализ
ИТОГИ Группы Счет Сумма Среднее Дисперсия Группа 1 (низкая скорость) 6 43 7,16667 2,1666667 Группа 2 (средняя скорость) 6 37 6,16667 2,1666667 Группа 3 (высокая скорость) 6 24 4 2 Дисперсионный анализ Источник вариации SS df MS F P-Значение F критическое
Между группами 31,444 2 15,7222 7,4473684 0,00567184 3,682320344
Внутри групп 31,667 15 2,11111 Итого 63,111 17        

Вывод: различия в объеме воспроизведения слов между группами являются более выраженными, чем случайные различия внутри каждой группы (р<0,05). Таким образом, скорость предъявления слов влияет на объем их воспроизведения.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе11 этого файла решите задачу, сохраните и покажите файл преподавателю.
Вариант 1
В эксперименте на животных измерено время пробежки мышей по лабиринту на фоне различной концентрации препарата, стимулирующего нервную систему; результаты измерений в секундах указаны в таблице 30.
Таблица 30
Результаты измерения времени пробежки мышей по лабиринту (сек.)
№ животного Группа 1 (низкая концентрация) Группа 2 (средняя концентрация) Группа 3 (высокая концентрация)
1 8 7 4
2 7 8 5
3 9 5 3
4 5 4 6
5 6 6 2
6 8 4 3
7 7 7 4
8 8 6 2
9 9 7 4
10 8 7 3
Необходимо подтвердить влияние стимулирующего вещества.
Вариант 2
На предприятии проведено изучение уровня травматизма с учетом фактора стажа работы сотрудников 5-и участков с близкими условиями труда; получены следующие данные (таблица 31).
Таблица 31
Уровень травматизма на 100 работающих
Участок Стаж работы
до 5 лет 6-10 лет 11-15 лет 16 лет и более
1 11 8 6 4
2 12 9 7 7
3 10 6 6 5
4 10 9 7 7
5 13 8 5 3
Необходимо оценить степень влияния стажа работы на уровень травматизма.
Вариант 3
Проведено изучение уровня загрязнения водоема в 10 точках с учетом времени года и получены следующие данные (таблица 32).
Таблица 32
Уровень загрязнения водоема
№ точки отбора Концентрации (мг/м3) по временам года
зима весна лето осень
1 3 8 6 4
2 4 9 7 7
3 2 6 6 5
4 3 9 7 7
5 1 8 5 3
6 4 8 3 5
7 2 9 2 3
8 3 6 4 5
9 1 9 3 4
10 2 8 4 4
Требуется определить степень влияния времени года на уровень загрязнения водоема.
Вариант 4
Проведено обследование 8 пациентов, которые лечились у стоматолога с применением 3-х типов пломбировочного материала, с учетом времени выполнения работы врача и получены следующие данные (таблица 33).
Таблица 33
Время работы врача-стоматолога (мин)
Пациент Вид пломбировочного материала
1-й тип материала 2-й тип материала 3-й тип материала
1 3 8 6
2 4 9 7
3 2 6 6
4 3 9 7
5 1 8 5
6 4 8 3
7 2 9 2
8 3 6 4
Необходимо подтвердить влияние типа используемого материала на время работы врача.
Метод корреляцииПри приведении исследования в биологии или медицине, как правило регистрируются множество учетных признаков. Поэтому представляет интерес вопрос об их взаимном изменении, т.е. поиск зависимостей между ними. Выявление наличия таких взаимосвязей является одной из важнейших задач любой науки, в том числе и медицины.
Различают две формы количественных связей между явлениями или процессами: функциональную и корреляционную. Под функциональной понимают такую связь, при которой любому значению одного из признаков соответствует строго определенное значение другого. В точных науках, таких как физика, химия и другие может быть установлена функциональная взаимосвязь. Например, зависимость площади круга от длины окружности в геометрии, или в физике длина пути, пройденной телом в свободном падении, от времени. Наиболее известным видом функциональной зависимости является линейная, которая выражается математической формулой: y = ax+b.
В биологии и медицине установить функциональную зависимость, как правило, не удается. Объекты этих исследований имеют большую изменчивость и зависят от огромного числа факторов, измерить которые просто невозможно. В этом случае определяется наличие корреляционной связи, при которой значению каждой средней величины одного признака соответствует несколько значений другого взаимосвязанного с ним признака. Например: связь между ростом и массой тела человека. У группы людей с одинаковым ростом наблюдается различная масса тела, однако она варьирует в определенных пределах вокруг средней величины. Поэтому такую зависимость нужно оценивать с использованием понятия случайной величины с привлечением подходов теории вероятности. Такую форму зависимостей называют «Корреляционной».
При поиске зависимости между признаками может быть обнаружена взаимосвязь различная по направлению и силе:
- Прямая (при увеличении одного признака увеличивается второй);
- Обратная (при увеличении одного признака второй уменьшается).
Степень взаимосвязи признаков по силе (тесноте) принято обозначать как:
- Отсутствие;
- Слабая;
- Средняя;
- Сильная;
- Полная.
Способами выявления корреляционной взаимосвязи между признаками являются:
- Визуальные (таблицы и графики).
- Статистические (корреляция и регрессия).
Следует подчеркнуть, что обнаружение корреляции между двумя признаками еще не говорит о существовании причинной связи между ними, а лишь указывает на возможность таковой или на наличие фактора, определяющего изменение обеих переменных совместно.
Приёмы визуализации данных позволяют обнаружить корреляционную зависимость лишь при небольшом числе наблюдений и только приблизительно. Для обнаружения корреляционной взаимосвязи с помощью таблицы в ней располагают ранжированные вариационные ряды и затем определяют совместное изменение признаков. График более наглядно демонстрирует такую зависимость и позволяет оценить ее форму: линейная, параболическая, тригонометрическая и др.
Наиболее точным способом обнаружения взаимосвязи между признаками является вычисление коэффициента корреляции. В зависимости от природы обрабатываемых данных применяются параметрические или непараметрические методы вычисления этого коэффициента.
При вычислении коэффициента корреляции исследователь получает возможность судить о силе связи (степени сопряженности) и ее направлении, а также с требуемой долей вероятности делать вывод о проявлении этой связи в генеральной совокупности. Чем больше коэффициент корреляции, тем с большей степенью уверенности можно говорить о наличии корреляционной зависимости между признаками. Если каждому заданному значению одного признака соответствуют близкие друг к другу, тесно расположенные около средней величины значения другого признака, то связь является более тесной. Когда эти значения сильно варьируют, связь менее тесная. Таким образом, мера корреляции указывает, насколько тесно связаны между собой параметры.
Коэффициент корреляции может принимать значения от -1 до +1. Направление обнаруженной взаимосвязи определяют по знаку коэффициента корреляции. При его положительном значении обнаруженная связь является прямой, при отрицательном – обратной. Сила связи оценивается по модулю этого коэффициента. Условно выделяют следующие уровни корреляционной связи: отсутствие – 0; слабая – от 0 до 0,3; средняя – от 0,3 до 0,7; сильная – 0,7 и более; полная – 1. Однако обсуждать наличие корреляции имеет смысл только в тех случаях, когда она статистически значима (p<0,05). Поэтому после вычисления коэффициента корреляции производится определение его ошибки репрезентативности и критерий достоверности.
Наиболее часто применяемыми в настоящее время методами обнаружения корреляции являются параметрический анализ по Пирсону и непараметрический анализ по Спирмену. Этими методами проверяется нулевая гипотеза (H0) об отсутствии связи между параметрами. Если такая гипотеза отклоняется при заданном уровне значимости (p), можно говорить о наличии взаимосвязи между параметрами.
Корреляционный анализ по Пирсону используется при решении задачи исследования линейной связи двух нормально распределенных параметров. Кроме проверки на нормальность распределения каждого параметра, до проведения корреляционного анализа рекомендуется строить график в координатах оцениваемых параметров, чтобы визуально определить характер зависимости.
Коэффициент корреляции Пирсона (rxy) или коэффициент линейной корреляции, был разработан в 90-х годах XIX века Карлом Пирсон, Фрэнсисом Эджуортом и Рафаэлем Уэлдоном  в Англии. Он рассчитывается по формуле:
rxy= COVXYXY=X-X(Y-Y)(X-X)2(Y-Y)2,
где: rxy – коэффициент линейной корреляции Пирсона;
covXY – ковариация признаков X и Y;
σX – среднее квадратическое отклонение признака X;
σY – среднее квадратическое отклонение признака Y;
X – средняя арифметическая признака X;
Y – средняя арифметическая признака Y.
В медицинской литературе встречается упрощенная запись этой формулы:
QUOTE rxy= dxdydx2dy2
rxy=dxdydx2dy2 ,где: rxy – коэффициент линейной корреляции Пирсона;
dx – отклонение каждой варианты признака x от средней этого признака: dx = x - Mx,
dy – отклонение каждой варианты признака y от средней этого признака: dy = y - My.
В программе Excel значение коэффициент линейной корреляции Пирсона может быть вычислено функцией = КОРРЕЛ(Диапазон ячеек 1-го ряда; Диапазон ячеек 2-го ряда).
Для прогнозирования уровня корреляции в генеральной совокупности определяют ошибку репрезентативности этого коэффициента mr. Она вычисляется по формуле:
mr= 1-rxy2n-2 ,
где: mr – ошибка репрезентативности коэффициента корреляции;
rxy – коэффициент линейной корреляции Пирсона;
n – число парных вариант.
Достоверность коэффициента линейной корреляции оценивается по коэффициенту Стьюдента (tr), который вычисляется с использованием его ошибки:
tr= rxymr ,
где: tr – коэффициент достоверности Стьюдента;
rxy – коэффициент линейной корреляции Пирсона;
mr – ошибка репрезентативности коэффициента корреляции.
Если число парных вариант n>30, то при tr >2 связь считается достоверной при уровне значимости p<0,05. Если число парных вариант n<30, то критическое значение tr-Крит. находят по таблице критических значений Стьюдента при степени свободы df = n - 2. В программе Excel это значение вычисляется функцией = СТЬЮДРАСПОБР(Уровень значимости p; Степени свободы df).
С целью уменьшения объема вычислений может применяться функция =КОРРЕЛ(Диапазон1; Диапазон2) или надстройка «Анализ данных» и ее модуль «Корреляционный анализ».
Отсутствие линейной корреляции еще не означает, что параметры полностью независимы. Связь между ними может быть нелинейной, или признаки, используемые в вычислениях, могут не подчиняться нормальному закону распределения. Поэтому, помимо вычисления коэффициента линейной корреляции, прибегают к использованию непараметрических коэффициентов корреляции. К ним относятся:
- Коэффициент ранговой корреляции Спирмена;
- Коэффициент ранговой корреляции Кендалла;
- Коэффициент корреляции знаков Фехнера;
- Коэффициент множественной ранговой корреляции (конкордации).
Корреляционный анализ по Спирмену применяется для обнаружения взаимосвязи двух параметров, если распределение хотя бы одного из них отлично от нормального.
Каждому показателю x и y присваивается ранг. На основе полученных рангов рассчитываются их разности d. Затем вычисляется коэффициент корреляции (ρ) по формуле:

где: – коэффициент корреляции Спирмена;
d – разность рангов;
n – число парных вариант.
Ошибка репрезентативности коэффициента корреляции Спирмена определяется по формуле:
mρ= 1-ρ2n-2 ,
а коэффициент достоверности Стьюдента:
tρ= ρmρ ,
где: t – коэффициент достоверности Стьюдента;
  – коэффициент корреляции Спирмена;
m – ошибка репрезентативности коэффициента корреляции Спирмена.
Оценка коэффициента корреляции Спирмена и его достоверности выполняется так же, как и коэффициента линейной корреляции Пирсона.
Пример решения задачи на выявление корреляционной зависимости.
Условие задачи: выполнены измерения признаков, характеризующих уровень запыленности на рабочих местах работников с учетом температуры в помещении (таблица 34).
Таблица 34
Результаты измерений запыленности в помещении с учетом температуры окружающей среды
Измерение
на рабочем месте Температура воздуха
Со Запыленность мг/м3
Слесарь 20 0,2
Электрик 21 0,25
Сварщик 21 0,24
... 19 0,08
... 19 0,08
... 19 0,07
... 22 0,3
... 22 0,28
... 25 0,33
... 24 0,31
... 21 0,26
... 21 0,27
Задание: определить силу и направление зависимости между температурой окружающей среды и уровнем запыленности помещения с помощью:
а) таблицы;
б) графического изображения взаимосвязи между признаками;
в) коэффициента корреляции Пирсона;
г) коэффициента корреляции Спирмена.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 8 этого файла внесите данные условия задачи в таблицу и выполните вычисления.
а) Требуется выполнить ранжирование вариационных рядов и поместить их рядом друг с другом, как показано в таблице 35, а затем проанализировать совместное возрастание или убывание значений.
Таблица 35
Ранжированные вариационные ряды
№ варианты Параметр x
(температура воздуха, Co) Параметр y (запыленность, мг/м3)
1 19 0,07
2 19 0,08
3 19 0,08
4 20 0,2
5 21 0,24
6 21 0,25
7 21 0,26
8 21 0,27
9 22 0,3
10 22 0,28
11 24 0,31
12 25 0,33
Вывод: в таблице наблюдается совместное прямое изменение двух 2-х изучаемых параметров.
б) Построение графика взаимосвязи между признаками и оценка формы взаимосвязи между признаками (рис. 10).

Рис. 10. Зависимость уровня запыленности от температуры воздуха в помещении.
Вывод: график зависимости совместного изменения двух изучаемых параметров показывает наличие взаимосвязи, которая приближенно оценивается как линейная.
в) Вычисление (таблица 36) и оценка коэффициента корреляции методом Пирсона.
Таблица 36
Вычисление отклонений вариант от средней арифметической
Варианта
№ Температура воздуха (x) Запыленность мг/м3 (y) dx=x-Mx dy=y-My dx*dy dx2 dy2
1 19 0,07 -2,2 -0,153 0,330 4,7 0,0233
2 19 0,08 -2,2 -0,143 0,309 4,7 0,0203
3 19 0,08 -2,2 -0,143 0,309 4,7 0,0203
4 20 0,2 -1,2 -0,023 0,026 1,4 0,0005
5 21 0,24 -0,2 0,018 -0,003 0,0 0,0003
6 21 0,25 -0,2 0,028 -0,005 0,0 0,0008
7 21 0,26 -0,2 0,038 -0,006 0,0 0,0014
8 21 0,27 -0,2 0,048 -0,008 0,0 0,0023
9 22 0,3 0,8 0,078 0,065 0,7 0,0060
10 22 0,28 0,8 0,058 0,048 0,7 0,0033
11 24 0,31 2,8 0,088 0,248 8,0 0,0077
12 25 0,33 3,8 0,108 0,412 14,7 0,0116
Средняя (М) = 21,2 0,223 Сумма (= 1,725 39,7 0,0976
n= 12 Коэффициент корреляции вычисляется по формуле:
rxy=dxdydx2dy2 =1,72539,7 ×0,0976 = 0,88 .
В программе Excel может использоваться функция =КОРРЕЛ(Диапазон1;Диапазон2) или модуль «Корреляция», который вызывается командой «Данные» - «Анализ данных». Он производит создание таблицы, которая называется «Корреляционная матрица», что позволяет вычислить коэффициент корреляции для нескольких признаков одновременно. Результат вычислений, выполненный с помощью указанного модуля, приведен в таблице 37.
Таблица 37
Вычисление корреляционной матрицы модулем «Корреляция»
  Температура воздуха (x) Запыленность мг/м3 (y)
Температура воздуха (x) 1 Запыленность мг/м3 (y) 0,876588407 1
Оценка достоверности коэффициента корреляции с помощью критерия Стьюдента:
mr= 1-r2n-2 = 1-0,88212-2 = 0,152 ,
где: n – число парных вариант.
Критерий достоверности Стьюдента для коэффициента корреляции вычисляется по формуле:
tr= rxymr= 0,880,152= 5,8
Вывод: зависимость изменения двух 2-х изучаемых параметров является сильной прямой и статистически достоверной при уровне значимости p<0,05.
г) вычисление и оценка коэффициента корреляции методом Спирмена.
В таблице вариационных рядов производится подсчет рангов как показано в таблице 38. Каждому из 12 чисел присваивается порядковый номер по возрастанию в соответствии с его значением. При этом наличие повторяющихся чисел влияет на ранг последующих чисел. Например, если в списке целых чисел трижды встречается число 19, имеющее ранг 1, число 20 будет иметь ранг 4 (ни одно из чисел не будет иметь ранги 2 и 3). Вычисление ранга в программе Excel возможно с помощью функции =РАНГ(Число; Диапазон; Порядок). Например: =РАНГ(C25;C$24:C$35;1). Затем вычисляется разность рангов, она возводится в квадрат и суммируется.
Таблица 38
Вычисление рангов и суммы квадратов их отклонений
Варианта Температура воздуха (x) Запыленность мг/м3 (y) Ранг x Ранг y dr =
ранг x - ранг y dr2
1 19 0,07 1 1 0 0
2 19 0,08 1 2 -1 1
3 19 0,08 1 2 -1 1
4 20 0,2 4 4 0 0
5 21 0,24 5 5 0 0
6 21 0,25 5 6 -1 1
7 21 0,26 5 7 -2 4
8 21 0,27 5 8 -3 9
9 22 0,28 9 9 0 0
10 22 0,3 9 10 -1 1
11 24 0,31 11 11 0 0
12 25 0,33 12 12 0 0
=17
Вычисление коэффициента корреляции Спирмена:
ρ = 0,94 Вычисление ошибки репрезентативности коэффициента корреляции:
m=0,107 Вычисление коэффициента достоверности Стьюдента для коэффициента корреляции:
t=8,76 > 2 Вывод: зависимость изменения двух изучаемых параметров является сильной прямой и статистически достоверной при уровне значимости p<0,05.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе12 этого файла решите задачу, сохраните и покажите файл преподавателю.
Вариант 1
Выполнены измерения признаков, характеризующих температуру в помещении на рабочих местах работников предприятия и концентрацию вредных веществ (таблица 39).
Таблица 39
Данные измерений на рабочих местах предприятия
Измерение на рабочем месте Температура воздуха,
Со Концентрация вещества,
мг/м3
Слесарь 20 0,21
Электрик 21 0,26
Сварщик 21 0,25
... 19 0,03
... 19 0,04
... 19 0,01
... 22 0,31
... 22 0,28
... 25 0,36
... 24 0,32
... 21 0,21
... 21 0,22
Определите силу и направление зависимости между температурой окружающей среды и концентрацией веществ в помещении с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Вариант 2
Выполнены измерения показателей физического развития школьников, характеризующих их рост стоя и объем грудной клетки (таблица 40).
Таблица 40
Данные физического развития школьников
Измерение Рост, см Объем грудной клетки, см
Чернов А.С. 151 70,8
Галкин М.В. 178 78,2
Попов А.М. 152 71,1
... 160 73,2
... 160 73,3
... 178 78,2
... 170 76,1
... 170 76,3
... 143 67,5
... 170 76,1
... 150 70,5
... 172 76,6
Определите силу и направление зависимости между ростом и объем грудной клетки с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Вариант 3
Врачом футбольной команды выполнены измерения показателей деятельности сердечно-сосудистой системы и тренированности спортсменов, измерены частота пульса и систолический объем сердечного выброса (таблица 41).
Таблица 41
Данные измерений показателей деятельности сердечно-сосудистой системы спортсменов
Измерение Пульс, уд/мин Объем сердечного выброса, мл
Васильев А.С. 78 58
Морозов Н.Р. 72 38
Родионов А.К. 78 63
... 80 65
... 72 35
... 60 46
... 72 59
... 72 59
... 72 50
... 66 38
... 72 40
... 84 68
Определите силу и направление зависимости между пульсом и систолическим объемом с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Вариант 4
В городе Н. было проведено изучение зависимости заболеваемости инфарктом миокарда по месяцам года в зависимости от среднемесячной температуры воздуха (таблица 42).
Таблица 42
Заболеваемость инфарктом миокарда и температура воздуха по месяцам

Определите силу и направление зависимости между заболеваемостью инфарктом миокарда и среднемесячной температурой воздуха с помощью таблицы, графического изображения взаимосвязи между признаками, коэффициентов корреляции Пирсона и Спирмена, сделайте вывод.
Метод регрессииМетод регрессии - это статистический способ поиска функции, которая позволяет по величине одного коррелируемого признака судить о величине другого. С помощью регрессии ставится задача выяснить, как количественно меняется одна величина при изменении другой величины на единицу. Для выполнения такого прогноза требуется определить коэффициент корреляции Пирсона, с использованием которого вычисляют коэффициент регрессии (Ry/x). Он участвует в создании регрессионной функции вида y=ax+b, которая применяется для прогнозирования требуемых параметров.
Коэффициент регрессии вычисляется по формуле:
Ry/x=rx/y σyσx ,
где: Ry/x – коэффициент регрессии;
rx/y – коэффициент корреляции Пирсона;
σx – среднее квадратическое отклонение признака x;
σy – среднее квадратическое отклонение признака y.
Среднее квадратическое отклонение (сигма) вычисляется по формуле:
σ= d2n ,
а в программе Excel функцией = СТАНДОТКЛОН(Диапазон ячеек).
Значение коэффициента регрессии (Ry/x) в программе Excel может быть вычислено функцией =НАКЛОН(Диапазон_y; Диапазон_х).
Формула определения значения зависимого признака:

y = My+Ry/x (x-Mx) ,
где: y – зависимая переменная;
My – средняя признака y;
Ry/x - коэффициент регрессии;
x - значение измеренного признака;
Mx – средняя арифметическая признака x.
В программе Excel значение зависимой переменной (y) при заданном значении x может быть вычислено функцией =ПРЕДСКАЗ(x ; Диапазон_y; Диапазон_x).
После получения прогнозируемого значения (y) выполняется определение его доверительного интервала с целью экстраполяции данных на генеральную совокупность с уровнем значимости p<0,05. Для этого вычисляется сигма регрессии σRy/x, которая показывает меру вариабельности зависимого признака, вычисленного по уравнению регрессии, в генеральной совокупности.
Она определяется по формуле: σRy/x= σy 1-rxy2 . Вычисление значения σy может производиться функцией = СТАНДОТКЛОН(Диапазон_у).
Пример прогнозирования значения одного признака по известному значению другого с помощью уравнения регрессии.
Условие задачи: на основе данных, характеризующих уровень запыленности рабочих мест (см. раздел VIII), необходимо выполнить прогноз уровня пыли при температуре воздуха 23С0.
Задание: построить уравнение регрессии для зависимости между температурой окружающей среды и уровнем запыленности помещения, создать регрессионную функцию и вычислить значение уровня пыли при температуре воздуха 23Со. Определить сигму регрессии и доверительный интервал для прогнозируемого значения уровня пыли.
Решение: запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе 9 этого файла внесите данные условия задачи в таблицу и выполните вычисления.
а) первоначально требуется выполнить вычисление коэффициента корреляции Пирсона с помощью таблицы отклонений (таблица 43) или функцией =КОРРЕЛ(Диапазон1;Диапазон2).
Таблица 43
Вычисление коэффициента корреляции Пирсона
Варианта Температура воздуха (x) Запыленность мг/м3 (y) dx=x-Mx dy=y-My dx*dy dx2 dy2
1 19 0,07 2,2 0,153 0,330 4,7 0,0233
2 19 0,08 2,2 0,143 0,309 4,7 0,0203
3 19 0,08 2,2 0,143 0,309 4,7 0,0203
4 20 0,2 1,2 0,023 0,026 1,4 0,0005
5 21 0,24 0,2 -0,018 -0,003 0,0 0,0003
6 21 0,25 0,2 -0,028 -0,005 0,0 0,0008
7 21 0,26 0,2 -0,038 -0,006 0,0 0,0014
8 21 0,27 0,2 -0,048 -0,008 0,0 0,0023
9 22 0,3 -0,8 -0,078 0,065 0,7 0,0060
10 22 0,28 -0,8 -0,058 0,048 0,7 0,0033
11 24 0,31 -2,8 -0,088 0,248 8,0 0,0077
12 25 0,33 -3,8 -0,108 0,412 14,7 0,0116
Средняя (М) = 21,2 0,223 Сумма (= 1,725 39,7 0,0976
n= 12 rxy=dxdydx2dy2 =1,72539,7 ×0,0976 = КОРРЕЛ(x1:xn ; y1:yn) = 0,88 .
б) вычисление коэффициента регрессии (Ry/x):
Сигма σ= d2n  σx = КОРЕНЬ(39,7/12) =СТАНДОТКЛОН(x1:xn) = 1,90
σy = КОРЕНЬ(0,0976/12) =СТАНДОТКЛОН(y1:yn) = 0,09
Ry/x=rx/y σyσx Ry/x= 0,88*1,9/0,09 = 0,04
в) вычисление величины зависимого признака (y) при температуре 23С0:
y = My+Ry/x(x-Mx) При x = 23С0 y = 0,223+0,04(23-21,2) =ПРЕДСКАЗ(x ; y1:yn ; x1:xn) = 0,30 мг/м3
г) вычисление доверительных границ колебаний зависимого признака в генеральной совокупности:
σRy/x= σy 1-rxy2 σRy/x = 1,9*КОРЕНЬ(1-0,882) = 0,045 . Доверительные границы (2σ): от 0,21 до 0,39 При p<0/05 Вывод: при температуре воздуха 23Со запыленность составит от 0,21 до 0,39мг/м3.
ЗАДАНИЯ
Запустите программу Excel, откройте файл в папке своей учебной группы под именем «Статистика – Фамилии студентов», на листе13 этого файла решите задачу, сохраните и покажите файл преподавателю.
Вариант 1
Выполнены измерения признаков, характеризующих температуру в помещении на рабочих местах работников предприятия и концентрацию вредных веществ (см. вариант 1 заданий раздела IX). Постройте уравнение регрессии для зависимости между температурой окружающей среды и концентрацией вещества в помещении. Определите значение уровня пыли при температуре воздуха 23Со, вычислите сигму регрессии и доверительный интервал для полученного значения уровня пыли.
Вариант 2
Выполнены измерения показателей физического развития школьников, характеризующих их рост стоя и объем грудной клетки (см. вариант 2 заданий раздела IX). Постройте уравнение регрессии для зависимости между ростом и объем грудной клетки. Определите значение объема грудной клетки при росте 175см. Вычислите сигму регрессии и доверительный интервал для полученного значения роста.
Вариант 3
Выполнены измерения показателей деятельности сердечно-сосудистой системы и тренированности спортсменов, среди них частота пульса и систолический объем сердечного выброса (см. вариант 3 заданий раздела IX). Постройте уравнение регрессии для зависимости между пульсом спортсменов и систолическим объемом. Определите значение объема сердечного выброса при пульсе 75уд/мин. Вычислите сигму регрессии и доверительный интервал для полученного значения пульса.
Вариант 4
В городе Н. было проведено изучение зависимости заболеваемости инфарктом миокарда по месяцам года в зависимости от среднемесячной температуры воздуха (см. вариант 4 заданий раздела IX). Постройте уравнение регрессии для зависимости между среднемесячной температуры воздуха и уровнем заболеваемости инфарктом миокарда. Определите значение уровня заболеваемости инфарктом миокарда при температуре воздуха +10С0. Вычислите сигму регрессии и доверительный интервал для полученного значения показателя заболеваемости.
Контрольные вопросыОпределение статистики.
Определение санитарной статистики.
Какие этапы статистического исследования Вы знаете?
Что входит в 1 этап статистического исследования?
Что входит во 2 этап статистического исследования?
Что входит в 3 этап статистического исследования?
Что входит в 4 этап статистического исследования?
Что такое единица наблюдения?
 Определение понятия "объект наблюдения".
Какие виды статистического наблюдения Вы знаете?
Понятие о генеральной и выборочной совокупностях.
 Что такое группировка (определение)?
Что такое типологическая группировка?
Что такое вариационная группировка?
 Таблица (определение понятия).
 Из каких элементов состоят статистические таблицы?
 Какие типы статистических таблиц вы знаете?
 Перечислите правила создания макетов с статистических таблиц.
 Для чего применяются относительные величины?
Какие относительные величины используются наиболее часто?
Как вычислить экстенсивный показатель?
Как вычислить интенсивный показатель?
Как вычислить показатель соотношения?
Дайте определение динамического ряда.
 Назовите основные показатели динамического ряда.
Для чего применяют графические изображения?
Какие величины используют для построения графических изображений?
Какие показатели можно изобразить внутристолбиковой диаграммой?
Какие показатели можно изобразить секторной диаграммой?
Какие показатели можно изобразить столбиковой диаграммой?
Какие показатели можно изобразить линейной диаграммой?
 С какой целью используются в медицинских исследованиях средние величины и их параметры?
 Дайте определение средней величины.
Какие требования предъявляются при работе со средними величинами?
Дайте определение вариационного ряда
Какие типы количественных вариаций различают?
Какие учетные признаки можно использовать для построения вариационного ряда и расчета средней арифметической?
Назовите основные элементы вариационного ряда
Как вычисляется средняя арифметическая простая?
Как вычисляется средняя арифметическая взвешенная?
Назовите основные свойства средней арифметической величины.
Что такое среднее квадратическое отклонение и его значение?
Укажите особенности, на которых основано вычисление среднего квадратического отклонения по способу моментов.
Понятие достоверности полученных данных (ошибка репрезентативности)
Чем определяется величина ошибки репрезентативности?
Какова формула ошибки репрезентативности (m) для относительных показателей?
Как определяются доверительные границы средней в генеральной совокупности и с какой целью?
Как определяется достоверность различий средних величин, для каких целей?
Как определяется достоверность различий относительных показателей?
Применение критерия соответствия (Хи-квадрат).
Принцип расчета критерия Хи-квадрат. Понятие о нулевой гипотезе.
Методика расчета ожидаемых чисел.
Порядок расчета критерия Хи-квадрат.
Расчет числа степеней свободы.
Для чего выполняется нахождение в таблице или расчет критического уровня критерия соответствия (Хиквадрат)?
Для чего применяется метод стандартизации?
Какие существуют варианты метода стандартизации?
В чем суть метода стандартизации?
Когда применяют метод стандартизации?
Назовите этапы прямого метода стандартизации.
 Каковы способы выбора (или расчета) стандарта в методе стандартизации?
О чем свидетельствуют стандартизованные показатели?
Назовите случаи применения стандартизованных показателей в практической деятельности врача.
Виды связи между признаками. Примеры связи.
Корреляционная зависимость (определение).
Функциональная зависимость (определение).
Особенности корреляционной связи.
Понятие о коэффициенте корреляции.
 Методика расчета коэффициента линейной корреляции.
 Методика расчета рангового коэффициента корреляции.
 Определение достоверности коэффициента корреляции.
 Градации размера и характер коэффициента корреляции.
Определение коэффициента регрессии и методика его расчета.
Определение размера признака по величине другого взаимосвязанного с ним признака.
Регрессия (определение).
Методика расчета уравнения регрессии и сигмы уравнения регрессии.
Список сокращений
ANOVA – дисперсионный анализ (от англ. ANalysis Of VAriance);
covxy – ковариация признаков x и y;
SS – сумма квадратов (от англ. Sum of Squares);
ВК – врачебная комиссия;
ЛПУ – лечебно-профилактическое учреждение;
МСЭК – медико-социальная экспертная комиссия;
ЧСС – частота сердечных сокращений.
Литература
Войцехович Б. А., Редько А. Н., Пильщикова В. В. и др. Основы экономики для студентов медицинских учебных заведений: учебное пособие. – Издательство: ФЕНИКС, 2010.
Зайцев В.М., Лифляндский В.Г., Маринкин В.И. Прикладная медицинская статистика (Учебное пособие). СПб, 2003.
Избранные лекции по общественному здоровью и здравоохранению: Учебное пособие. – М.: ОАО «Издательство «Медицина», 2010.
 Информационные системы в здравоохранении: Учебное пособие / В.И Сабанов, А.Н. Голубев, Е.Р. Комина.− Ростов н/Д: Феникс, 2007.
Лисицын Ю. П. Общественное здоровье и здравоохранение: Учебник. 2-е изд. – Издательство: ГЭОТАР-Медиа, 2010.
Медик В.А., Юрьев В.К. Общественное здоровье и здравоохранение: Учебник/ В.А. Медик, В.К. Юрьев . – М.: «Профессионал», 2010.
 Сабанов В.И.Медицинская информатика и автоматизированные системы управления в здравоохранении: Учебно-методическое пособие к практическим занятиям/ В.И. Сабанов, А.Н. Голубев, Е.Р. Комина. − Волгоград: Изд-во ВолГМУ, 2006.
Социальная гигиена и организация здравоохранения // Под ред. А.Ф. Серенко М.: Медицина, 1984.
Справочник по прикладной статистике //Под ред. Э.Ллойда, У.Лидермана. -T.1 и 2.М.: «Финансы и статистика», 1989.
Средние величины. Порядок составления и обработки вариационного ряда Оценка достоверности результатов исследования / составители: В.И. Сабанов, Е.Р. Комина: Методическое пособие. - Волгоград, 1996.
Статистический словарь // Под ред. А.М. Королева. М.: «Финансы и статистика» 1989. Тестовые задания по медицинской информатике и автоматизированным системам управления в здравоохранении: Учебное пособие / А.Н. Голубев, Е.Р. Комина, Л.Ф. Бирюкова; под ред. В.И. Сабанова. − 2 изд., перераб. и доп. – Волгоград: Изд-во ВолГМУ, 2011.
 Управление и экономика в здравоохранении: Учебное пособие / В.З. Кучеренко, Б.А. Райзберг и др., под ред. А.И. Вялкова. – 3-е изд., доп. – М.: ГЕОТАР-Медиа, 2009.
Юрьев В.К., Куценко Г.И. Общественное здоровье и здравоохранение (Учебник). СПб, 2000.

Приложенные файлы

  • docx 15658207
    Размер файла: 750 kB Загрузок: 1

Добавить комментарий