LEKTsIYa_3_Osnovnye_ponyatia_matstatistiki


ЛЕКЦИЯ 3
ЭЛЕМЕНТЫ МАТЕМАТИЧЕСКОЙ СТАТИСТИКИ
§1 Основные понятия математической статистики
Математическая статистика раздел математики, в котором изучаются методы сбора, систематизации, обработки и интерпретации результатов наблюдений случайных массовых явлений с целью выявления существующих закономерностей.
Основные задачи математической статистики:
получение выводов о наблюдаемых массовых явления или процессах на основе данных из наблюдений или опытов;
установление закономерностей, которым подчиняются наблюдаемые явления.
1.1.Признаки и переменные.
Для изучения случайных величин проводится ряд независимых опытов, в которых эти случайные величины принимают определенные значения. Сами случайные величины в статистике принято называть признаками или переменными.
Изучаемые признаки могут быть качественными и количественными.
К количественным признакам применяются понятия показатель или уровень.
Качественные признаки описываются словесно.
Например, при описании состояния больного количественным признаком могут быть температура, давление, пульс, а качественным описание состояния больного как нормальное, средней тяжести, тяжелое.
Любое эмпирическое научное исследование начинается с того, что исследователь фиксирует выраженность интересующего его признака у объекта или объектов исследования. Измерение – это приписывание объекту числа по определенному правилу. Это правило устанавливает соответствие между измеряемым свойством и его значением.
1.2. Выборочный метод, основные понятия и принципы
Генеральной совокупностью называют множество всех объектов, обладающих изучаемым признаком. Число объектов генеральной совокупности называют объемом генеральной совокупности и обозначают N. Генеральная совокупность определяется задачей исследования.
Пример 1. Изучается тревожность у мужчин и женщин, работающих на каком-либо предприятии.
Пример 2. Изучается агрессивность у подростков города Томска.
Пример 3. Изучается партия психотропных таблеток, поступивших на склад, на содержание действующего вещества.
В подавляющем большинстве случаев генеральная совокупность недоступна для изучения в силу следующих причин:
большой объем генеральной совокупности, что ведет к трудоемким и дорогостоящим исследованиям;
недоступность всех объектов генеральной совокупности;
изучение объекта генеральной совокупности в ряде случаев ведет к его разрушению.
В качестве примера, иллюстрирующего первые две приведенные выше причины, можно привести пример 2 (количество подростков в городе Томске велико и не все доступно для исследования). Для иллюстрации третьей причины подходит третий пример: если все таблетки партии, поступившей на склад, изучить на содержание действующего вещества, то вся партия будет уничтожена.
Чтобы не изучать всю генеральную совокупность, из нее делают выборку.
Выборкой или выборочной совокупностью называют множество объектов, отобранных случайным образом из генеральной совокупности для изучения. Количество объектов в выборке называют объемом выборки и обозначают n.
Чтобы выборка являлась хорошей моделью генеральной совокупности, она должна быть репрезентативной (или представительной). Это означает, что все объекты генеральной совокупности должны иметь одинаковые шансы попасть в выборку.
Можно выделить два основных вида отбора:
Простой случайный отбор (в силу закона больших чисел выборка будет являться репрезентативной, если будет сделана случайным образом). Простой случайный отбор может быть повторным (объект после изучения возвращается в генеральную совокупность и может быть выбран повторно) и бесповторный (объект не возвращается в генеральную совокупность). При большом объеме N генеральной совокупности и малом относительном объеме выборки разница между повторной и бесповторной выборками незначительна.Стратифицированный отбор (отбор по свойствам генеральной совокупности). Стратифицированный отбор требует предварительного определения тех качеств, которые могут повлиять на изменчивость изучаемого свойства, затем определяется процентное соотношение численности групп в генеральной совокупности и обеспечивается такое же соотношение в выборке.
Сущность выборочного метода состоит в том, чтобы по выборке, т.е. по некоторой части генеральной совокупности, выносить суждение о свойствах генеральной совокупности в целом.
1.3. Статистическое распределение выборки
Пусть для изучения количественного признака Х из генеральной совокупности извлечена выборка объема n.
Возможные значения признака Х называют вариантами, обозначают , где индекс обозначает номер данной варианты.
Частота варианты – это количество повторений данной варианты в выборке, обозначается . Сумма всех частот должна быть равна объему выборки:
.
Относительной частотой варианты называют отношение частоты варианты к объему выборки, обозначают (). Сумма всех относительных частот должна быть равна единице:
.
Вариационным рядом называют последовательность вариант, записанных в порядке возрастания.
Статистическим распределением выборки называется соответствие между вариантами и их частотами или относительными частотами .
Статистическое распределение выборки может быть представлено в виде безинтервального ряда или в виде интервального ряда.
Безинтервальный (дискретный) ряд строится в том случае, когда число различных вариант мало (малый объем выборки или при большом объеме выборки мало различных вариант).
Интервальный ряд строится в том случае, когда объем выборки большой, изучаемый признак непрерывен, много различных вариант.
Безинтервальный ряд может быть представлен двумя способами:
в виде таблицы, в первой строке которой перечисляются варианты в порядке возрастания, во второй строке – частоты или относительные частоты. Такая таблица называется статистическим дискретным рядом распределения выборки и является группированным видом представления выборки.
… или …
… …
в виде графика, в котором по оси абсцисс откладываются варианты, а по оси ординат – частоты или относительные частоты. По данным выборки наносятся точки и соединяются отрезками. Полученная ломаная называется полигоном частот (или относительных частот).

Пример. При измерении систолического артериального давления у 12 случайным образом отобранных пациентов клиники получены следующие результаты: 120, 130, 105, 130, 140, 120, 140, 130, 120, 130, 115,150 ( в мм рт. ст.). Построить статистический дискретный ряд распределения и полигон частот.
Решение.
Полигон частот имеет вид:

Суть построения интервального ряда состоит в следующем: весь диапазон изменений признака разбивается на частичные интервалы и учитывается не каждая варианта, а число объектов выборки, попавших в данный интервал.
Порядок построения интервального ряда:
Находят в выборке максимальное и минимальное значение и вычисляют размах выборки – разность между максимальным и минимальным значением: .
Определяют длину частичного интервала по формуле: , где - это объем выборки, а знаменатель дроби - количество частичных интервалов. Найденное значение округляют до ближайшего четного числа с тем же количеством знаков после запятой, что и сами измерения в выборке.
Определяют начало первого интервала таким образом, чтобы минимальная варианта попала в его середину: .
Строят таблицу, в первую строку которой записывают частичные интервалы:

Интервалы записывают до тех пор, пока не перейдут за .
Во второй строке таблицы подсчитывают количество объектов выборки, попавших в тот или иной интервал (для этого удобен метод «конвертов»). Варианта, попавшая на границу между интервалами, относится в следующий интервал. Чтобы отличить от дискретного ряда, где подсчитывается частота каждой варианты, количество значений, попавших в тот или иной интервал, обозначаем .
Полученная таблица называется статистическим интервальным рядом распределения выборки.
Графическим представлением интервального ряда является гистограмма частот или гистограмма относительных частот. Для построения гистограммы по оси абсцисс откладывают частичные интервалы, а по оси ординат отношения частоты или относительные частоты к длине интервала. В результате получается фигура, состоящая из прямоугольников, основаниями которых служат частичные интервалы, а высотами отношения .

Пример. На основании многолетних клинических наблюдений, проводившихся в Сухумском питомнике обезьян, составлена выборка 100 анализов на содержание кальция (мг%) в сыворотке крови клинически здоровых особей:
13.6; 12.9; 12.3; 9.9; 12.7; 11.8; 10.8; 10.4; 10.9; 10.2; 14.1; 10.1; 11.6; 11.7; 12.1; 10.9; 12.1; 9.7; 10.7; 11.5; 13.1; 10.9; 12.0; 11.1; 12.0; 11.2; 13.5; 10.1; 14.0; 10.0; 11.6; 12.4; 11.9; 11.4; 12.8; 11.4; 10.9; 12.7; 12.1; 13.2; 11.9; 10.8; 11.0; 12.6; 10.0; 10.3; 12.1; 11.7; 12.1; 10.8; 12.9; 11.9; 11.6; 10.6; 11.1; 10.7; 12.3; 11.5; 11.2; 11.5; 12.7; 10.5; 11.2; 11.9; 13.0; 9.7; 9.6; 12.5; 11.6; 9.6; 11.5; 12.3; 12.8; 12.6; 11.8; 12.5; 12.8; 11.4; 11.0; 10.8; 14.0; 12.4; 12.0; 11.7; 12.2; 12.3; 11.6; 12.0; 12.5; 12.0; 11.6; 11.9; 12.0; 11.4; 11.2; 11.3; 13.2; 11.5; 13.2; 11.2.
Представить эти данные в виде интервального статистического ряда распределения и построить гистограмму относительных частот.
Решение. Объем выборки известен: .
Найдем размах выборки
Найдем длину h частичного интервала
.
. Найдем начало первого частичного интервала:
.
В результате получаем следующие частичные интервалы: , , , , , , , .
Найдем число наблюдаемых значений в каждом i – ом частичном интервале (частоты интервалов), а также относительные частоты (i = 1,2,…,8). Полученные данные представим в виде таблицы:
Интервальный ряд
Част. инт. [9,3 9,9) [9,9 10,5) [10,5 11,1) [11,111,7) [11,712,3) [12,312,9) [12,913,5) [13,514,1)
4 8 14 23 22 17 7 5
0,04 0,08 0,14 0,23 0,22 0,17 0,07 0,05`
0,07 0,13 0,23 0,38 0,37 0,28 0,12 0,08
Данная таблица называется статистическим интервальным рядом распределения выборки. Для построения гистограммы относительных частот, найдем отношения .
Используя данные таблицы, построим гистограмму относительных частот:

Построение дискретных и интервальных рядов, графическое изображение рядов в виде полигонов и гистограмм позволяет получить первоначальное представление о закономерностях, которые имееют место в совокупности результатов наблюдений.
1.4. Числовые характеристики выборочной совокупности
Статистическое распределение выборки содержит всю информацию о выборке. В ряде случаев нет необходимости в такой полной информации. Вычисление числовых характеристик позволяет максимально сжать информацию о выборке. К основным числовым характеристикам выборочной совокупности относятся выборочная средняя, выборочная дисперсия и выборочное среднее квадратическое отклонение.
1.4.1. Вычисление числовых характеристик в случае безинтервального ряда.
Выборочная средняя – это средняя арифметическая всех вариант в выборке, обозначается и вычисляется по формуле:

(для группированной выборки) или

(для негруппированной выборки).
Выборочная средняя характеризует среднюю варианту признака.
Выборочная дисперсия – это средняя арифметическая квадратов отклонений вариант от выборочной средней, обозначается и вычисляется по формуле:

(для группированной выборки) или

(для негруппированной выборки).
Выборочная дисперсия описывает разброс вариант относительно выборочной средней и характеризует точность измерений. Выборочная дисперсия всегда положительна.
На практике более удобна формула
, где .
Недостатком дисперсии является то, что ее размерность не равна размерности изучаемой величины, а является квадратом ее размерности. Например, если величина измеряется в метрах, то дисперсия – в м2. Для устранения этого недостатка используется следующая числовая характеристика.
Выборочное среднеквадратическое отклонение – это квадратный корень из выборочной дисперсии, обозначается и вычисляется по формуле
.
Оно характеризует то же самое, что и выборочная дисперсия, но его размерность равна размерности самой изучаемой величины.
Пример. При подсчете количества листьев на каждом из 10 случайно выбранных лекарственных растений некоторого вида получены следующие результаты: 7; 8; 6; 8; 10; 8; 7; 10; 7; 6. Найти числовые характеристики выборочной совокупности.
Решение. Представим данные наблюдений в виде дискретного ряда распределения:
1.4.2. Вычисление числовых характеристик в случае интервального ряда.
Для вычисления числовых характеристик интервального ряда его заменяют рядом безинтервальным. Для этого каждый частичный интервал заменяют его серединой , причем вся накопленная частота присваивается величине . Получают таблицу:


Далее вычисляют для Х*:
выборочную среднюю
средний квадрат
выборочную дисперсию .
После этих вычислений возвращаются к интервальному ряду. Выборочная средняя, вычисленная путем замены каждого интервала его серединой и присвоения накопленной частоты этой середине, остается без изменений: . А выборочная дисперсия получается завышенной, поэтому вносится поправка Шеппарда: .
1.5. Точечные оценки числовых характеристик генеральной совокупности
Ценность указанных числовых характеристик выборочной совокупности состоит в том, что с их помощью можно оценить соответствующие числовые характеристики генеральной совокупности Х, т.е. генеральную среднюю

генеральную дисперсию

и генеральное среднее квадратическое отклонение

Существует два вида оценок числовых характеристик генеральной совокупности точечные и интервальные.
Оценка называется точечной, если она характеризуется одним числом, которому приближенно равна оцениваемая характеристика.
Можно показать, что наилучшей точечной оценкой генеральной средней является выборочная средняя . Математически этот факт выражается приближенным равенством

Наилучшей точечной оценкой генеральной дисперсии является исправленная выборочная дисперсия , которая определяется по формуле

Математически этот факт выражается следующим приближенным равенством

Наилучшей точечной оценкой генерального среднего квадратического отклонения является cтандартное отклонение , которое определяется по формуле
.
Математически этот факт выражается приближенным равенством

Замечание: В большинстве случаев результаты исследований представляются в виде , где

и называется стандартной ошибкой (или ошибкой средней):
Пример. При подсчете количества листьев на каждом из 10 случайно выбранных лекарственных растений некоторого вида получены следующие результаты: 7; 8; 6; 8; 10; 8; 7; 10; 7; 6. Дать точечные оценки генеральной средней генеральной дисперсии и генерального среднего квадратического отклонения количества листьев на лекарственных растений данного вида.
Решение. В предыдущем параграфе были найдены числовые характеристики выборочной совокупности: ; ; . Точечная оценка генеральной средней:
Прежде чем дать точечную оценку генеральной дисперсии, вычислим исправленную выборочную дисперсию
Получим точечную оценку генеральной дисперсии :
Находим стандартное отклонение:
Получим точечную оценку генерального среднего квадратического отклонения
1.6. Интервальные оценки числовых характеристик генеральной совокупности. Доверительный интервал
Если на основании выборочных данных дается оценка того или иного параметра генеральной совокупности, то при этом необходимо иметь в виду, что данная оценка является лишь приближенным значением неизвестного параметра. При малом объеме выборки значение точечной оценки может очень сильно отклоняться от истинного значения параметра. Вопрос состоит в том, как велико это отклонение.
Чтобы решить этот вопрос, используются интервальные оценки, которые даются в виде доверительного интервала.
Доверительный интервал – это интервал со случайными границами, в котором с заданной вероятностью находится значение параметра генеральной совокупности.
называется доверительной вероятностью, она характеризует надежность результатов. Чем выше , тем выше надежность, но при этом снижается точность. В медицинских и биологических исследованиях в качестве берут 0,9; 0,95 или 0,99.
Доверительный интервал может быть построен для различных числовых характеристик генеральной совокупности. Мы рассмотрим построение доверительного интервала для генеральной средней в том случае, когда исследуемая величина распределена по нормальному закону.
Доверительный интервал для оценки генеральной средней с заданной доверительной вероятностью нормально распределенного признака Х при неизвестном среднем квадратическом отклонении (что в основном и имеет место на практике) находится по формуле

где - вычисленная по выборке выборочная средняя,
- квадратный корень из исправленной выборочной дисперсии,
- объем выборки,
- коэффициент Стьюдента, вычисляемый по таблице. Он зависит от доверительной вероятности и числа степеней свободы .
Величина , равная половине длины доверительного интервала, представляет собой наибольшее отклонение выборочной средней от генеральной средней , которое возможно при заданной доверительной вероятности . Она называется предельной ошибкой выборки.Пример. Из большой партии таблеток некоторого лекарственного препарата случайным образом были извлечены 8 таблеток. При измерении массы таблеток были получены следующие результаты (в мг): 151, 147, 152, 152, 151, 148, 151, 148. Оценить истинную массу таблетки с помощью доверительного интервала с доверительной вероятностью.
Решение. Составим дискретный ряд распределения:
147 148 151 152
1 2 3 2
Найдем выборочную среднюю :
.
Для вычисления выборочной дисперсии в данном случае удобнее использовать формулу
, тогда исправленная выборочная дисперсия будет равна

и, следовательно, стандартное отклонение равно:
.
По таблице значений коэффициента Стьюдента при доверительной вероятности и числе степеней свободы находим значение .
Находим доверительный интервал для оценки истинной массы таблетки:


.
Таким образом, истинное значение массы таблетки с доверительной вероятностью 0,95 заключено в интервале .

Таблица значений коэффициента Стьюдента
Число степеней свободы
f Доверительная вероятность Число степеней свободы
f Доверительная вероятность
0.95 0.99 0.999 0.95 0.99 0.999
1 12.706 63.657 636.619 18 2.103 2.878 3.922
2 4.303 9.925 31.598 19 2.093 2.861 3.883
3 3.182 5.841 12.941 20 2.086 2.845 3.850
4 2.776 4.604 8.610 21 2.080 2.831 3.819
5 2.571 4.032 6.859 22 2.074 2.819 3.792
6 2.447 3.707 5.959 23 2.069 2.807 3.767
7 2.365 3.499 5.405 24 2.064 2.797 3.745
8 2.306 3.355 5.041 25 2.060 2.787 3.725
9 2.262 3.250 4.781 26 2.056 2.779 3.707
10 2.228 3.169 4.587 27 2.052 2.771 3.690
11 2.201 3.106 4.487 28 2.048 2.763 3.674
12 2.179 3.055 4.318 29 2.045 2.756 3.659
13 2.160 3.012 4.221 30 2.042 2.750 3.646
14 2.145 2.977 4.140 40 2.021 2.704 3.551
15 2.131 2.947 4.073 60 2.000 2.660 3.460
16 2.120 2.921 4.015 120 1.980 2.617 3.374
17 2.110 2.898 3.965 1.960 2.576 3.291

Приложенные файлы

  • docx 18395202
    Размер файла: 284 kB Загрузок: 0

Добавить комментарий