mat_metody (1)


Признаки и их классификация
Признак - свойство, проявлением которого один предмет отличается от другого.
В биологии признак – это характерная особенность в строении или функциях биологического объекта, которая позволяет отличать одну единицу наблюдения от другой; сравнивать их между собой.
Признаки: качественные, количественные, порядковые.
Качественные: воспринимаются непосредственно органами чувств и выражаются по альтернативной схеме: есть или нет. Относят: цвет, запах, вкус, состояние здоровья, умер/живой.
Количественные: поддаются непосредственному измерению или счету. Их делят на: мерные и счетные. Мерные признаки: варьируют непрерывно, их величина может принимать в определенных пределах (от-до) любые числовые значения (урожайность той или иной продукции, мясная или молочная продуктивность животных). Счетные признаки: варьируют прерывисто или дискретно, их числовые значения выражаются только целыми числами (число зерен или колосков, яйценоскость).
Альтернативные: если результаты наблюдений группируются в противопоставляемые друг другу группы (противопоставление женских особей – мужским, больным – здоровых и т.д.
Порядковые: когда оценку осуществляет 1 человек (преподаватель, судья). В ответственных случаях группа людей (коллегия, жюри). Оценка в балльной системе (в спорте – места). Особенность – разные интервалы между разными порядковыми признаками.
Количественные признаки распределяются в вариационный ряд, а качественные нет.
Величина любого варьирующего признака яв-ся переменной случайной величиной.
Однофакторные и двухфакторные дисперсионные комплексы. Примеры этих комплексов.
Все факторы, влияющие на величину какого-либо био признака, подразделяют на регулируемые или контролируемые и неконтролируемые. Величина воздействия первой группы факторов может быть задана исследователем (доза облучения, концентрация раствора, температура хим реакции и т.д.) или измерена (солнечная освещенность, влажность воздуха, содержание солей в водоеме и т.д.). Неконтролируемые факторы обычно варьируют случайным образом; порою эффект от воздействия на био объекты не поддается учету, хотя сами факторы могут быть количественно оценены (вспышки на солнце, атмосферное давление и др). Влияние неконтролируемых факторов затрудняет выявление связи между величинами признака и регулируемого фактора. Задача ещё более усложняется в том случае, когда на объект действует не один, а два или более регулируемых фактора и необходимость установить, какой из этих факторов влияет на определенный признак, а какой не влияет.
Для решения такого рода задач Р.А. Фишер предложил метод, который называется дисперсионным анализом. Сущность этого метода состоит в том, что результаты экспериментов оцениваются не по средним арифметическим, а по дисперсиям. Величина общей вариации признака Dy состоит из двух слагаемых: вариации Dx , обусловленной действием регулируемого фактора, и вариации Dz , обусловленной действием неконтролируемого фактора, то есть Dy= Dx+Dz . Задача состоит в том, чтобы найти общую дисперсию для всего комплекса наблюдений и разложить ее на составляющие части.
Перед началом анализа исходные данные группируют в комплексы, представляемые в форме таблиц. В зависимости от числа факторов, по которым проводится анализ, комплексы подразделяют на однофакторные, двухфакторные и многофакторные. Анализ во всех случаях проводится по некоторым общим схемам. Достоверность влияния регулируемого фактора на рассматриваемый признак оценивается с помощью критерия Фишера (фактического)
Fф= σx2 / σz2 ,
Где σx2 – межгрупповая дисперсия, σz2 - внутригрупповая дисперсия.
Вычисленное значение критерия Фишера сравнивается со стандартным Fст, найденным в таблице «Стандартные значения критерия Фишера в зависимости от числа степеней свободы и уровней значимости» для соответствующего числа степеней свободы и принятого уровня значимости. Если фактическое значение критерия Фишера Fф равно или больше Fст, то заключение о влиянии регулируемого фактора на рассматриваемый признак достоверно.
Примеры:
Однофакторный комплекс: влияние температуры на активность амилазы слюны человека при постоянном значении pH среды. Поскольку изучается влияние на активность фермента одного фактора (t), то анализ будет однофакторным.
Двухфакторный комплекс: влияние температуры (фактор В) и pH среды (фактор А) на активность амилазы слюны человека.
Отправные положения и теоретическая основа биометрии
Биометрия – это наука по использованию теории вероятностей.
Наука, которая зан-ся вопросами планирования био.эксперимента и анализа результатов исследований на основе теории вероятностей
Предмет биометрии – любой биологический объект, изучаемый с кол-ой стороны с применением счета и меры для его качественной оценки.
Что влияет на био. процессы?
А) внутривидовая изменчивость – основная причина различий в биологии. Генотипическая изменчивость, фенотипическая.
Б) ошибки эксперимента:
-технические – опре-ся точностью прибора. Прибор каждого класса дает опред-ную погрешность. Приборы должны проходить юстировку и стандартизацию.
-личные ошибки – опр-ся классиф-ей исследователя. Они всегда есть и их трудно прогнозировать.
-случайные – их трудно прогнозировать, они всегда существуют.
Отправные положения биометрии:
Внутривидовая изменчивость
Случайные ошибки
Теоретические основы биометрии:
Математическая статистика - наука, разрабатывающая математические методы систематизации и использования статистических данных для научных и практических выводов.
Теория вероятностей - раздел математики, изучающий: случайные события, случайные величины, их свойства и операции над ними.
Теоретические основы дисперсионного анализа
Сущность метода. Наряду с относительно простыми способами сравнения одной выборки с другой в исследовательской работе встречаются и более сложные задачи, когда приходится сравнивать одновременно несколько выборок, объединяемых в единый статистический комплекс. В таких случаях метод попарных сравнений выборочных характеристик оказывается обременительным, требующим большой вычислительной работы. Учитывая это обстоятельство, Р. Фишер (1925) предложил метод комплексной оценки сравниваемых средних, получивший название дисперсионного анализа. Этот метод основан на разложении общей дисперсии статистического комплекса на составляющие ее компоненты (отсюда и название метода), сравнивая которые друг с другом посредством F-критерия можно определить, какую долю общей вариации учитываемого (результативного) признака обусловливает действие на него как регулируемых, так и не регулируемых в опыте факторов. Так, если регулируемый фактор (например, доза удобрений) оказывает существенное влияние на результативный признак (урожай культуры), оно непременно скажется на величине групповых средних, которые будут заметно отличаться друг от друга. Таким образом, здесь происходит варьирование групповых средних, причиной которого является влияние регулируемого фактора. Внутри каждой группы, входящей в статистический (дисперсионный) комплекс, тоже обнаружится варьирование, вызванное влиянием на признак не регулируемых в опыте факторов. Зависимость между этими источниками варьирования выразится равенством Dy=Dx+De, где Dx - межгрупповая девиата, представляющая собой сумму квадратов отклонений групповых средних Xi (их общее число - а) от общей средней x комплекса, взвешенную на численность вариант в группах n, т.е.

Формирование выборочной совокупности
Перед началом статистической обработки необходимо сформировать выборочную совокупность (выборку). Чтобы выборка была репрезентативной, то есть достаточно адекватно отражала распределение значений признака в генеральной совокупности, она должна удовлетворять требованиям Типичности, Объективности и Однородности. Выборки бывают больше (n больше 30) и малые (n меньше или равно 30).
Типичность – неоходимо исключить заведомо известные факторы, которые могут давать ошибку (больные животные, растения, поврежденные части и т.д.)
Объективность – выборку надо осуществить непредвзято, а наугад, по принципу материи.
Однородность – все объекты одного пола. Если самки, то не должно быть беременных; должны быть одного возраста, содержаться в одинаковых условиях. Такую выборку легче создать, когда эксперимент активный. Пассивный эксперимент – когда в природе что-то изучают( пример: экзамен – оценка(количественный признак). Генеральная совокупность – 90 вопросов, выборка – 1 билет – 54?или 3 вопросов)
Типичность – все вопросы. Объективность – билеты наугад. Однородность – в билетах одинаковое количество вопросов.
Построение динамических рядов


Ранжированные и вариационные ряды. Построение вариационных рядов.
Наиболее распространенным способом упорядочения эмпирических данных, полученных в ходе эксперимента, является построение рядов. Простейшие – ранжированные, в которых значения признака, входящие в выборку, записывают одной строкой в порядке возрастания.
Вариационный ряд (ряд распределения) – двойной ряд чисел, показывающих, как связаны числовые значения признака с частотой их встречаемости в данной выборке.
Первый ряд – значения вариант (x)
Второй ряд – частоты их встречаемости (p)
Пример – число лепестков в цветке (признак) какого-то растения.
Частота (p) (все варианты) – число, показывающее сколько раз данные значения встречаются в этой совокупности.
Общая сумма частей всех вариантов – объем совокупности (n). Вариационные ряды нужны для более быстрого нахождения средних величин и показателей вариации, а также для выявления закономерностей варьирования изучаемого признака.
Построение вариационного ряда необходимо производить в следующей последовательности:
Найти среди исходных данных минимальное и максимальное значение признака Xmax, XminВычислить диапазон варьирования признака
Установить чило классов К, по формуле Стерджеса: K=1+3,32lgnВычислить классовый интервал i=(Xmax-Xmin)/K
Начертить таблицу
Установить границы классов и заполнить соответствующую графу таблицы.
Заполнить графу срединные значения классов. Равно полусумме значений его границ
Произвести разноску вариант по классам.
Стохастические процессы. Марковские процессы.


Структура и место в системе биологических наук дисциплины «Математические методы в биологии. ЭВМ и программирование»
Математические методы по характеру решаемых задач делятся на 2 группы. К первой группе, которой посвящен раздел «Биометрия», относят методы, используемые при планировании и статистической обработке опытных данных. Вторая группа включает методы, с помощью которых осуществляется построение и анализ математических моделей биологических систем, они рассмотрены в разделе «Мат.моделирование био.систем». ЭВМ и программирование, о которых говорится в разделе с таким же названием, по отношению к биометрии и мат.моделированию выполняют подсобную роль, связанную преимущественно, с выполнением вычислительных работ.
При работе с биологическими объектами отсутствует однозначная связь между входными воздействиями и выходными величинами. Чтобы в условиях такой неоднозначности с определенной достоверностью охарактеризовать эту связь, требуется статистическая обработка результатов опыта. Математическо-статистические расчеты требуются практически во всех биоисследованиях независимо от цели, которую они преследуют, и в этом проявляется обслуживающая роль биометрии по отношению к эксперименту. Связь между биометрией и экспериментом двухсторонняя: с помощью биометрических расчетов биолог не только обрабатывает опытные данные, но и планирует грамотную постановку эксперимента. Также с мат моделированием у биометрии двухсторонняя связь: опытные данные, получаемые в результате проверки модели, подвергаются статистической обработке, а вытекающие из нее выводы подтверждают или опровергают адекватность модели описываемому процессу. Связь ЭВМ и программирования с биометрией и мат.моделированием биосистем преимущественно односторонняя: совершенствование ЭВМ и техники программирования идет самостоятельным путем.
Мат методы в биологии имеют свою специфику. 1) они не связаны непосредственно с биологическими объектами, поэтому им не требуется спец.техника, реактивы и прочее. Непосредственным объектом исследования для мат.методов яв-ся цифровой или графический материал, полученный в процессе наблюдения или эксперимента и математические модели.
Мат методы имеют свою научную базу, которую представляют различные разделы математики. Биометрия базируется преимущественно на теории вероятностей и мат. статистике. Мат моделирование допол-но использует алгебру, совокупность разделов, входящих в высшую математику, а также основные положения теорий информации, надежности, автоматического регулирования и управления и пр. Для построения мат моделей биологических систем необходимо знание количественных закономерностей из области других наук: химии, многих разделов физики, наук о земле и пр.
Средние величины. Способы вычисления значения средней арифметической и средней геометрической
В качестве обобщающего, наиболее типичного для данной совокупности значения признака используется средняя величина.
В зависимости от природы признака, образующего совокупность, выбирается соответствующий вид средней величины.
Для характеристики биологических признаков используются: ср арифметическая, ср квадратическая, ср кубическая, ср гармоническая, ср геометрическая.
Ср арифметическая – частное от деления суммы всех вариант совокупности на объем совокупности x=i=1nxi/n – простая ср арифметичекая.
Если в совокупности некоторые варианты повторяются, то среднюю арифметическую можно вычислить по формуле x=xipi/n – взвешенная средняя
Где p – частота встречаемости варианты х
41770303302000Если несколько групп, т.е. несколько однородных совокупностей суммарная средняя:
xS = xini/niГде ni – объем отдельной совокупности.
Способ условной средней – когда наиболее часто встреч варианту приним за среднюю А и вычисляем xy = A+xi-An ; xi-A – отклонение каждой варианты от условной средней, n-число измерений.
Если совокупность представлена в форме вариационного ряда с классовым интервалом i, то ср арифметическая:
x=A+aipi/piГде p – частота класса, a – отклонение ср значения класса от условной средней A
Св-ва ср арифметической:
(xi-x)=0
pixi-x=0(xi-x)2< (xi-c)2 ; c≠xс – любая др величина
(xi-x)2=min
(xi±c)n=x±c - ср арифм увелич или уменьш на с
Аналогично с умножением и делением
сxin=cx (xi/c)n=x/c
Ср геометрическая – применяется для определения средней относительной скорости изменения какой-то величины во времени. Она характеризует процесс
Wg=nW1×W2×…×WnСредняя геометрическая обычно используется при анализе признаков, величины которых во времени меняются по закону геометрической прогрессии(рост поголовья стада, рост численности в популяции и т.д)
Если известны начальные и конечные значения , то скорость прироста может вычисляться по формуле Броди:
W=x2-x1(x2-x1)/2×100%
Обычно величина Wg вычисляется с использованием логарифмов по формуле
lgWg=(lgW1+lgW2+…+lgWn)/n
По значению lgWg в таблице антилогарифмов или на шкале микрокалькулятора находят величину Wg.
Общая схема цифровой электронной вычислительной машины (ЦВМ) и работа её основных функциональных блоков.
Машины, в которых используется цифровая форма представления информации, называются цифровыми вычислительными машинами(ЦВМ). Величины в ЦВМ выражаются в виде цифровой последовательности, которая обычно представляет собой комбинацию нулей и единиц, так как большинство вычислительных машин работает в двоичной системе исчисления. ЦВМ обладаютуниверсальностью и высокой точностью вычислений, они получили наибольшее распространение.

В настоящее время применяется больше количество эвм, но однако как правило, все они содержат в 5 наиболее важных устройств(блоков), каждое из которых выполняет свои специф.функции. Совокупность этих функционально связанных между собой блоков образует структуру эвм. Блоки: память, устройство управления, арифметическо-логическое устройство, устройство ввода и вывода.
Память – устройство для хранения информации. Память делится на оперативную и внешнюю. Оперативная представляет собой совокупность ячеек, в каждую из которых можно поместить число либо команду программы. Внешняя память содержит справочные данные, программы, не используемые ЭВМ в данный момент и другую информацию. Внешняя представлена: магнитными лентами, дисками.
Устройство управления – организует весь процесс работы ЭВМ в соответствии с программой, заданной пользователем. Оно расшифровывает каждую команду и подает сигналы устройствам ЭВМ, участвующим в выполнении команды.
Арифметическо-логическое устройство – осуществляет машинные операции (сложение, умножение и др.) над числами, поступающими из оперативной памяти.
Устройство ввода – предназначено для подачи в ЭВМ информации, которая может вводиться непосредственно с клавиатуры электрической пишущей машинки или дисплея.
Устройство вывода – предназначено для отображения результатов работы ЭВМ, которые могут быть представлены в форме отдельных цифровых величин, таблиц, графиков, геометрических фигур.
Основные понятия теории вероятностей. Классификация вероятностей.
Первоначальным понятием о теории вероятностей является событие. Под событием понимают любой возможный факт, о котором можно сказать, что он произойдет или не произойдет в данных условиях.
События бывают: 1) Достоверные - событие, которое в конкретных условиях обязательно произойдет; 2) Невозможные - событие, которое в данных условиях не может произойти; 3) Случайные - которые могут произойти или нет. Непредсказуемость исхода случайного события обусловлена действием многочисленных причин, не поддающихся учету.
Исход события реализуется в процессе испытания, включающего в себя совокупность условий или действий, при котором может произойти или нет случайное событие.
Прогноз события можно обозначить как вероятно, невероятно, более вероятно, вероятнее всего.
Р-вероятность
А-событие
А - противоположное событие
Р(А)- вероятность события А
Р(А)- вер. противоположные события
Вероятность невозможного события = 0
Вероятность достоверного события = 1
0< P(A) случайное событие <1
Ʃ вероятностей прямого и противоположного события = 1
Виды вероятностей:
Классическая - ее можно определить без проведения эксперимента, расчетным путем (равна отношению числа благополучных исходов к общему числу) например, игр кость, монета. Р(А)=M/N
Статистическая – получается только после опыта, путем массовых однородных испытаний (равна отношению числа положит удачных исходов m к общему числу) например, вероятность рождения мальчиков. Р(А)~m/n
Геометрическая – разновидность классической, когда значение может быть рассчитано без проведения испытаний. например, определить вер-ть встречи 2х чел-ек, договорившихся прийти в определенное место между 8 и 9 часами, причем каждый ждет др 15 мин, а затем ,не дождавшись, уходит.
Р(А)=SA/S, где SA-площадь области, благоприпятствующей встрече, S- площадь всей области
Специальные области применения ЭВМ в биологии.
Электронные вычислительные машины (ЭВМ). Основными схемными элементами ЭВМ являются электронные приборы — электронные лампы или транзисторы. Основные области применения ЭВМ в медицине и биологии следующие. 1. Диагностика заболеваний, определение прогноза и выбор оптимального варианта лечения, классификация биологических объектов. 2. Автоматическая обработка экспериментальных и клинических данных (выделение регулярных составляющих в электроэнцефалограммах и неврограммах, спектральный и корреляционный анализ биологических процессов, подсчет и классификация клеток крови или гистологических препаратов, анализ данных радиографии, обработка данных рентгенологического обследования). 3. Реализация математических и физических моделей (моделирование нервных сетей, поведения, обмена в организме или отдельных клетках, отдельных органах или системах организма, поведения популяций животных). 4. Стереотаксические расчеты во время операций на головном мозге человека. 5. Автоматизация обработки медицинских архивных материалов. 6. Предсказание фармакологических свойств веществ по их физико-химическим характеристикам. 7. Автоматическое управление искусственным дыханием и кровообращением во время операций и при наблюдении за больными в тяжелом состоянии. 8. Планирование и автоматизация длительных и дорогостоящих экспериментов. Имеется тенденция к дальнейшему расширению областей применения ЭВМ в биологии и медицине.
Биномиальное распределение. Формулы Бернулли, бинома Ньютона и Лапласа.
Биномиальное распределение в теории вероятностей — распределение количества «успехов» в последовательности из независимых случайных экспериментов, таких, что вероятность «успеха» в каждом из них постоянна и равна.
Пусть в урне имеется А белых и В чёрных шаров, тогда варианты исходов= AA,AB,BA,BB. Вероятность извлечения из урны белого шара при однократном испытании равна P(B)=MB/N- для краткости обознач q , а вероятность извлечения чёрного шара P(A)=MA/N- для краткости обознач p
N=MA+MB – число шаров, тогда при двукратном испытании вероятности будут равны p2,pq,qp,q2. При трехкратном испытании возможны след исходы: ААА,ААВ,АВА,ВАА,АВВ,ВАВ,ВВА,ВВВ, которым соответствуют вероятности p3,p2q,pqp,qp2,qpq,q2p,q3.
Анализ полученных выражений свидетельствует о том, что все они являются слагаемыми развернутой формулы бинома Ньютона(p+q)n. Тогда для кратности испытания n=2 (p+q)2=p2+2pq+q2, а для n=3 (p+q)3=p3+3p2q+3pq2+q3.
Развернутая формула бинома Ньютона:
(p+q)n=1pn+n/1pn-1q1+(n(n-1))/(1*2)*pn-2q2+…+n/1p1qn-1+1qn содержит n+1 слагаемое, каждое из кот выражает появление в сложном событии прямого или противоположного исходов соответствующее число раз. Такое распределение наз Биномиальным. Оно характеризует распределение дискретных величин.
Каждый член биномиального распределения состоит из коэффициента и произведения вероятностей прямого и противоп событий, возведенный в степень. Якоб Бернулли дал общую формулу дня нах величины каждого члена бинома Ньютона:
Pn(m)=Cnmpmqn-m=n!/m!(n-m)!pmqn-m, где Pn(m)- вероятность появления события А в n независимых испытаниях m раз,
Cnm- число сочетаний из n элементов по m,
p и q - вер-ти прямого и против событий,
m - частота появления ожидаемого события,
n - число независ испытаний.
При большом числе испытаний вероятность появления ожидаемого события вычисляют по формуле Лапласа:
15.Графики распределения значений биологического признака. Основные правила построения графиков.
Ряд распределения — представляет собой упорядоченное распределение единиц изучаемой совокупности на группы по определенному варьирующему признаку. В зависимости от признака, положенного в основу образования ряда распределения различают атрибутивные и вариационные ряды распределения:
Атрибутивными — называют ряды распределения, построенные по качественными признакам.
Ряды распределения, построенные в порядке возрастания или убывания значений количественного признака называются вариационными.
Наглядно ряды распределения представляются при помощи графических изображений. Ряды распределения изображаются в виде:
Полигона. При построении полигона на горизонтальной оси (ось абсцисс) откладывают значения варьирующего признака, а на вертикальной оси (ось ординат) — частоты или частости. При построении полигона и кумуляты рекомендуется достраивать ломанную линию, принимая численности классов, примыкаемых с обеих сторон к вариационному ряду, равными нулю
Гистограммы. Для построения гистограммы по оси абсцисс указывают значения границ интервалов и на их основании строят прямоугольники, высота которых пропорциональна частотам (или частостям).
Кумуляты. Кумулята или кумулятивная кривая в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат — накопленные частоты или частости.
16. Метод индексов. Достоинства и недостатки метода. Примеры индексов.
Наряду с регрессионным анализом для выражения количественной связи между признаками в отдельных случаях используют индексы. В методе индексов величина одного признака выражается в форме определённого соотношения с величиной другого, связанного с ней признака. В простейшем случае величина индекса I равна отношению значения признака х к сопряжённому значения признака у. Это соотношение часто выражают в процентах. I=(х/у)*100% Метод индексов применяется преимущественно в зоологии, зоотехнике, антропометрии и нек. Др. областях науки. Примеры: - весовой индекс мозга I=(Gгм2/Gm)*100%, где Gгм – масса головного мозга, Gm – масса тела), - коэффициент целенцефализации I=(Gпм2/Gгм)*100%, (Gпм – масса переднего мозга, Gгм – масса головного мозга), - грудной индекс I=(Lш/Lг)*100%, (Lш и Lг - соответственно ширина и глубина груди), - индекс Успенского I=G/(T*L), G – масса тела человека, L – его рост, T – периметр грудной клетки. Между значениями индексов и определённых признаков животных может быть выявлена связь. Так, Р.С. Полякова на представителях семейства мышиных установила связь величины весового индекса мозга с подвижностью животных.
Ростово-весовой показатель оценивает пропорциональность показателей массы и роста ребенка. Для его определения используется специальная формула:
М х 100/ Р,
где М — показатель массы тела ребенка;
Р — показатель роста ребенка.
17) Средства механизации и автоматизации вычислительных работ в биологии,требования к ним со стороны биометрии и матем. Моделирования биологических систем. Наиболее старым инструментом для арифметических вычислений являлись счёты, счётная линейка, к-ая позволяет работать с log, тригонометрическими величинами и делать др. операции. Также механические устройства – арифмометры, курвиметры, планиметры. С помощью планиметра, напр., замеряют площади растительного листа, а с помощью курвиметра длину его контура. Сюда ещё относятся электронные микрокалькуляторы, но механические вычислительные машины сейчас практически не применяются. На смену им пришли электронные вычислительные машины (ЭВМ). Их достоинства: высокая скорость счёта, универсальность (решают много задач), наличие памяти, бесшумность выполнения операций, высокая надёжность и др. ЭВМ представлены цифровыми (ЦВМ) и аналоговыми (АВМ) выч. машинами. Моделирования биологических систем. Понятие сущности явлений, прогнозирование судьбы систем, исследование их поведения в ответ на воздействия, построение фазовых траекторий и другие задачи легче и дешевле решать с помощью моделей. Моделирование – использование моделей взамен реальных объектов при исследовании их, получило широкое использование в науке. Модель – это другой объект, обладающий свойствами, сходными с оригиналом. Существует большое число классов моделей (реальные, натуральные, аналоговые, идеальные, концептуальные и др.), к-ые отличаются по степени отвлеченности от реальных объектов.
18Показатели вариации. Способы вычисления значения среднего квадратического отклонения.
Вариация – различие в значениях какого-либо признака у разных единиц данной совокупности в один и тот же период или момент времени. К показателям вариации относятся: пределы вариации, размах вариации, среднее линейное отклонение, дисперсия, среднее квадратическое отклонение, коэффициент вариации и нормированное отклонение. Пределы вариации (лимит) – это значения максимальной и минимальной вариант выборочной совокупности. Лимиты указывают границы варьирования биологического признака. Размах вариации – разность между max и min вариантами. Среднее линейное отклонение - средняя арифметическая абсолютных значений отклонений (модуль отклонений) отдельных вариантов от их средней арифметической:
∆=x-ẋn .
Дисперсия: σ2=x-ẋ2n-1 Среднее квадратическое отклонение – «сигма», наиболее распостраненный показатель используется при статической обработке данных: σ=x-ẋ2n-1. Коэффицент вариации – безразмерный показатель и важный биологический показатель, служит для того, чтобы сравнивать степени вариабельности при
Нормированное отклонение – отклонение отдельной варианты выборочной совокупности от средней арифметической; величина неименованная: t=x-ẋσ. Способы вычисления σ. Прямой, длинный и трудоёмкий способ: σ=x-ẋ2n-1. Она может быть преобразована в виде: σ=x2n-xn2∙nn-1=x2n-ẋ2∙nn-1; короткий способ: σ=α2ρn-αρn2∙nn-1; где а-отклонение варианты от средней А; р – частота встречаемости варианты; n – объем выборочной совокупности. Если известны объёмы нескольких выборочных совокупностей, то формула такая: σs=σ2n-1n-1; где σs- суммарное среднее квадр. отклонение; σ- среднее квадр. отклонение для отдельной выборки; n- объм отдельной выборки.
19.Структура АВМ
Сleft000уществуют различные типы АВМ, имеющие свои особенности. Однако, функциональные узлы большинства АВМ одинаковы по своему назначению. Поэтому в общем виде АВМ может быть представлена следующей структурной схемой (рис. 1):
Решающие блокиАВМ – основные блоки машины, осуществляющие выполнение математических операций над машинными переменными.Измерительные приборы– используются для измерения вводимых исходных величин и результатов решения.Система питанияобеспечивает все необходимые напряжения для питания решающих блоков и других устройств машины. Система управления объединяет все блоки машины в единое целое и обеспечивает их функционирование и управление ими.
Основными функциональными элементами АВМ являются решающие блоки, которые, в зависимости от вида реализуемых ими математических операций подразделяются на линейные блоки и блоки нелинейности.
Линейные блоки АВМ
Базовым линейным решающим блоком электронных АВМ является операционный усилитель (ОУ). Операционный усилитель представляет собой усилитель постоянного тока (УПТ) с большим коэффициентом усиления, охваченный глубокой отрицательной обратной связью. С помощью различных комбинаций электрических емкостей и сопротивлений на входе усилителя и в цепи его обратной связи можно реализовать следующие математические операции над непрерывными величинами, представленными в виде напряжений постоянного тока:
Программирование при работе на АВМ существенно отличается от программирования на цифровой ЭВМ. Конструктивно АВМ состоит из отдельных частей, наиболее важными из которых являются операционные блоки. Каждый операционный блок при работе машины способен выполнять какую-либо математическую операцию: алгебраическое суммирование, перемножение или деление двух величин, дифференцирование, интегрирование и т.д. Решению задачи на АВМ предшествует программирование, которое включает два этапа. Вначале осуществляют своего рода перевод математического уравнения на "язык" АВМ путем выбора необходимых блоков и соответствующего электрического соединения (коммутации) их между собой. Электрические входы и выходы операционных блоков располагаются на так называемом операционном поле машины. Путем соединения входов и выходов операционных блоков с помощью проводников (скобок и коммутационных шнуров) собирают структурную схему, которую можно уподобить программе с формальными параметрами на ЦВМ. На втором этапе (масштабировании) производят увязку значений математических переменных с машинными переменными (напряжением электрического тока): выбирают масштаб математических переменных, рассчитывают так называемые коэффициенты передачи, которые устанавливают с помощью переменных сопротивлений на машине. Таким образом, на втором этапе в структурную схему вносится количественное содержание, поэтому масштабирование напоминает операцию ввода исходных данных (фактических параметров) в программу ЦВМ. Результаты работы АВМ обычно читают на вольтметре и экране электронно-лучевого индикатора.
20. Арифметические операции над вероятностями.
Со значениями вероятностей можно производить арифметические операции.
Суммируют вероятности в том случае, если ожидаемый результат достигается при положительном исходе лишь одного (любого) из определенного набора исходов. Например, выпадению четной цифры при однократном бросании игральной кости благоприятствуют грани 2,4 и 6. Выпадение любой цифры из этого набора дает ожидаемый результат, а его вероятность равна сумме положительных исходов всего набора:
Р( А2 , либо А4 , либо А6)= Р(А2)+ Р(А4)+ Р(А6) = 1/6 + 1/6 + 1/6 = 3/6 = 1/2.
Суммировать вероятности можно лишь в том случае, если соответствующие им события являются несовместимыми (несовместными) между собой, то есть никакие хотя бы два из них не могут произойти одновременно. В рассмотренном случае с игральной костью все исходы однократных испытаний несовместимы, так как при одном бросании выпадает (оказывается сверху) только одна грань.
Умножают вероятности в том случае, когда определяют вероятность сложного события, включающего исходы простых событий. Например, выпадение одной и той же цифры при одновременном бросании двух игральных костей( или при двух бросании одной кости) является сложным событием. Его вероятность зависит от исхода каждого из двух событий, которые друг от друга не зависят. Вероятность сложного события в этом случае находят путем перемножения вероятностей составляющих событий.
Р( А и А) =Р(А) * Р(А) = 1/6 * 1/6 = 1/36.
Перемножать можно любое число значений вероятностей. Так, вероятность выпадения цифр при шести последовательных бросаниях кости в очередности 1, 2, 3, 4, 5, 6 равна:
Р( А1 и А2 и А3 и А4 и А5 и А6) = Р(А1) * Р(А2) * Р(А3) * Р(А4) * Р(А5) * Р(А6) = (1/6)6.
Умножать вероятности можно лишь в том случае, если соответствующие им события являются независимыми( друг от друга) и совместимыми( совместными), так как только совместное наступление простых событий обеспечивает соответствующий результат сложного события.
22. Распределение Пуасcона.
Характер биноминальной кривой определяется двумя величинами: числом испытаний n и вероятностью p ожидаемого результата. При p=q биномиальная кривая строго симметрична и по мере увеличения числа испытаний приобретает все более плавный ход, приближаясь к своему пределу – нормальной кривой. Если p ≠q ,биномиальная кривая становится ассиметричной и тем сильнее, чем больше разница между p и q. Когда вероятность события очень мала и исчисляется сотыми и тысячными долями единицы, распределение частот таких редких событий в n независимых испытаний становится крайне ассиметричным. Для описания такого рода распределений редких событий служит формула Пуассона:
Pn (m)=amm!ea ,
где Pn(m) – вероятность появления редкого события в n независимых испытаниях m раз;
a≈ n p – наивероятнейшая частота редкого события;
e= 2,7183; 0!= 1
формула Пуассона позволяет определять вероятность для любых значений а от 0 до n.
Таким образом, распределение Пуассона является частным случаем биноминального распределения, когда p >> q . Оно описывает вероятности редких событий, встречающихся в микробиологии, радиобиологии, генетике и других областях биологии.
Ожидаемая частота встречаемости события (р’) для обоих видов дискретного распределения (биномиального и Пуассона) вычисляется по формуле: p’ = n * Pn (m).
24. Совмещение полигона эмпирического распределения с кривой нормального распределения.
Нормальное распределение является частным случаем биноминального распределения, в котором p=q и n→∞. Графически оно изображается в виде симметричной (p=q ) и плавно изменяющейся кривой (при n→∞ полигон превращается в кривую), колоколообразная форма которой выявляется при анализе биномиальных коэффициентов в треугольнике Паскаля уже для n=6, а еще отчетливее – для n=8. Нормальное распределение отражает характер варьирования мерных( непрерывно меняющихся) признаков.
Нормальному распределению подчиняется большая часть биологических признаков. Это обусловлено тем, что в формировании значении биологического признака принимает участие великое множество независимых, случайным образом варьирующих факторов, одни из которых увеличивают это значение, другие с ровной вероятностью уменьшают.
Подавляющее число операций статистической обработки ориентировано на нормальное( или близкое к нему) распределение. Поэтому необходимо знать, подчиняется ли варьирование исследуемого признака закону нормального распределения. Прежде сем сделать заключение о соответствии эмпирического распределения нормальному, нужно предварительно сопоставить частоты ранее полученного вариационного ряда с теоретическими. Высокая наглядность сопоставления достигается на совмещенных графиках кривой нормального распределения и эмпирического полигона, построенных в едином масштабе.
Перед совмещением полигона с кривой нормального распределения необходимо установить, нет ли в исходной выборке сомнительных («выскакивающих») вариант, то есть таких, которые попали в работу случайно и нарушают ее однородность. Эти варианты чрезмерно отклоняются от значения средней арифметической и их сравнительно просто обнаружить и исключить из выборки. В первом приближении можно считать, что к числу «выскакивающих» вариант относятся те, значения которых находятся за пределами границ от xmin=x-3σ до xmax=x-3σ (правило «плюс-минус трех сигм).
Существуют и другие способы исключения «выскакивающих» вариант, учитывающие объем выборочной совокупности.
Для рассматриваемого распределения роста девушек х = 166,1см, σ=4,98 см, отсюдаXmin = 166,1 – 3 * 4,98 = 151,2см, Xmax = 166,1 + 3 * 4,98 = 181,0 см.
Все 38 значений вариант находятся внутри интервала 151,2 – 181,0 см, то есть «выскакивающих» варианты отсутствуют. Выборки, в которых отсутствуют «выскакивающие» варианты, отвечают требованию типичности.
Чтобы совместить полигон вариационного ряда
Х: 157 161 165 169 173 177
P: 3 8 9 10 7 1
С кривой нормального распределения, необходимо значения классовых вариант представить в нормированной форме, а частоты классов привести к численности нормального распределения. Последнее достигается путем умножения частоты р на модуль
K=10000n*10*(iσ), где n - объем эмпирической выборки; i – классовый интервал, 10*iσ- операция приведения интервала i в соответствие с интервалом кривой нормального распределения.
Вариационный ряд, по которому строится полигон на графике кривой нормального распределения, имеет следующий вид:
T : -1,82 -1,02 -0,22 0,58 1,38 2,18
P’=pK : 98 262 295 328 229 33
Для сопряженных значений t и p’ с учетом масштаба по оси ординат отложить точки и соединить их отрезками прямой. Это будет полигон эмпирического распределения.
25. отклонение эмпирического распределения от нормального (виды отклонений и причины).
Хотя многочисленные биологические признаки и подчиняются нормальному распределению, эмпирическая кривая распределения, построенная на основании вариационного ряда, часто отклоняется от кривой нормального распределения.
Наиболее характерным является отклонение вершины эмпирической кривой влево или вправо от значения средней арифметической х выборочной совокупности. Для кривой нормального распределения значения моды, медианы и средней арифметической совпадают (Мо=Ме=х). При перемещении вершины эмпирического распределения влево (Мо<х) имеет место правосторонняя асимметрия, при смещении вправо (Мо>х) – левосторонняя асимметрия. Для количественной характеристики степени асимметрии используют коэффициент асимметрии Аs , численно равный отношению центрального момента третьего порядка (среднего значения кубов отклонений вариант от средней арифметической) к кубу среднего квадратического отклонения :
As=(xi- x)3nσ3Если вершина сдвинута влево от значения х , коэффициент Аs>0, поэтому такую асимметрию называют положительной. При смещении вершины вправо Аs<0, асимметрию называют отрицательной. Коэффициент асимметрии является наименованной величиной, абсолютное значение которой колеблется от 0 до 1. Асимметрия считается незначительной, если Аs≤0,2.
Не менее характерным является смещение вершины эмпирического распределения вверх по отношению к кривой нормального распределения (островершинное распределение) или вниз (плосковершинное распределение). Для оценки степени этого отклонения применяется коэффициент эксцесса
Ex=(xi –x)3nσ4 - 3
Для кривой нормального распределения Ех=0; при островершинном распределении Ех>0 и может иметь самое различное значение; при плосковершинном распределении Ех<0, его предельное значение равно минус двум.
Причиной ложной асимметрии вариационного ряда может быть «неудачный» выбор границ классов, классового интервала. При изменении их такая асимметрия исчезает. Если же это происходит, то асимметрия обусловлена биологическими причинами, в частности превалирующим односторонним влиянием факторов, формирующих значение признака, то есть для части из них p> q( или наоборот ). Так, было показано, что загущенных посевах озимой ржи резко возрастает асимметрия в распределении длины колосьев (вершина сдвинута влево). Вероятно, симметричное распределение имеет место при стационарном состоянии биологических систем, в процессе же изменения значения признака под воздействием различных причин (вредное воздействие среда, возраст, эволюционные тенденции и т.д.) распределение становится асимметричным. Это дает основание надеяться, что после специальных исследований коэффициент асимметрии может быть рекомендован в качестве ценного диагностического и прогностического теста.
Типичной причиной плосковершинности и двухвершинности в распределении значений признаков является неоднородный состав выборки, когда в одну совокупность включены данные полученные по представителям двух и более видов, сортов, пород, возрастов и т.д. При этом если численности смешанных представителей неодинаковы, может возникнуть асимметрия. Такого рода отклонения от нормального распределения являются напоминанием исследователю о необходимости тщательной проверки выборочной совокупности на однородность.
27. Статистическая обработка альтернативных( качественных) признаков.
Встречаются признаки, степень выраженности которых количественно не оценивается. Они воспринимаются непосредственно органами чувств и характеризуются с помощью прилагательных. Такие признаки называют качественными. Признаки могут иметь два или более качественных состояний ( окраска шерстного покрова норок, масть лошадей, окраска цветков и т. д.). Если эти состояния противопоставляются друг другу, их называют альтернативными (больные — здоровые, выжившие — погибшие, мужские- женские). За степень выраженности качественного признака в исследуемой совокупности биологических объектов принимают его относительную частоту встречаемости; встречаемости всех фиксированных состояний признака находятся в определенных соотношениях. Например, в случае полного доминирования у гибридов гороха в потомстве появятся растения с красными и белыми цветками. Соотношение этих растений 3:1. При неполном доминировании в потомстве гибридов ночной красавицы появятся растения с красными, розовыми и белыми цветками. По окраске цветков (признак) потомки (объект) распределяются соответственно в пропорции 1:2:1.
Все значения мерного признака в исследуемой совокупности различаются между собой, степень же выраженности качественного признака внутри каждого состояния считается одинаковой ( все белые цветки считаются имеющими одинаковую степень белизны и т. п.). Счетные признаки, хотя и выражаются целыми числами,при расчетах могут принимать дробные значения. Значения порядковых признаков часто имеют стого ограниченный диапазон варьирования. Например, при пятибалльной системе оценка учащегося не может быть ниже 1 и выше 5. Все особенности рассмотренных групп признаков накладывают свой отпечаток на последующую статистическую обработку исходных данных. Признаки обычно обозначают прописными(заглавными) буквами латинского алфавита (Х,Y,Z...), а отдельные значения признаков- строчными(малыми) буквами (z,x,y...)
29. Вычисление теоретических частот эмпирического распределения.
Эмпирические данные, полученные в научном эксперименте или взятые из различного рода учетных ведомостей, как правило, первоначально представляют беспорядочный набор чисел. Для того, чтобы на основании этих чисел сделать правильные научные выводы, необходимо по определенному плану сгруппировать эмпирические данные, упорядочить их. Наиболее распространенным способом упорядочения эмпирических данных является построение рядов. Простейшими из них являются ранжированные ряды, в которых значения признака, входящие в выборочную совокупность, записывают одной строкой в порядке возрастания. Для больших выборок такой способ упорядочения данных неудобен, поэтому используют двойные ряды: под значениями признака (xi ), располагаемыми в порядке возрастания, записывают частоту их встречаемости (рi) — количество повторяющихся значений в выборке. Такие двойные ряды называют вариационными. В приведенном случае вариационный ряд является дискретным, так как частоты рi даются для отдельных значений признака хi. Если частоты рi даются для интервалов значений признака, то ряд называют интервальным.
Для удобства сравнения между собой выборочных совокупностей по характеру распределения значений признака необходимо использовать не абсолютные значения частот (рi) , а относительные (рi/n), которые называют частостями (n- объем выборки). Частость, деленная на классовый интервал, дает значение плотности распределения f(x).
Суммируя частоты встречаемости рi по мере увеличения значения признака хi , получают значения накопленных частот рi . Частные от деления накопленных частот на объем выборки дают значения функции эмпирического распределения F(x), которые изменяются в интервале от 0 до 1.
По данным вариационного ряда можно построить графики (гистограмму,полигон,кумулягу), которые наглядно иллюстрируют закономерности варьирования биологических признаков. Эти графики могут быть дополнены кривыми, отражающими зависимость плотности распределения и функции распределения от значения признака.
31. Ошибки репрезентативности. Показатель точности.
Наиболее полные и точные сведения о закономерности варьирования исследуемого признака и показателях вариационного ряда(хср., σ, CV и др.) можно получить лишь в результате обследования генеральной совокупности. Но иногда приходится иметь дело с выборочными совокупностями и построенными на их основе вариационными рядами. Выборочные совокупности являются эмпирическими, т.е. полученными в процессе проведения эксперимента, и все показатели, характеризующие их, отличаются от аналогичных показателей генеральной совокупности.
Отклонения показателей, характеризующих выборочную совокупность, от аналогичных показателей генеральной совокупности носят вероятностный характер и оцениваются с помощью ошибок репрезентативности(представительности), значения которых в соответствии с законом больших чисел стремится в нулю по мере приближения объёма выборки к объёму генеральной совокупности.
Ошибки репрезентативности вычисляют по формулам:
ошибка средней арифметической mxср.: mxср.= σ/nошибка среднего квадратического отклонения: mσ=σ/2n и др.
Варьирование значений выборочных показателей(хср., σ, CV и др.), полученных для многих выборок, относящихся к одной генеральной совокупности, подчиняется закону нормального распределения. Благодаря этому оказывается возможным установить границы, в которых с заданной вероятностью находится значение соответствующего показателя генеральной совокупности.
Наиболее употребительными(доверительными) вероятностями Р являются 0,95; 0,99; 0,999. Этим доверительным вероятностям соответствуют уровни значимости 0,05; 0,01; 0,001, которые представляют собой вероятности противоположных событий. Событие принято считать достоверным, если его доверительная вероятность Р≥0,95, или, соответственно, уровень значимости Р≤0,05. В первом приближении можно считать, что значение соответствующего показателя генеральной совокупности лежит в границах плюс-минус трёх его ошибок по отношению к выборочному значению. Например, значение средней арифметической М генеральной совокупности находится внутри следующих границ: хср.-3мх≤М≤хср.+3мх.
Для более точного нахождения границ доверия используют нормированное отклонение t; минимальное и максимальное значения границ доверия в этом случае равны хср.- tмх и хср.+ tмх.
Полученный в эксперименте результат нахождения средней арифметической записывают в форме хср.±мх. Частное от деления ошибки средней арифметической на саму среднюю арифметическую, выраженное в процентах, является показателем точности: Сs=(mx/xcр.)*100%.
33. Установление достоверности средней арифметической и различия между значениями средних арифметических. Трансгрессия.
Для выявления достоверности различия между двумя средними арифметическими(хср.1 и хср.2) находят ошибку разности md этих средних и вычисляют критерий достоверности tф(фактический).
Разницу хср.1-хср.2 берут без учета знака(считают положительной). В таблице находят стандартные значения критерия Стьюдента tст и сравнивают их с tф. Устанавливают, какое самое большое значение tст будет меньше, чем tф, записывают Р, соответствующее этому tст и констатируют степень достоверности различия между средними арифметическими. При tф> tст считают, что различие между средними арифметическими достоверно с данной доверительной вероятностью (или дополняющим её до единицы уровнем значимости). Чем выше tф, тем выше достоверность различия сравниваемых выборок.
В биологии встречаются случаи, когда сравниваются между собой две взаимосвязанные выборки: урожайность на опытном и контрольном поле по результатам многолетних испытаний, значение биохимического показателя до и после воздействия какого-либо фактора на организм и т.д. В первом случае погодные условия каждого года в равной мере влияют на урожайность опытного и контрольного поля, во втором случае правильнее оценивать влияние фактора путём попарного сравнения по каждому животному значений признака до и после воздействия. В таких случаях вычисляют разность di=x1,i-x2,i между попарно связанными значениями выборок и для образованной таким образом совокупности с вариантами di находят среднюю арифметическую dср. и её ошибку md. Затем вычисляют критерий достоверности: tф=dср./md, находят в таблице значение tст и сравнивают его с tф. Если tф <tст, то считают, что различие между средними арифметическими х1 и х2 сравниваемых выборок достоверно. Этот порядок нахождения достоверности различий называют методом парных сравнений.
Сравнивать выборочные совокупности между собой указанными способами можно в том случае, если известно, что варьирование вариант в совокупностях подчиняется закону нормального распределения или мало от него отличается.
35.Регрессия. Построение корреляционной решетки.
Определение регрессии. Регрессия — функция, позволяющая по средней величине одного признака определить среднюю величину другого признака, корреляционно связанного с первым.
С этой целью применяется коэффициент регрессии и целый ряд других параметров. Например, можно рассчитать число простудных заболеваний в среднем при определенных значениях среднемесячной температуры воздуха в осенне-зимний период.
Для выражения регрессии служат эмпирические и теоретические ряды, их графики -- линии регрессии, а также корреляционные уравнения (уравнения регрессии) и коэффициент линейной регрессии.
Показатели регрессии выражают корреляционную связь двусторонне, учитывая изменение средней величины признака Y при изменении значений xi признака X, и, наоборот, показывают изменение средней величины признака Х по измененным значениям yi признака Y. Исключение составляют временные ряды, или ряды динамики, показывающие изменение признаков во времени. Регрессия таких рядов является односторонней.
Ряды регрессии, особенно их графики, дают наглядное представление о форме и тесноте корреляционной связи между признаками, в чем и заключается их ценность. Форма связи между показателями, влияющими на уровень спортивного результата и общей физической подготовки занимающихся физической культурой и спортом, может быть разнообразной.
И поэтому задача состоит в том, чтобы любую форму корреляционной связи выразить уравнением определенной функции (линейной, параболической и т.д.), что позволяет получать нужную информацию о корреляции между переменными величинами Y и X, предвидеть возможные изменения признака Y на основе известных изменений X, связанного с Y корреляционно.
Виды регрессий:
1) гиперболическая - регрессия равносторонней гиперболы: у = а + b / х + Е;
2) линейная - регрессия, применяемая в статистике в виде четкой экономической интерпретации ее параметров: у = а+b*х+Е;
3) логарифмически линейная - регрессия вида: In у = In а + b * In x + In E
4) множественная - регрессия между переменными у и х1 , х2 ...xm, т. е. модель вида: у = f(х1 , х2 ...xm)+E, где у - зависимая переменная (результативный признак), х1 , х2 ...xm - независимые, объясняющие переменные (признаки-факторы), Е- возмущение или стохастическая переменная, включающая влияние неучтенных факторов в модели;
5) нелинейная - регрессия, нелинейная относительно включенных в анализ объясняющих переменных, но линейная по оцениваемым параметрам; или регрессия, нелинейная по оцениваемым параметрам.
6) обратная - регрессия, приводимая к линейному виду, реализованная в стандартных пакетах прикладных программ вида: у = 1/a + b*х+Е;
7) парная - регрессия между двумя переменными у и x, т. е, модель вида: у = f (x) + Е, где у -зависимая переменная (результативный признак), x – независимая, объясняющая переменная (признак - фактор), Е - возмущение, или стохастическая переменная, включающая влияние неучтенных факторов в модели.
Корреляционные поля и цель их построения
Корреляция изучается на основании экспериментальных данных, представляющих собой измеренные значения (xi, yi) двух признаков. Если экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. При этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
Корреляционный анализ, как и другие статистические методы, основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi.
Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Эту графическую зависимость называются также диаграммой рассеивания или корреляционным полем.
Данная модель двумерного нормального распределения (корреляционное поле) позволяет дать наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: mx, my - средние значения (математические ожидания); sx,sy - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.
Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (рис.1.3, а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y.
Если р = 1 или р = -1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = -1 прямая имеет отрицательный наклон
В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рис.1.3, в. г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к , тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии.
Здесь же следует обратить внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, а иметь любую другую форму: парабола, гипербола и т. д. В этих случаях мы рассматривали бы так называемую, нелинейную (или криволинейную) корреляцию (рис.1.3, д).
Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. Это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции.
Корреляционную зависимость между признаками можно описывать разными способами. В частности, любая форма связи может быть выражена уравнением общего вида Y = f(X), где признак Y - зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т. д.
37. Эмпирические ряды, коэффициенты и уравнения регрессии.
Эмпирические ряды, коэффициенты и уравнение регрессии. Зависимость между сопряженными признаками X и Y выражается в форме эмпирических рядов регрессии, уравнений и коэффициентов регрессии. Ряд регрессии двойной. Он состоит из строки X (знач признака Х) и строки Y (сопряженное знач признака Y). Построение рядов регрессии производится с помощью корреляционной решетки. х-у0 и у-х0 – эмпирические ряды (средние значения х0 и у0 для соответствующих классов сопряженных величин). Коэффициент регрессии показывает, насколько изменится величина одного признака при изменении величины другого, сопряженного с ним признака, на единицу. Коэффициентов регрессии два: R(yx) и R(xy). Они вычисляются по формулам: R(yx)=(∑▒〖ax*ay〗)/∑▒〖ax〗^2 R(xy)=(∑▒〖ax*ay〗)/∑▒〖ay〗^2 Между величинами коэф регрессии и коэф корреляции существкет следующее соотношение: r=∑▒〖R(yx)R(xy)〗, то есть коэффициент корреляции равен среднему геометрическому из значений коэффициентов регрессии. Если в осях Х-У построить график регрессии У по Х и Х по У, то получится ломаная линия. Такой характер графика обусловлен влиянием случайных факторов. С целью устранения элементов случайного при выявлении количественной закономерности во взаимоотношениях сопряженных признаков производится выравнивание эмпирических рядов регрессии. Существует ряд способов выравнивания, один из которых – нахождение уравнения регрессии. y=yср+R(yx)(x-xср) х=хср+R(ху)(у-уср) графики – прямые, пересекаются, точка пересечения А(xср,уср),ее координаты и коэф подставляют в уравнение, находят уравнение регрессии


39.Корреляция. Коэффициент прямолинейной корреляции.
Корреляционная зависимость наблюдается при изучении биологических процессов. Когда конкретному показателю Х соответствует целый ряд значений показателя У и наоборот.
Корреляция характеризуется степенью сопряженности (теснотой) формой и направлением связи между варьирующими признаками Х и У. Нахождение этих параметров производится с помощью корреляционного метода. В результате ее определяется существует ли связь между Х и У, сильная она или слабая, а так же, определяется форма связи( прямолинейная или криволинейная) и направление связи (положительная или отрицательная).
r=ax×ay÷ax2×ay2 - коэффициент корреляции, где ax=xi-x ;
ay=yi-y – отклонение вариант x и y от своих средних арифметических .Ошибка коэффициента корреляции для выборок с числом пар сопряженных значений признаков n≤100 равна mr=1-r2÷(n-2)tф=rmr – критерий достоверности для коэф. Корреляции.
При r=0.1 ÷0.5 -слабая связь между сопряженными признаками.
При r= 0,5÷ 0.7- средняя
При r>7 –сильная связь.
Величина коэффициента колеблется от -1 до 1.
42.Нормальное распределение и свойства кривой нормального распределения.
Нормальное распределение является частным (предельным случаем биномиального распределения, в котором p=q и n→∞. Графически оно изображается в виде симметричной и плавно изменяющейся кривой. Нормальному распеределению подчиняется большая часть биологических признаков. Это обусловлено тем, что в формировании значения биологическорго признака принимает участие великое множество независимых, случайным образом варьирующихся факторов, одни из которых увеличивают, а другие уменьшают это значение. Варьирование происходит относительно среднего значения (предпочтительных признаков для организма), отклонение их в ту или иную сторону по причине мутаций, может привести к гибели организма.
Вероятность нахождения значения биологического признака, подчиняющегося закону нормального распределения, в диапазоне от х до +∆х , вычесляется по формуле:P(х)=1σ2πe2σ2-(x-x)2∆x43.
Если зависимость между сопряженными значениями признаков сильно отличается от прямолинейной, используют показатель, кот называется корреляционным отношением (η, греч. «эта») . Оно пригодно для измерения прочности любой связи и выражается в виде двух коэффициентов, которые вычисляются по формулам: η х/у=√1-∑р(х-х⁰ср)^2/∑Рх(х-хср) ^2
η у/х=√1-∑р(у-у⁰ср)^2/∑Ру(у-уср) ^2
Где х,у-срединные значения классов
х⁰ср., у⁰ср,Рх,Ру- берутся из корреляционной решетки
хср,уср- средние арифметические выборочных совокупностей по признакам Х и У.
коэффициенты η х/у и η у/х можно вычислять по другим формулам: : η х/у=√∑Ру(х⁰ср-х)^2/∑Рх(х-хср)^2
η у/х=√∑Рх(у⁰ср-у)^2/∑Ру(у-уср) ^2
Корреляционные отношения равны корню квадратному из отношений вариации, обусловленных влиянием соответственно признака У на Х и наоборот, к общей вариации признака.
Иногда, по аналогии с прямолинейной корреляции, используют коэффициент криволинейной корреляции r η, который равен средней геометрической от η х/у и η у/х. r η=√ η х/у η у/х.
Равенство η х/у =η у/х свидетельствует о близкой к прямолинейной форме связи между признаками.
Степень отклонения реальной зависимости между значениями признаков от прямолинейной количественно характеризуется мерой линейной связи(γ):
γ= r η-r или γ= r η^2-r^2.
45. По выборочным характеристикам можно построить интервал, в котором с той или иной вероятностью находится генеральный параметр. Вероятности, признанные достаточными для уверенного суждения о генеральных параметрах на основании выборочных показателей, называют доверительными.
Понятие о доверительных вероятностях вытекает из принципа, что маловероятные события считаются практически невозможными, а события, вероятность которых близка к единице, принимают за почти достоверные. Обычно в качестве доверительных используют вероятности Р1=0.95, Р2=0.99, Р3=0.999. Определенным значениям вероятностей соответствуют уровни значимости, под которыми понимают разность α=1–Р. Вероятности 0.95 соответствует уровень значимости α1=0.05 (5%), вероятности 0.99 – α2=0.01 (1%), вероятности 0.999 – α3=0.001 (0.1%). Это означает, что при оценке генеральных параметров по выборочным показателям существует риск ошибиться в первом случае 1 раз на 20 испытаний, т.е. в 5% случаев; во втором – 1 раз на 100 испытаний, т.е. в 1% случаев; в третьем – 1 раз на 1000 испытаний, т.е. в 0.1% случаев. Таким образом, уровень значимости обозначает вероятность получения случайного отклонения от установленных с определенной вероятностью результатов. Вероятности, принятые как доверительные, определяют доверительный интервал между ними. На них можно основывать оценку той или иной величины и те границы, в которых она может находиться при разных вероятностях.
Событие считают достоверным, если его доверительная вероятность ≥0,95 или соответственно уровень значимости Р≤ 0,05.
Для различных вероятностей доверительные интервалы будут следующими:
Р1=0.95 интервал –1.96σ до +1.96σ (рис. 5)
Р2=0.99 интервал –2.58σ до +2.58σ
Р3=0.999 интервал –3.03σ до +3.03σ
Доверительным вероятностям соответствуют следующие величины нормированных отклонений:
вероятности Р1=0.95 соответствует t1=1.96σ
вероятности Р2=0.99 соответствует t2=2.58σ
вероятности Р3=0.999 соответствует t3=3.03σ
Выбор того или иного порога доверительной вероятности осуществляют исходя из важности события. Уровень значимости в таком случае – эта та вероятность, которой решено пренебрегать в данной исследовании или явлении.
46.Этапы становления науки
1этап: Начинается со сбора сведений об объекте , использования накопленных данных.
2этап:классификация и объединение сходных объектов , их начинают группировать
3этап:установление связи и соотношений между биологическими объектами , связь строится из наблюдений.
4этап:Создание математической модели
5:выявление весичины47Статистические совокупности и их классификации:
Наличие вариабельности значений ведет к необходимости при исследовании использовать не отдельные замеры, а их совокупности. Статистическая совокупность является одним из основополагающих понятий биометрии. Совокупность- это система, элементы которой объединены по определенным общим свойствам. В биологии основным системообразующим свойством (точнее, комплексов свойств) является видовая принадлежность. Внутри одновидовой совокупности возможно разграничение на одновозрастные, однополые, обитающие на единой территории и т д совокупности организмов. Разграничение зависит от цели исследования. Например: если изучается возрастная или половая структура вида, то никакой дискриминации при включении особей данного вида в совокупность не производится. Конечный результат определяется не только причинами вероятностного характера, сколько процессами, имеющими биологическую природу.
Формирование совокупности осуществляют из однородных элементов, при фиксированных значениях факторов, о которых известно, что они влияют на величину исследуемого признака (возраст, пол, условия существования). При таком подходе к формированию выборки варьирование значений признака внутри нее будет происходить под влиянием случайных причин; для этого случая разработан математический аппарат статистической обработки.
В конкретную совокупность включают значения одного признака, которые называют единицами совокупности, или вариантами. Количество вариант, входящих в совокупность, определяет ее объем. Если совокупность включает значение признака всех объектов, соответствующих условиям его формирования, то такая совокупность генеральная. Объем генеральной совокупности обозначают буквой N. Совокупность, включающая лишь часть вариант генеральной совокупности называют выборочной или выборкой. Объем выборки обозначают строчной буквой n. В зависимости от него выборки условно подразделяют на малые (n≤30) и большие (n>30). Минимальный объем выборки равен 2.
Статистическая совокупность может быть образована путем многократных замеров значений признака у одного объекта. Если объем, отбираемой от объекта пробы недостаточен для биохимического анализа, приходится объединять пробы от нескольких объектов, в результате чего при смешивании происходит полное сглаживание индивидуальных различий в значениях признака.
48. Способы выравнивания динамического ряда. Способами выравнивания динамического ряда являются: укрупнение периодов, расчет групповой средней, расчет скользящей средней, метод наименьших квадратов
Укрупнение периодов — применяется, когда явление в интервальном ряду выражено в абсолютных величинах, уровни которых суммируются по более крупным периодам. Применение возможно при кратном числе периодов.
Вычисление групповой средней — применяется, когда уровни интервального ряда выражены в абсолютных, средних или относительных величинах, которые суммируются, а затем делятся на число слагаемых. Способ применяется при кратном числе периодов.
Расчет скользящей средней — применяется, когда уровни явлений любого ряда выражены в абсолютных, средних или относительных величинах. Данный метод применяется при наличии некратного числа временных периодов (7, 11, 13, 17, 19) достаточно длинного динамического ряда. Путем вычисления групповой средней значений 3 периодов, а в последующем переходя на определенный уровень и два соседних с ним, осуществляется "скольжение" по периодам. Каждый уровень заменяется на среднюю величину (из данного уровня и двух соседних с ним). Данный метод применяется, когда не требуется особой точности, когда имеется достаточно длинный ряд и можно пренебречь потерей двух значений ряда; в случаях, когда изучается развитие явления под влиянием одного или двух факторов.
Метод наименьших квадратов применяется для более точной количественной оценки динамики изучаемого явления. Этим способом получаются такие выровненные значения уровней ряда, квадраты отклонений которых от истинных (эмпирических) показателей дают наименьшую сумму.
Наиболее простой и часто встречающейся в практике является линейная зависимость, описываемая уравнением:
Ух = а + вХ,     либо     Утеоретич. = Усреднее + вХ,
где Ух — теоретические (расчетные) уровни ряда за каждый период; а — среднеарифметический показатель уровня ряда, рассчитывается по формуле: а = ΣУфакт. / n; в — параметр прямой, коэффициент, показывающий различие между теоретическими уровнями ряда за смежные периоды, определяется путем расчета по формуле: в = Σ(ХУфакт)/ ΣХ2 где n — число уровней динамического ряда; X — временные точки, натуральные числа, проставляемые от середины (центра) ряда в оба конца.
При наличии нечетного ряда уровень, занимающий срединное положение, принимается за 0. Например, при 9 уровнях ряда: -4, -3, -2, -1, 0, +1, +2, +3, +4.
При четном числе уровней ряда две величины, занимающие срединное положение, обозначаются через -1 и +1, а все остальные — через 2 интервала. Например, при 6 уровнях ряда: -5, -3, -1, +1, +3, +5.
Расчеты проводят в следующей последовательности:
Представляют фактические уровни динамического ряда (Уф) (см. табл.).
Суммируют фактические уровни ряда и получают сумму Уфакт.
Находят условные (теоретические) временные точки ряда X, чтобы их сумма (ΣХ) была равна 0.
Возводят теоретические временные точки в квадрат и суммируют их, получая ЕX2.
Рассчитывают произведение Х на У и суммируют, получая ΣХУ.
Рассчитывают параметры прямой: а = ΣУфакт / n       в = Σ(Х Уфакт) / ΣX2
Подставляя последовательно в уравнение Ух = а + аУ значения X, находят выровненные уровни Ух.
49. Границы доверия и доверительный интервал.
Доверительный интервал — термин, используемый в математической статистике при интервальной (в отличие от точечной) оценке статистических параметров, что предпочтительнее при небольшом объёме выборки. Доверительным называют интервал, который покрывает неизвестный параметр с заданной надёжностью.
Доверительным интервалом параметра θ распределения случайной величины X с уровнем доверия 100%-p[примечание 1], порождённым выборкой (x1,…,xn), называется интервал с границами (x1,…,xn) и (x1,…,xn), которые являются реализациями случайных величин L(X1,…,Xn) и U(X1,…,Xn), таких, что
.
Граничные точки доверительного интервала  и  называются доверительными пределами.
Интерпретация доверительного интервала, основанная на интуиции, будет следующей: если p велико (скажем, 0,95 или 0,99), то доверительный интервал почти наверняка содержит истинное значение θ.[ссылка 2]Еще одно истолкование понятию доверительного интервала: его можно рассматривать как интервал значений параметра θ, совместимых с опытными данными и не противоречащих им.
Границы доверительного интервала обычно определяются через дисперсию, которая является параметром закона нормального распределения случайных величин
51.
КРИТЕРИЯ ХИ·КВАДРАТ (х2·РАСПРЕДЕЛЕНИЕ Проверку гипотез о законах распределения также произво дят с помощью специально выработанных критериев. Один из них, нашедший широкое применение в биометрии,- критерий согласия, или соответствия 2 (предложен в 1900 г. К. Пирсо ном). Этот критерий представляет собой сумму квадратов От клонений эмпирических частот f от вычисленных или ожидае мых частот {', отнесенную к теоретическим частотам, т. Е
Символ Х2 не является квадратом какого-то числа, а выражает лишь исходную величину, определяемую данной формулой. Буквой d обозначена между эмпирическими и вычисленными частотами. Величина критерия Х2 всегда положительна, так как отклонения эмпирических частот от ожидаемых или вы численных частот возведены в квадрат. Поэтому при определении разности d знаки чисел можно не учитывать, вычитая из больших значений меньшие. Распределение вероятных значений случайной величины Х2 является непрерывным и асимметричным, оно зависит от числа степеней свободы k и приближается к нормальной кривой по мере увеличения числа испытаний n. Поэтому применение критерия 2 к оценке дискретных распределений сопряжено с некоторыми погрешностями, которые сказываются на его величине, особенно при малых выборках. Для того чтобы оценки были более точными, выборка, распределяемая в вариационный ряд, должна содержать не менее 50 вариант. Поэтому часто считают, что применение критерия Х2 требует, чтобы в крайних классах вариационного ряда со держалось не менее пяти вариант. Если в крайних классах со держится меньше чем пять вариант, то вычисленные и эмпирические частоты объединяются до указанного минимума и соответственно уменьшается число классов вариационного ряда.
Число степеней свободы устанавливают по вторичному числу классов с учетом ограничений свободы вариации, которая в разных случаях бывает различной. Так, при оценке эмпирических распределений, следующих нормальному закону, число степеней свободы k=N-З.
На величине критерия 'Х2 сказывается степень точности, с какой определены теоретически вычисленные или ожидаемые частоты. Поэтому при сопоставлении эмпирических частот с вычисленными частотами последние не следует округлять до целых чисел.
Асимметрия – Коэффициент асимметрии характеризует асимметричность («скошенность») распределения признака в совокупности
Эксцесс– Показатель эксцесса представляет собой отклонение вершины эмпирического распределения вверх или вниз («крутость») от вершины кривой нормального распределения
Асимметрия распределения
При =0 распределение считается нормальным.
При > 0 правосторонняя асимметрия.
При <0 левосторонняя асимметрия.
Если асимметрия более 0,5, то независимо от знака она считается значительной
Если асимметрия меньше 0,25, то она считается незначительной

Показатель Пирсона зависит от степени асимметричности в средней части ряда распределения, а показатель асимметрии, основанный на моменте третьего порядка, -от крайних значений признака.
Оценка существенности асимметрии
Для оценки существенности асимметрии вычисляют показатель средней квадратической ошибки коэффициента асимметрии

Если отношение имеет значение больше 2, то это свидетельствует о существенном характере асимметрии.
Эксцесс распределения
Показатель эксцесса представляет собой отклонение вершины эмпирического распределения вверх или вниз («крутость») от вершины кривой нормального распределения, НО! График распределения может выглядеть сколь угодно крутым в зависимости от силы вариации признака: чем слабее вариация, тем круче кривая распределения при данном масштабе. Не говоря уже о том, что, изменяя масштабы по оси абсцисс и по оси ординат, любое распределение можно искусствен но сделать «крутым» и «пологим». Чтобы показать, в чем состоит эксцесс распределения, и правильно его интерпретировать, нужно сравнить ряды с одинаковой силой вариации (одной и той же величиной σ) и разными показателями эксцесса. Чтобы не смешать эксцесс с асимметрией, все сравниваемые ряды должны быть симметричными.
Поскольку эксцесс нормального распределения равен 3, показатель эксцесса вычисляется по формуле

При >0 – высоковершинный эксцесс распределения
При <0 – низковершинный эксцесс распределение
При =0 – нормальное распределение
Оценка существенности эксцесса
Для оценки существенности эксцесса вычисляют показатель его средней квадратической ошибки

Если отношение имеет значение больше 3, то это свидетельствует о существенном характере эксцесса

Приложенные файлы

  • docx 17559899
    Размер файла: 6 MB Загрузок: 0

Добавить комментарий