оценка дисперсии подсчитанная с учетом числа степеней свободы называется
0491807_F3EAE_lekcii_po_statistike / 010_дисперсионный_анализ
Тема 10. Дисперсионный анализ
Задача дисперсионного анализа заключается в исследовании влияния тех или иных факторов на изменчивость средних величин результативного признака.
С этой целью производится разложение дисперсии наблюдаемой совокупности на составляющие, порождаемые независимыми факторами.
Общая дисперсия разбивается на факторную (межгрупповую) дисперсию, связанную с группировочным признаком, и остаточную (внутригрупповую) дисперсию, не связанную с группировочным признаком.
Сущность дисперсионного анализа заключается в сопоставлении факторной (межгрупповой) и остаточной (внутригрупповой) дисперсий и определения на основе этого соотношения суждения о влиянии и роли изучаемого фактора.
Факторная дисперсия объясняет вариацию результативного признака под влиянием изучаемого фактора
В дисперсионном анализе дисперсией принято называть сумму квадратов отклонений индивидуальных значений признака от их средней арифметической.
Определение общей дисперсии обусловленной влиянием вариации всех признаков, производится по формуле:

Например, 

Факторная дисперсия представляет собой сумму квадратов отклонений частных (групповых) средних 

где 
Остаточная (случайная) дисперсия есть сумма групповых сумм квадратов отклонений всех вариант результативного признака в группах от их средних значений, т.е.
Далее производится оценка достоверности влияния факторного признака на результативный
Число степеней свободы для факторной дисперсии равно количеству групп минус единица:
Если выборочная совокупность достаточно велика, то разница между N и N-1 несущественна, поэтому не оказывает влияния на результат расчетов.
Число степеней свободы для остаточной дисперсии равно разности между общей численностью совокупности и числом групп:
Затем рассчитываются дисперсии на одну степень свободы вариации (такая дисперсия соответствует среднему квадратическому отклонению признака в совокупности и может быть обозначена как
Проверка правильности расчетов числа степеней свободы вариации может быть осуществлена по равенству
Расчет дисперсии на одну степень свободы вариации
Отношение факторной дисперсии и остаточной, рассчитанных на одну степень свободы, позволяет определить F-критерий: 
Теоретическое значение F-критерия
Р.Фишером было установлено распределение отношений дисперсий, а также разработаны специальные таблицы теоретических значений F-критерия при двух вероятностях: 0,05 и 0,01.
Находят по таблицам для принятого в исследовании уровня значимости с учетом числа степеней свободы для факторной и остаточной дисперсий.
5%-ному уровню значимости соответствует 95%-ный уровень вероятности,
В большинстве случаев избирают 5%-ный уровень значимости.
Расчетное значение F-критерия сравнивают с табличным
Если
Если 
Если 
Если 

Если 
Принципиальная схема дисперсионного анализа
Основы дисперсионного анализа
Различия между значениями отдельных элементов статистической совокупности складываются под влиянием множества отдельных факторов. Степень влияния факторов на изменение величины признака неодинакова. Одни факторы в большей степени, а другие — в меньшей степени оказывают влияние на вариацию признака. Поэтому различают вариации систематическую и случайную. Задача дисперсионного анализа заключается в исследовании влияния тех или иных факторов на изменчивость средних значений изучаемого признака. С этой целью производится разложение дисперсии наблюдаемой совокупности на составляющие, порождаемые независимыми факторами. Общая дисперсия раскладывается на факторную (межгрупповую) дисперсию, связанную с груннировочным признаком, и остаточную (внутригрупповую) дисперсию, не связанную с грунпиро- вочиым признаком. Факторная дисперсия объясняет вариацик) результативного признака под влиянием изучаемого фактора; остаточная дисперсия — вариацию результативного признака, обусловленную влиянием прочих факторов (за исключением влияния изучаемого фактора). Сущность дисперсионного анализа заключается в сопоставлении межгрупповой и внутригрупповой дисперсий и формировании на основе этого соотношения суждения о влиянии и роли изучаемого фактора.
В дисперсионном анализе дисперсией называют сумму квадратов отклонений индивидуальных значений признака от их средней арифметической. Сначала определяют общую дисперсию, обусловленную влиянием вариации всех признаков, затем факторную и остаточную дисперсии.
Определение общей дисперсии, обусловленной влиянием на вариацию у всех признаков, производится по формуле
где г/, — отдельные значения результативного признака; г/общ — общая средняя; / — число единиц совокупности в каждой группе.
Факторная дисперсия представляет собой сумму квадратов отклонений частных (групповых) средних от общей средней, умноженных на число единиц в каждой группе:
где угр — групповые средние значения результативного признака; уа6ш — общая средняя; / — число единиц совокупности в каждой группе.
Остаточная дисперсия (случайная) есть сумма групповых сумм квадратов отклонений всех вариант результативного признака в группах от средних значений признака в них:
Далее производится оценка достоверности влияния факторного признака на результативный. Для этого определяется число степеней свободы вариации V. Различают степени свободы факторной и остаточной дисперсий. Число степеней свободы для факторной дисперсии равно количеству групп минус единица. Эта величина показывает, что в такой выборочной совокупности (любая выборка имеет ограниченный объем) каждая варианта свободна принимать любые значения, кроме одного, определяемого разностью между суммой всех остальных вариант и объемом выборки, т.е. одна варианта не имеет степени свободы вариации. Если выборочная совокупность достаточно велика, то разница между N и N- 1 несущественна, поэтому не оказывает влияния на результат расчетов. Число степеней свободы для остаточной дисперсии равно разности между количеством индивидуальных значений признака и числом групп.
Затем рассчитываются дисперсии на одну степень свободы вариации (такая дисперсия может быть обозначена как D*). В этом случае дисперсии выступают как показатели, позволяющие сравнивать группы с разной численностью. Далее осуществляется проверка правильности расчетов числа степеней свободы вариации.
Отношение факторной и остаточной дисперсий, рассчитанных на одну степень свободы, позволяет определить критерий Фишера (Е-критсрий):
где Ц‘|, — факторная дисперсия на одну степень свободы; Д* — остаточная дисперсия на одну степень свободы.
Р. Фишером было установлено распределение отношений дисперсий, а также разработаны специальные таблицы теоретических значений Е-критерия при двух вероятностях; 0,05 и 0,01. Находят теоретическое значение Е-критерия по таблицам для принятого в исследовании уровня значимости с учетом числа степеней свободы для факторной и остаточной дисперсий. При этом 5%-ному уровню значимости соответствует 95%-ный уровень вероятности, 1%-ному — 99%-ный уровень вероятности. В большинстве случаев избирают 5%-ный уровень значимости. Теоретическое значение Е-критерия при заданном уровне значимости по таблицам определяют на пересечении строки и столбца, соответствующих двум степеням свободы дисперсий: по строке — остаточной, по столбцу — факторной.
Расчетное значение F-критерия сравнивают с табличным:
если Ерасч > Рта5л, то статистическое наблюдение доказывает с вероятностью, большей заданной, влияние фактора на результативный признак;
если Ерасч = Етабл, то статистическое наблюдение доказывает с заданной вероятностью влияние фактора на результативный признак;
Теоретическое значение F-критерия в данном случае определяют при заданном уровне значимости по таблицам на пересечении строки и столбца, соответствующих двум степеням свободы дисперсий: по строке — факторной, по столбцу — остаточной. Если Ерасч > FTaбл, то статистическое наблюдение достоверно доказывает отсутствие влияния фактора на результативный признак.
Оценка дисперсии подсчитанная с учетом числа степеней свободы называется
Откуда произошло название Дисперсионный анализ? Может показаться странным, что процедура сравнения средних называется дисперсионным анализом. В действительности, это связано с тем, что при исследовании статистической значимости различия между средними двух (или нескольких) групп, мы на самом деле сравниваем (т.е. анализируем) выборочные дисперсии.
Фундаментальная концепция дисперсионного анализа предложена Фишером в 1920 году. Возможно, более естественным был бы термин анализ суммы квадратов или анализ вариации, но в силу традиции употребляется термин дисперсионный анализ.
Итак, дисперсионный анализ основан на работах знаменитого математика Р.А.Фишера. Несмотря на достаточно солидный «возраст», данный метод до сих пор остается одним из основных при проведении биологических и сельскохозяйственных исследований. Идеи, положенные в основу дисперсионного анализа, широко используются во многих других методах математического анализа экспериментальных данных, а также при планировании биологических и сельскохозяйственных экспериментов.
Дисперсионный анализ позволяет:
1) сравнивать две или несколько выборочных средних;
2) одновременно изучать действие нескольких независимых факторов, при этом можно определить как эффект каждого фактора в изменчивости изучаемого признака, так и их взаимодействие;
3) правильно планировать научный эксперимент.
Изменчивость живых организмов проявляется в виде разброса или рассеяния значений отдельных признаков в пределах, которые определяются степенью биологической выравненности материала и характером взаимосвязей с условиями среды. Признаки, изменяющиеся под воздействием тех или иных причин, называют результативными.
Факторы это любые воздействия или состояния, разнообразие которых может так или иначе отражаться на разнообразии результативного признака. Под статистическим влиянием факторов в дисперсионном анализе понимается отражение в разнообразии результативного признака того разнообразия изучаемых факторов, которое организовано в исследовании.
Под разнообразием будем понимать наличие неодинаковых значений каждого признака у разных особей, объединенных в группу. Разнообразие группы особей по изучаемому признаку может иметь разную степень, которая обычно измеряется показателями разнообразия (или изменчивости): лимитами, средним квадратическим отклонением, коэффициентом вариации. В дисперсионном анализе степень разнообразия индивидуальных и средних значений признака измеряется и сравнивается особыми способами, составляющими специфику этого общего метода.
Организация факторов заключается в том, что каждому изучаемому фактору придается несколько значений. В соответствии с этими значениями каждый фактор разбивается на несколько градаций; для каждой градации подбирается по принципу случайной выборки несколько особей, у которых впоследствии и измеряется величина результативного признака.
Для того, чтобы выяснить степень и достоверность влияния изучаемых факторов, надо измерить и оценить ту часть общего разнообразия, которая вызывается этими факторами.
Факторы, влияющие на степень варьирования результативного признака, делятся на:
Случайные факторы определяются естественным варьированием всех признаков биологических объектов в природе. Это неконтролируемые в опыте факторы. Они оказывают случайное влияние на результативный признак, обусловливают экспериментальные ошибки и определяют внутри каждого варианта разброс (рассеяние) признака. Этот разброс носит название внутригрупповой (случайной) дисперсии.
Таким образом, относительная роль отдельных факторов в общей изменчивости результативного признака характеризуется дисперсией и может быть изучена с помощью дисперсионного анализа или анализа рассеяния
Дисперсионный анализ основан на сравнении межгрупповой и внутригрупповой дисперсий. Если межгрупповая дисперсия не превышает внутригрупповую, значит, различия между группами имеют случайный характер. Если межгрупповая дисперсия существенно выше, чем внутригрупповая, то между изучаемыми группами (вариантами) существуют статистически значимые различия, обусловленные действием изучаемого в опыте фактора.
Из этого следует, что при статистическом изучении результативного признака при помощи дисперсионного анализа следует определить его варьирование по вариантам, повторениям, остаточное варьирование внутри этих групп и общее варьирование результативного признака в опыте. В соответствии с этим различают три вида дисперсий:
1) Общую дисперсию результативного признака (Sy 2 );
2) Межгрупповую, или частную, между выборками (Sy 2 );
3) Внутригрупповую, остаточную (Sz 2 ).
Следовательно, дисперсионный анализ – это расчленение общей суммы квадратов отклонений и общего числа степеней свободы на части или компоненты, соответствующие структуре эксперимента, и оценка значимости действия и взаимодействия изучаемых факторов по F-критерию. В зависимости от числа одновременно исследуемых факторов различают двух-, трех-, четырехфакторный дисперсионный анализ.
Сy = СV +Сp + Сz.
степени свободы для вариантов (l – 1);
степени свободы для повторений (n – 1);
случайного варьирования (n – 1) × (l – 1).
Затем вычисляют следующие показатели:
Общее число наблюдений N = l × n;
Сумму квадратов для вариантов CV = Σ V 2 / (n – 1);
Полученные суммы квадратов CV и CZ делят на соответствующие им степени свободы и получают два средних квадрата (дисперсии):
Оценка существенности разностей между средними
Полученные средние квадраты используют в дисперсионном анализе для оценки значимости действия изучаемых факторов путем сравнения дисперсии вариантов (Sv 2 ) с дисперсией ошибки (SZ 2 ) по критерию Фишера (F = SY 2 / SZ 2 ). За единицу сравнения принимают средний квадрат случайной дисперсии, который определяет случайную ошибку эксперимента.
Применение критерия Фишера позволяет установить наличие или отсутствие существенных различий между выборочными средними, но не указывает конкретных различий между средними.
| Группа 1 | Группа 2 | |
|---|---|---|
| Наблюдение 1 Наблюдение 2 Наблюдение 3 | 2 3 1 | 6 7 5 |
| Среднее Сумма квадратов (СК) | 2 2 | 6 2 |
| Общее среднее Общая сумма квадратов | 4 28 | |
| ГЛАВНЫЙ ЭФФЕКТ | |||||
|---|---|---|---|---|---|
| SS | ст.св. | MS | F | p | |
| Эффект Ошибка | 24.0 4.0 | 1 4 | 24.0 1.0 | 24.0 | .008 |
Как видно из таблицы, общая сумма квадратов SS = 28 разбита на компоненты: сумму квадратов, обусловленную внутригрупповой изменчивостью ( 2+2=4 ; см. вторую строку таблицы) и сумму квадратов, обусловленную различием средних значений между группами (28-(2+2)=24; см первую строку таблицы). Заметим, что MS в этой таблице есть средний квадрат, равный SS, деленная на число степеней свободы (ст.св).
SS ошибок и SS эффекта. Внутригрупповая изменчивость ( SS ) обычно называется остаточной компонентой или дисперсией ошибки. Это означает, что обычно при проведении эксперимента она не может быть предсказана или объяснена. С другой стороны, SS эффекта (или компоненту дисперсии между группами) можно объяснить различием между средними значениями в группах. Иными словами, принадлежность к некоторой группе объясняет межгрупповую изменчивость, т.к. нам известно, что эти группы обладают разными средними значениями.
Зависимые и независимые переменные. Переменные, значения которых определяется с помощью измерений в ходе эксперимента (например, балл, набранный при тестировании), называются зависимыми переменными. Переменные, которыми можно управлять при проведении эксперимента (например, методы обучения или другие критерии, позволяющие разделить наблюдения на группы или классифицировать) называются факторами или независимыми переменными.
Многофакторный дисперсионный анализ
В рассмотренном выше простом примере вы могли бы сразу вычислить t- критерий для независимых выборок, используя соответствующую опцию модуля Основные статистики и таблицы. Полученные результаты, естественно, совпадут с результатами дисперсионного анализа. Однако дисперсионный анализ содержит гораздо более гибкие и мощные технические средства, позволяющие исследовать планы практически неограниченной сложности.
Множество факторов. Мир по своей природе сложен и многомерен. Ситуации, когда некоторое явление полностью описывается одной переменной, чрезвычайно редки. Например, если мы пытаемся научиться выращивать большие помидоры, следует рассматривать факторы, связанные с генетической структурой растений, типом почвы, освещенностью, температурой и т.д. Таким образом, при проведении типичного эксперимента приходится иметь дело с большим количеством факторов. Основная причина, по которой использование дисперсионного анализа предпочтительнее повторного сравнения двух выборок при разных уровнях факторов с помощью серий t- критерия, заключается в том, что дисперсионный анализ существенно более эффективен и, для малых выборок, более информативен. Вам нужно сделать определенные усилия, чтобы овладеть техникой дисперсионного анализа, реализованной на STATISTICA, и ощутить все ее преимущества в конкретных исследованиях.
| Экспериментальная группа 1 | Экспериментальная группа 2 | |
|---|---|---|
| Мужчины | 2 3 1 | 6 7 5 |
| Среднее | 2 | 6 |
| Женщины | 4 5 3 | 8 9 7 |
| Среднее | 4 | 8 |
| Целеустремленные | Ленивые | |
|---|---|---|
| Трудное задание Легкое задание | 10 5 | 5 10 |
Взаимодействия высших порядков. В то время как объяснить попарные взаимодействия еще сравнительно легко,то взаимодействия высших порядков объяснить значительно сложнее. Представьте, что в рассматриваемый выше пример, введен еще один фактор пол и получена следующая таблица средних значений:
| Женщины | Целеустремленные | Ленивые |
|---|---|---|
| Трудное задание Легкое задание | 10 5 | 5 10 |
| Мужчины | Целеустремленные | Ленивые |
| Трудное задание Легкое задание | 1 6 | 6 1 |
Какие теперь выводы можно сделать из полученных результатов? Графики средних позволяют объяснять сложные эффекты. Модуль дисперсионного анализа позволяет строить эти графики практически одним щелчком мыши. Изображение на этих графике внизу представляет собой изучаемое трехфакторное взаимодействие.
Глядя на график, можно сказать, что у женщин существует взаимодействие между характером и сложностью теста: целеустремленные женщины работают над трудным заданием более напряженно, чем над легким. У мужчин то же взаимодействие носит обратный характер. Видно, что описание взаимодействия между факторами становится более запутанным.
Общий способ описания взаимодействий. В общем случае взаимодействие между факторами описывается в виде изменения одного эффекта под воздействием другого. В рассмотренном выше примере двухфакторное взаимодействие можно описать как изменение главного эффекта фактора, характеризующего сложность задачи, под воздействием фактора, описывающего характер студента. Для взаимодействия трех факторов из предыдущего параграфа можно сказать, что взаимодействие двух факторов (сложности задачи и характера студента) изменяется под воздействием Пола. Если изучается взаимодействие четырех факторов, можно сказать, что взаимодействие трех факторов, изменяется под воздействием четвертого фактора, т.е. существуют различные типы взаимодействий на разных уровнях четвертого фактора. Оказалось, что во многих областях взаимодействие пяти или даже большего количества факторов не является чем-то необычным.
2. Оценка значимости разности между средними по наименьшей существенной разности
Наименьшей существенной разностью (НСР) – является своеобразной ценой деления, разрешающей способностью опыта при оценке разности выборочных средних. Критерий НСР = t0,5 * Sd указывает предельную ошибку для разности двух выборочных средних.
Если фактическая разность больше НСР0,5 (d ≥ НСР0,5), то она значима, существенна, при d ≤ НСР0,5 – несущественна.
В многофакторном опыте изучается действие и взаимодействие нескольких факторов на изменчивость результативного признака, поэтому каждому фактору задают несколько градаций. Это позволяет изучать действие каждого из них при нескольких градациях других факторов.
Эффект взаимодействия факторов составляет ту часть общей изменчивости, которая вызвана различным действием одного фактора при разных градациях другого. В полевом опыте часто эффект от совместного применения изучаемых факторов может быть выше (синергизм) или ниже (антагонизм) суммы эффектов от раздельного применения каждого из них. В первом случае имеет место положительное, во втором – отрицательное взаимодействие факторов. Если же факторы не взаимодействуют, то эффект от совместного применения равен сумме эффектов от раздельного их применения (аддитивизм).
При дисперсионном анализе данных многофакторного опыта используют те же принципы и расчеты дисперсий, что и при однофакторном. Однако при этом усложняется математическая модель анализа.
При обработке данных двухфакторного опыта сумма квадратов расчленяется на следующие компоненты:
Соответственно с указанными компонентами расчленяется и общее число степеней свободы:
Вегетационные опыты представляют собой статистические комплексы, состоящие из нескольких независимых выборок (вариантов). Независимость сопоставляемых вариантов достигается регулярным перемещением сосудов на вагонетке. Следовательно, в вегетационных опытах обычно нет территориально организованных повторений. Поэтому в однофакторном вегетационном опыте общее варьирование результативного признака разлагается на два компонента – варьирование вариантов и случайное варьирование и общее число степеней свободы:
3.Область применения дисперсионного анализа
Дисперсионный анализ может использоваться для изучения действия самых разнообразных факторов как на количественные, так и на качественные признаки. Однако область применения дисперсионного анализа имеет два важных ограничения:
1) Исследуемые группы должны иметь нормальное распределение;
2) Исследуемые группы должны иметь равные дисперсии.
При планировании и проведении многофакторного дисперсионного анализа рекомендуется использовать выборки равного и пропорционального объема (в каждом варианте должно быть одинаковое или пропорциональное число повторностей).
Контрольные вопросы
© ФГОУ ВПО Красноярский государственный аграрный университет















