Основные статистические показатели
Одной из задач статистики, как пишут Юл и Кендэл (1960), является сведение большого числа исходных данных к нескольким показателям с сохранением возможно большей части информации, содержавшейся в первоначальном материале.
В сообществе сухой овсецево-тырсовой степи (доминанты Helictotrichon desertorum и Stipa capillata) нами была заложена трансекта, состоящая из примыкающих друг к другу площадок по 1 м2. На каждой площадке мы отмечали число генеративных побегов Veronica incana. Мы можем эти данные записать в том порядке, в котором они были получены, т. е. в порядке номеров площадок, и составить следующий ряд:
11, 9, 2, 2, 3, 7, 2, 10, 5, 2, 1, 1, 2, 4, 0, 0, 4, 0, 0, 1, 3, 7, 7, 13, 3, 6, 3, 6, 6, 3, 4, 5, 4, 1, 4, 1, 1, 4, 2, 5, 11, 0, 2, 5, 4, 4, 3, 9, 4, 4.
Полученный ряд очень громоздкий, неудобен для сравнения, и из него трудно получить те сведения, которые нас интересуют. Первым шагом к упорядочению этих данных может быть расположение их по величине изучаемого признака, начиная с малых значений: 0, 0, 0, 0, 0, 1, 1, 1, 1, 1, 1, 2, 2, 2,
2, 2, 2, 2, 3, 3, 3, 3, 3, 3, 4, 4, 4, 4, 4, 4, 4, 4, 4, 4, 5, 5, 5, 5, 6, 6, 6, 7, 7, 7, 9, 9, 10,-11, 11, 13.
Данные, записанные в этой форме, образуют так называемый ранжированный ряд. Он уже позволяет быстро найти наибольшее и наименьшее значение признака, определить часто встречающиеся значения. Но можно сделать ряд еще более кратким и наглядным. Для этого найдем, сколько раз встречается каждое значение признака (его частоту). Наши данные можно записать следующим образом:
| Значение признака (x) | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | 10 | 11 | 12 | 13 |
| Частота (f) | 5 | 6 | 7 | 6 | 10 | 4 | 3 | 3 | 0 | 2 | 1 | 2 | 0 | 1 |
Такая форма записи данных обычно и используется для вычисления различных статистических показателей. На графике обычно на оси абсцисс откладываются значения признака, а на оси ординат – их частота. Существует два распространенных приема построения графиков распределения частот.
Рассмотрим их на примере распределения всходов сосны на 200 площадках по 1 м2, заложенных в фитоценозе сухотравно-лишайникового сосняка в Медведском бору (подзона южной тайги, среднее течение р. Вятки). Был получен следующий вариационный ряд:
| Число всходов сосны (х) | 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 |
| Частота (f) | 126 | 35 | 17 | 10 | 4 | 4 | 1 | 0 | 3 |
Построим вначале так называемый полигон распределения частот всходов сосны. Для этого на графике (рис. 3, а) отложим на оси абсцисс значение признака (число всходов сосны), а на оси ординат – частоту признака (число площадок). На плоскости графика мы получим ряд точек, ординаты которых будут соответствовать числу площадок, имеющих определенное число всходов сосны. Соединив все точки, мы и получим полигон. Другой способ изображения – построение гистограммы распределения частот (рис. 3, б). Для этого на оси абсцисс точно так же откладываем значение признака, а затем строим колонки против каждого значения, высота которых соответствует числу площадок, имеющих это значение признака. Оба способа построения графиков имеют совершенно одинаковые права, но полигон чаще употребляется в случае непрерывных переменных, т. е. тех, которые могут принимать любые значения (например, покрытие, вес растений, температура и т. д., одним словом, все величины, получаемые путем измерений). Для случаев прерывной изменчивости, когда изучаемая величина может принимать лишь целые значения (число побегов и другие данные, полученные в результате подсчета), чаще используется гистограмма.
Рис. 3 Полигон (а) и гистограмма (б) распределения частот (данные в тексте).
Возьмем еще одно распределение, но в этом случае величина будет варьировать непрерывно. Рассмотрим распределение сухого веса надземных частей райграса высокого (Arrhenatherum elatius):
| Вес куста, в г (х) | 15-25 | 25-35 | 35-45 | 45-55 | 55-65 | 65-75 | 75-85 | 85-95 | 95–105 | 105–115 | 115–125 | 125–135 | 135–145 | 145–155 | 155–165 | 165–175 |
| Частота (f) | 2 | 1 | 1 | 14 | 14 | 28 | 26 | 27 | 22 | 9 | 10 | 4 | 3 | 4 | 1 | 1 |
Вес куста варьирует от 16.5 до 173.0 г. Для того чтобы представить этот ряд в компактной и удобной для обработки форме, мы разбиваем амплитуду варьирования признака на ряд равных по величине классов. В данном случае амплитуда равна 173.0–16.5=156.5 г. Округлим амплитуду до 160 г и разобьем ее на 16 классов по 10 г. Разбивка на классы несколько огрубляет результаты, так как все значения признака внутри класса приравниваются к средине классового интервала. В данном ряду все значения веса от 15 до 25 г приравниваются к 20 г, от 25 до 35 г – к 30 г и т. д.
Обычно рекомендуют разбивать ряд на классы с равными интервалами, что значительно облегчает вычисления, но иногда от этого правила приходится отступать.
Число классов и их размеры определяют, исходя из имеющегося материала. Оптимальное число классов должно быть 7–15. Но если мы работаем с покрытием или другими показателями обилия вида это далеко не всегда возможно. Так, например, распределение покрытия Dicranum undulatum в одном из сообществ на 200 площадок по 1 м2 дает следующий ряд:
| Покрытие | 0 | "+"a | 1 | 2 | 3 |
| Частота | 177 | 14 | 6 | 2 | 1 |
a: Оценка «плюс», означающая, что вид присутствует на данной площадке с незначительным покрытием, здесь и далее условно принимается за 0.5%.
Здесь больше классов получить невозможно, так как исходные определения покрытия содержат только эти значения.
МЕРЫ УРОВНЯ ПРИЗНАКА
Очень часто перед исследователем встает задача найти значение признака, которое могло бы характеризовать совокупность объектов в целом. Для этого существует ряд величин, которые носят название меры уровня признака. Наиболее распространенной из них является средняя арифметическая. Она представляет то значение признака, которое имел бы каждый объект, если бы все объекты были одинаковы. Находят среднюю арифметическую суммированием всех значений признака и делением полученной суммы на число объектов (или наблюдений):
где – x1, x2, …, xn – отдельные значения признака, n – общее число наблюдений, а
xi означает сумму всех значений признака (i принимает последовательно значения 1, 2, 3,. . ., n). Часто средняя арифметическая обозначается и другим символом – М.
В вышеприведенном примере с числом побегов Veronica incana xср=4.0 поб./м2, в примере со всходами сосны xср=0.82 экз./м2.
Средняя арифметическая является именованной величиной и выражается в тех же единицах, что и исходные данные.
Другую меру уровня признака мы можем получить, если найдем то значение признака, которое встречается наиболее часто. Это значение признака называется модой. На графике распределения частот мода соответствует максимуму на кривой. В нашем примере с числом побегов Veronica incana мода равна четырем побегам, а в примере со всходами сосны – нулю. Мода имеет одно преимущество по сравнению со средней арифметической; не зависит от крайних значений признака. Эти значения подвержены большим случайным колебаниям, связанным с тем, что мы исследуем выборку, и обычно не очень большую, а не всю генеральную совокупность. Возьмем, например, распределение покрытия Vaccinium vitis-idaea в 25 площадках по 1 м2 в фитоценозе ассоциации сосняк лишайниково-вересковый:
| Покрытие | 0 | "+" | 1 | 5 | 10 | 20 |
| Частота | 13 | 4 | 3 | 3 | 1 | 1 |
Средняя арифметическая для этого ряда равна 2%, а мода – нулю. Выборка в этом случае не очень велика, и вполне вероятно, что, повторив ее в том же фитоценозе, мы могли бы не получить квадрата с покрытием брусники в 20%. В результате средняя арифметическая приняла бы значение ≈ 1 %, но мода осталась бы без изменения. Такая ситуация довольно часто встречается в геоботанических исследованиях, и поэтому следует обращать больше внимания на моду, чем делается до сих пор.
В большинстве случаев за моду можно принять средину модального класса, но существует формула, по которой можно найти более точное значение моды (Плохинский, 1961):
где Mо – мода, wa – нижняя граница модального класса, k – величина классового интервала, f1 – частота класса, предшествующего модальному, f2 – частота модального класса, f3 – частота класса, следующего за модальным.
Следующей мерой уровня признака является медиана. Она представляет собой срединное (центральное) значение в ранжированном ряду данных, расположенных в порядке возрастания значений признака. Число элементов ряда, имеющих значение признака, меньшее, чем медиана, равно числу элементов с большим значением признака. В ранжированном ряду, состоящем из N вариант (членов ряда), медиана будет представлена (N/2)+1-й вариантой, считая от начала ряда. Если число членов ряда нечетное, медиана находится по этой формуле. При четном числе членов ряда медиану находят, как среднее арифметическое из двух центральных значений. В вышеприведенном примере с числом побегов Veronica incana значение медианы равно четырем. Из ранжированного ряда медиану найти довольно просто. Когда же данные представлены в виде вариационного ряда, особенно сгруппированного в классы, медиану можно найти по следующей формуле (Плохинский, 1961):
где Мe – медиана, wa – начало того класса, в котором находится медиана, k – величина классового интервала, n – общее число членов ряда, fi – сумма частот классов (начиная с меньшего), предшествующих классу, в котором находится медиана, f – частота класса, в котором находится медиана.
Найдем медиану для ряда покрытий Cladonia sylvatica в 200 площадках по 1 м2 в фитоценозе сосняка сухотравно-лишайникового:
| Покрытие | 0 | "+"–5 | 5-15 | 15-25 | 25-35 | 35-45 | 45-55 | 55–65 | 65–75 | 75-85 |
| Частота | 11 | 35 | 28 | 32 | 25 | 27 | 16 | 16 | 9 | 1 |
| Сумма частот | 11 | 46 | 74 | 106 | 131 | 158 | 174 | 190 | 199 | 200 |
В третьей строке записывается для каждого класса сумма частот этого класса и всех предыдущих. Из нее видно, что медиана, которая в данном случае лежит между 100-м и 101-м членами ряда, приходится на класс с покрытием от 15 до 25%. Подставив необходимые данные в формулу, получим:
Медиана, как и мода, мало зависит от крайних значений признака, но недостаток обеих этих мер в том, что они трудно поддаются количественному сравнению. Поэтому основным показателем меры уровня признака остается средняя арифметическая.
Медиану широко использовал в своих работах Л. Г. Раменский (1929; Раменский и др., 1956). Его методика нахождения элективной средней основана на нахождении медиан. В современных работах медианой пользуются сравнительно редко.
В геоботанике часто приходится иметь дело с очень сильным варьированием признаков. Так, например, число побегов какого-либо вида злака на площадках в 1 м2 на лугу может меняться от одного до нескольких тысяч. В таком случае обычный вариационный ряд может оказаться слишком громоздким, а при объединении в крупные классы некоторые существенные черты распределения могут быть утеряны. В таких условиях бывает полезно вместо средней арифметической пользоваться средней геометрической, которая вычисляется по формуле
где G – средняя геометрическая, а х1, х2, . . ., xn – члены вариационного ряда. При работе со средней геометрической удобно переходить к логарифмической шкале, т. е. заменять абсолютные значения признаков их логарифмами. В таком случае формула средней геометрической запишется так:
Это означает, что логарифм средней геометрической равен средней арифметической логарифмов всех членов ряда. Средняя геометрическая превращается в нуль, если хотя бы одно значение признака равно нулю. Это свойство средней геометрической сильно сокращает область ее применения. Но в геоботанических исследованиях нулевые значения признаков встречаются довольно часто, поэтому вместо средней геометрической в случае сильной изменчивости можно воспользоваться логарифмической шкалой. Ряд таких шкал разработан А. А. Любищевым (1958). Наиболее простая из них выглядит так:
| Число особей | 0 | 1 | 2–3 | 4–7 | 8–15 | 16–31 | 32–63 |
| Балл | 1 | 2 | 3 | 4 | 5 | 6 | 7 |
В этой шкале объем каждого класса в два раза больше предыдущего. Некоторое несоответствие имеется только у низших классов. Оперируя с баллами, как с числом особей, мы фактически имеем дело с логарифмами числа особей при основании 2. После проведения вычислений конечные результаты переводятся из баллов в абсолютные значения. С помощью таких шкал мы можем представить распределение в более компактной форме, а иногда таким путем удается свести распределение к одному из типов теоретических распределений, что расширяет возможность дальнейшей обработки и облегчает интерпретацию полученных результатов (см. гл. III).
Переход к балловым и логарифмическим шкалам особенно целесообразен в том случае, когда мы изучаем динамические явления. Процесс роста часто характеризуется тем, что прирост бывает пропорционален величине за предыдущий период, т. е. здесь мы имеем геометрическую прогрессию. К тому же нужно учитывать, что во многих биологических проблемах мы сталкиваемся не с арифметическим варьированием, а с геометрическим, и здесь использование арифметической шкалы может привести к заблуждению (С. В. Williams, 1954).
Л. С. Каминский (1964) отмечает, что геометрическую шкалу и среднюю геометрическую следует применять в тех случаях, когда при замене абсолютных величин чисел их логарифмами кривая распределения становится симметричной. При этом симметричны не разностные, а относительные уклонения от средней. Когда средняя геометрическая применяется при описании процессов роста, она дает средний прирост. Но для этой цели она может применяться лишь тогда, когда в самом процессе заложена длительная тенденция роста в одной и той же геометрической прогрессии.



