Графики являются наглядной формой отображения рядов распределения. Для изображения рядов применяются линейные графики и плоскостные диаграммы, построенные в прямоугольной системе координат.
Для графического представления атрибутивных рядов распределения используются различные диаграммы: столбиковые, линейные, круговые, фигурные, секторные и т. д.
Для дискретных вариационных рядов графиком является полигон распределения.
Полигоном распределения называется ломаная линия, соединяющая точки с координатами или где - дискретное значение признака, - частота, - частость.
График строится в принятом масштабе. Вид полигона распределения приведен на рис. 5.1.
Для изображения интервальных вариационных рядов применяют гистограммы , представляющие собой ступенчатые фигуры, состоящие из прямоугольников, основания которых равны ширине интервала , а высота - частоте (частости ) равноинтервального ряда или плотности распределения неравноинтервального Построение диаграммы аналогично построению столбиковой диаграммы. Общий вид гистограммы приведен на рис. 5.2.
Для графического представления вариационных рядов может использоваться также кумулята – ломаная линия, составленная по накопленным частотам (частостям). Накопленные частоты наносятся в виде ординат; соединяя вершины отдельных ординат отрезками прямой, получаем ломаную линию, имеющую неубывающий вид. Координатами точек на графике для дискретного ряда являются для интервального ряда - Начальная точка графика имеет координаты самая высокая точка - Общий вид кумуляты приведен на рис.5.3. Использование кумуляты особенно удобно при проведении сравнений вариационных рядов.
При построении графиков рядов распределения большое значение имеет соотношение масштабов по оси абсцисс и оси ординат . В этом случае и необходимо руководствоваться «правилом золотого сечения», в соответствии с которым высота графика должна быть примерно в два раза меньше его основания .
При проведении эмпирического исследования ряда распределения рассчитываются и анализируются следующие группы показателей:
Показатели положения центра распределения;
Показатели степени его однородности;
Показатели формы распределения.
Показатели положения центра распределения. К ним относятся степенная средняя в виде средней арифметической и структурные средние – мода и медиана.
Средняя арфметическая для дискретного ряда распределения рассчитывается по формуле:
В отличие от средней арифметической, рассчитываемой на основе всех вариант, мода и медиана характеризует значение признака у статистической единице, занимающей определенное положение в вариационном ряду.
Медиана ( Me) - значение признака у статистической единицы, стоящей в середине ранжированного ряда и делящей совокупность на две равные по численности части.
Мода (Mo) - наиболее часто встречаемое значение признак в совокупности. Мода широко используется в статистической практике при изучении покупательского спроса, регистрации цен и др.
Для дискретных вариационных рядов Mo и Me выбираются в соответствии с определениями: мода - как значение признака с наибольшей частотой : положение медианы при нечетном объеме совокупности определяется ее номером , где N – объем статистической совокупности. При четном объеме ряда медиана равна средней из двух вариантов, находящихся в середине ряда.
Медиану используют как наиболее надежный показатель типичного
значения неоднородной совокупности, так как она нечувствительна к
крайним значениям признака, которые могут значительно отличаться от
основного массива его значений. Кроме этого, медиана находит
практическое применение вследствие особого математического свойства:
Рассмотрим определение моды и медианы на следующем примере:
имеется ряд распределения рабочих участка по уровню квалификации.
Данные приведены в таблице 5.2.
Мода выбирается по максимальному значению частоты: при n max = 14 Mo =4, т.е. чаще всего встречается 4-ый разряд. Для нахождения медианы Me определяются центральные единицы Это 25 и 26-ая единицы. По накопленным частотам определяется группа, в которую попадают эти единицы. Это 4-ая группа, в которой значение признака равно 4. Таким образом, Me = 4, это означает, что у половины рабочих разряд ниже 4-го, а у другой – выше четвертого. В интервальном ряду значения Mo и Me вычисляются более сложным путем.
Мода определяется следующим образом:
По максимальному значению частоты определяется интервал, в котором находится значение моды. Он называется модальным.
Внутри модального интервала значение моды вычисляется по формуле:
Для расчета медианы в интервальных рядах используется следующий подход:
По накопленным частотам находится медианный интервал. Медианным называется интервал, содержащий центральную единицу.
Внутри медианного интервала значение Me определяется по формуле:
В неравноинтервальных рядах при вычислении Mo используется другая частотная характеристика – абсолютная плотность распределения:
Расчет моды и медианы для интервального ряда распределения рассмотрим на примере ряда распределения рабочих по стажу, приведенного в таблице 5.3.
Расчет Mo:
Максимальная частота n max = 13, она соответствует четвертой группе, следовательно, модальным является интервал с границами 12 – 16 лет.
Моду рассчитаем по формуле:
Чаще всего встречаются рабочие со стажем работы около 13 лет. Мода не находится в середине модального интервала, она смещена к его нижней границе, связано это со структурой данного ряда распределения (частота предмодального интервала значительно больше частоты постмодального интервала).
Расчет медианы:
По графе накопленных частот определяется медианный интервал. Он содержит 25 и 26-у статистические единицы, которые находятся в разных группах – в 3-ей и 4-ой. Для нахождения Me можно использовать любую из них. Расчет проведем по 3-ей группе:
Такое же значение Me можно получить при её расчете по 4-ой группе:
При сдвоенном центре Me всегда находится на стыке интервалов, содержащих центральные единицы. Вычисленное значение Me показывает, что у первых 25 рабочих стаж работы – менее 12 лет, а у оставшихся 25-ти, следовательно, - более 12 лет.
Моду можно определить графически по полигону распределения в дискретных рядах, по гистограмме распределения – в интервальных, а медиану - по кумуляте.
Для нахождения моды в интервальном ряду правую вершину модального прямоугольника нужно соединить с правым верхним углом предыдущего прямоугольника, а левую вершину – с левым верхним углом последующего прямоугольника. Абсцисса точки пересечения этих прямых и будет модой распределения.
Для определение медианы высоту наибольшей ординаты кумуляты, соответствующей общей численности совокупности, делят пополам. Через полученную точку проводят прямую, параллельную оси абсцисс, до пересечения ее с кумулятой. Абсцисса точки пересечения является медианой.
Кроме Mo и Me в вариантных рядах могут быть определены и другие структурные характеристики – квантили. Квантили предназначены для более глубокого изучения структуры ряда распределения. Квантиль – это значение признака, занимающее определенное место в упорядоченной по данному признаку совокупности. Различают следующие виды квантилей:
квартили – значения признака, делящие упорядоченную совокупность на 4 равные части;
децили – значения признака, делящие совокупность на 10 равных частей;
перцентели - значения признака, делящие совокупность на 100 равных частей.
Если данные сгруппированы, то значение квартиля определяется по накопленным частотам: номер группы, которая содержит i -ый квантиль. Определяется как номер первой группы от начала ряда, в котором сумма накопленных частот равна или превышает i ·N, где I – индекс квантиля. Если ряд интервальный, то значение квантиля определяется по формуле:
Рассчитаем квартили для ряда распределения рабочих участка по стажу работы:
Следовательно, у четверти рабочих стаж менее 7 лет и у четверти – более 16 лет. Таким образом, для характеристики положения центра ряда распределения можно использовать 3 показателя: среднее значение признака , мода, медиана .
При выборе вида и формы конкретного показателя центра распределения необходимо исходить из следующих рекомендаций:
Для устойчивых социально-экономических процессов в качестве показателя центра используют среднюю арифметическую. Такие процессы характеризуются симметричными распределениями, в которых
Для неустойчивых процессов положение центра распределения характеризуется с помощью Mo или Me . Для асимметричных процессов предпочтительной характеристикой центра распределения является медиана, поскольку занимает положение между средней арифметической и модой.
Вторая важнейшая задача при определении общего характера распределения – это оценка степени его однородности. Однородность статистических совокупностей характеризуется величиной вариации (рассеяния) признака, т.е. несовпадением его значений у разных статистических единиц. Для измерения вариации в статистике используются абсолютные и относительные показатели. Выяснение общего характера распределения предполагает не только оценку степени его однородности, но и исследование формы распределения, т.е. оценку симметричности и эксцесса.
Из математической статистики известно, что при увеличении объема статистической совокупности и одновременного уменьшении интервала группировки полигон либо гистограмма распределения все более и более приближается к некоторой плавной кривой, являющейся для указанных графиков пределом. Эта кривая называется эмпирической кривой распределения и представляет собой графическое изображение в виде непрерывной линии изменения частот, функционально связанного с изменением вариант.
В статистике различают следующие виды кривых распределения :
одновершинные кривые; многовершинные кривые.
Однородные совокупности описываются одновершинными распределениями. Многовершинность распределения свидетельствует о неоднородности изучаемой совокупности или о некачественном выполнении группировки.
Одновершинные кривые распределения делятся на симметричные, умеренно асимметричные и крайне асимметричные.
Распределение называется симметричным, если частоты любых 2-х вариантов, равноотстоящих в обе стороны от центра распределения, равны между собой . В таких распределениях
Для характеристики асимметрии используют коэффициенты асимметрии.
Наиболее часто используются следующие из них:
Коэффициент асимметрии Пирсона
В одновершинных распределениях величина этого показателя изменяется от -1 до +1. в симметричных распределениях As=0. При As>0 наблюдается правосторонняя асимметрия (рис.5.4). В распределениях с правосторонней асимметрией Mo ≤ Me ≤
Рис. 5.4.Правосторонняя асимметрия Рис. 5.5. Левосторонняя асимметрия
Чем ближе по модулю As к 1, тем асимметрия существеннее:
Коэффициент асимметрии Пирсона характеризует асимметрию только в центральной части распределения, поэтому более распространенным и более точным является коэффициент асимметрии , рассчитанный на основе центрального момента 3-его порядка:
Центральным моментом в статистике называется среднее отклонение индивидуальных значений признака от его среднеарифметической величины.
Центральный момент k-ого порядка рассчитывается как:
Соответственно формулы для определения центрального момента третьего порядка имеют следующий вид:
Для оценки существенности рассчитанного вторым способом коэффициента асимметрии определяется его средняя квадратическая ошибка:
Для одновершинных распределений рассчитывается еще один показатель оценки его формы – эксцесс . Эксцесс является показателем островершинности распределения . Он рассчитывается для симметричных распределений на основе центрального момента 4-ого порядка
К плосковершинным.
Полигон частот
Пусть нам дан ряд распределения, записанный с помощью таблицы:
Рисунок 1.
Определение 1
Полигон частот -- ломанная, которая соединяет точки $(x_m,n_m)$ ($m=1,2,\dots ,m)$.
То есть, для построения полигона частот необходимо на оси абсцисс откладывают значения вариант, а по оси ординат соответствующие частоты. Полученные точки соединяют ломанной:
Рисунок 2. Полигон частот.
Помимо обычной частоты существует еще понятие относительной частоты.
Получаем следующую таблицу распределения относительных частот:
Рисунок 3.
Определение 2
Полигон относительных частот -- ломанная, которая соединяет точки $(x_m,W_m)$ ($m=1,2,\dots ,m)$.
То есть, для построения полигона частот необходимо на оси абсцисс откладывают значения вариант, а по оси ординат соответствующие относительные частоты. Полученные точки соединяют ломанной:
Рисунок 4. Полигон относительных частот.
Гистограмма частот
Помимо понятия полинома для непрерывных значений существует понятие гистограммы.
Заметим, что площадь одного такого прямоугольника $\frac{n_ih}{h}=n_i$. Следовательно, площадь всей фигуры равна $\sum{n_i}=n$, то есть равна объему выборки.
Определение 4
Гистограмма относительных частот -- ступенчатая фигура, состоящая из прямоугольников с основанием -- частичными интервалами длины $h$ и высотами $\frac{W_i}{h}$:
Рисунок 6. Гистограмма относительных частот.
Заметим, что площадь одного такого прямоугольника $\frac{W_ih}{h}=W_i$. Следовательно, площадь всей фигуры равна $\sum{W_i}=W=1$.
Примеры задачи на построение полигона и гистограммы
Пример 1
Пусть распределение частот имеет вид:
Рисунок 7.
Построить полигон относительных частот.
Построим сначала ряд распределения относительных частот по формуле $W_i=\frac{n_i}{n}$
В результате обработки и систематизации первичных статистических материалов получаются ряды цифровых статистических показателей, которые характеризуют отдельные стороны изучаемых явлений. Эти ряды называются статистическими.
Статистические ряды бывают двух видов: ряды распределения и ряды динамики (рис. 1).
Статистические ряды
Ряды распределения Ряды динамики
![](https://i0.wp.com/konspekta.net/megalektsiiru/baza3/2059384701548.files/image016.gif)
Атрибутивные Вариационные
![](https://i1.wp.com/konspekta.net/megalektsiiru/baza3/2059384701548.files/image019.gif)
![](https://i0.wp.com/konspekta.net/megalektsiiru/baza3/2059384701548.files/image020.gif)
Дискретные Непрерывные
(Интервальные)
Рисунок 1 – Виды рядов распределения
Ряды распределения – это ряды, которые характеризуют распределение единиц совокупности по какому-либо признаку (например, распределение производственного оборудования по видам и срокам службы). Ряд распределения состоит из двух элементов: вариант – значений группировочного признака и частот – число повторений отдельных вариантов значений признака.
Ряд распределения – группировка, в которой для характеристики групп, упорядоченно расположенных по значению признака, применяется только один показатель - численность групп.
Частоты, представленные в относительном выражении, называют частостями и обозначают .
Например, вместо абсолютного числа рабочих, имеющих определённый разряд, можно установить долю рабочих этого разряда. Частости могут быть выражены в долях единицы или в процентах. Замена частот частостями позволяет сопоставить вариационные ряды с различным числом наблюдений.
По характеру вариации различают дискретные и непрерывные признаки. Дискретные признаки отличаются друг от друга на некоторую конечную величину, то есть даны в виде прерывных чисел. Например, тарифный разряд рабочих, количество детей в семье, число рабочих на предприятии. Непрерывные признаки могут отличаться один от другого на сколь угодно малую величину и в определённых границах принимать любые значения. Например, заработная плата рабочих, стоимость основных фондов предприятия.
Атрибутивный ряд распределения образуется по качественному признаку (распределение рабочих по профессиям, машин – по маркам). Вариационный ряд распределения образуется по количественному признаку. Он состоит из вариант и частот. В дискретном ряде распределения отдельные варианты имеют определённые значения (распределение рабочих по разрядам). В тех случаях, когда число вариантов дискретного признака достаточно велико, а также при анализе вариации непрерывного признака, когда значения этого признака у отдельных единиц могут вообще не повторяться, строятся интервальные ряды распределения. Интервал указывает определённые пределы значений варьирующего признака и обозначается верхней и нижней границей интервала.
Различают ряды распределения с абсолютными, относительными и накопленными частотами. Накопленные частоты называют кумулятивными.
Если приведён вариационный ряд с неравными интервалами, то для правильного представления о характере распределения необходимо рассчитать плотность распределения. Плотность распределения – это количество единиц совокупности, приходящихся на единицу величины интервала группировочного признака. Различают абсолютную () и относительную () плотность:
где – частота;
– удельный вес;
– размер интервала.
По форме ряды распределения бывают одно- двух- и многовершинными. Среди одновершинных распределений есть симметричные и асимметричные (скошенные), остро- и плосковершинные.
Графическое изображение рядов распределения облегчает их анализ и позволяет судить о форме распределения.
Для графического изображения дискретного ряда применяют полигон распределения. Полигон чаще всего используют для изображения дискретных рядов. Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами (xi,mi) , где xi – варианты выборки и mi – соответствующие им частоты. Если полигон строят по данным интервального ряда, то в качестве абсцисс точек берут середины соответствующих интервалов.
Для построения полигона в прямоугольной системе координат в произвольно выбранном масштабе на оси абсцисс откладывают значения аргумента (варианты), а на оси ординат – значения частот. Масштаб выбирают такой, чтобы была обеспечена необходимая наглядность и желательный размер рисунка. Далее строят точки с координатами (xi,mi) и последовательно соединяют их отрезками прямой.
Рисунок 2 – Полигон распределения
Для графического изображения интервальных вариационных рядов применяются гистограммы. Она строится так: на оси абсцисс откладываются равные отрезки, которые в принятом масштабе соответствуют величине интервалов вариационного ряда. На отрезках строят прямоугольники, площади которых пропорциональны частотам (или частностям) интервала.
Гистограмма может быть преобразована в полигон распределения, если середины верхних сторон прямоугольников соединяются отрезками прямых. Две крайние точки прямоугольников замыкаются по оси абсцисс на середины интервалов, в которых частоты (частности) равны нулю. При построении гистограммы для вариационного ряда с неравными интервалами следует по оси ординат наносить показатели плотности интервалов (абсолютные или относительные). В этом случае высоты прямоугольников гистограммы будут соответствовать величине плотности распределения.
Рисунок 3 – Гистограмма
При увеличении числа наблюдений из одной и той же совокупности увеличивается число групп интервального ряда, что приводит к уменьшению величины интервала. При этом ломанная линия имеет тенденцию превращения в плавную кривую, которую называют кривой распределения. Кривая распределения характеризует в обобщенном виде вариацию признака и закономерности распределения частот внутри однокачественной совокупности.
Кумулята или кривая накопленных частот в отличие от полигона строится по накопленным частотам или частостям. При этом на оси абсцисс помещают значения признака, а на оси ординат – накопленные частоты или частости (рисунок 4).
Накопленной частоты, т. е. число значений, которые попали в этот интервал и все предшествующие.
Рисунок 4 – Кумулята (кривая накопленных частот)
Следует отметить, что кривая накопленных частот не убывает ни на одном участке.
Пример построения группировки рассмотрим в примерах 1 и 2.
Пример 1
Оборот и издержки обращения тридцати торговых предприятий за отчетный период составили (тыс. руб.):
Магазины, № п/п | Оборот | Издержки обращения |
Для выявления зависимости между размером оборота и издержками обращения произведите группировку магазинов по размеру оборота, образовав пять групп магазинов с равными интервалами. В каждой группе и в целом подсчитайте:
1) число магазинов;
2) размер оборота – всего и в среднем на один магазин;
3) издержки обращения – всего и в среднем на один магазин;
4) структуру товарооборота по группам и структуру издержек обращения;
5) уровень издержек обращения
У ИО = | Издержки обращения | ×100%. |
Товарооборот |
6) Решение оформите в разработочной и групповой таблицах. Сделайте выводы, укажите вид группировки. Постройте гистограмму и преобразуйте её в полигон. Постройте кумуляту (кривую накопленных частот).
Решение:
Составим вариационный ряд распределения, упорядочив магазины по товарообороту от большего к меньшему.
Магазины, № п/п | Оборот | Издержки обращения | Магазины, № п/п | Оборот | Издержки обращения |
7 | 341 | 160 | |||
11 | 456 | 242 | 19 | 1199 | 635 |
5 | 1326 | 623 | |||
Определим величину интервала:
, где
i – величина интервала;
Xmax, Xmin – максимальное и минимальное значение признака (1700 и 341 соответственно).
Величина интервала составит:
Определим границы интервалов:
Разнесем по выделенным интервалам предприятия (разработочная таблица):
Определим в каждой группе и в целом объем оборота – всего и в среднем на один магазин и издержки – всего и в среднем на один магазин, для чего составим группировочную таблицу:
Группы предприятий по величине оборота | Число предприятий в группе | Суммарный товарооборот в группе | Средний товарооборот по группе | Суммарные издержки обращения по группе | Средние издержки обращения по группе | Уровень издержек обращения по группе, % |
А | (1) | (2) | (3)=(2)/(1) | (4) | (5)=(4)/(1) | (6)=(4)/(2)*100 |
341-612,8 | 398,5 | 50,44 | ||||
612,8-884,6 | 744,5 | 345,5 | 46,41 | |||
884,6-1156,4 | 998,75 | 482,625 | 48,32 | |||
1156,4-1428,2 | 1262,5 | 49,82 | ||||
1428,2-1700 | 687,417 | 43,65 | ||||
Итого | 34679/30= 1155,97 | 15843/30= 528,1 | 528,1/1155,97*100 = 45,68 |
На основании проведенных расчетов построим гистограмму и полигон.
При построении гистограммы по оси Х откладывают значения признака (границы интервалов), а по оси Y – частоты. Для соответствующего интервала строиться прямоугольник, высота которого соответствует частоте признака (рисунок 5).
Рисунок 5 – Гистограмма
Гистограмма может быть преобразована в полигон, если середины верхних граней прямоугольника соединить прямой линией (рисунок 6).
Рисунок 6 – Полигон распределения
Также построим кумуляту или кривую накопленных частот. В этом случае по оси Х откладываем интервалы признака, а по оси Y – накопленные частоты (это количество единиц совокупности, имеющие значения признака меньше указанного) . Накопленные частоты рассчитаны в таблице.
Кривая накопленных частот представлена на рисунке 7.
Рисунок 7 – Кривая накопленных частот
Вывод: Суммарный товарооборот в первой группе 797 тыс. руб., во второй – 4467 тыс. руб., в третьей – 7990 тыс. руб., в четвертой – 2525 тыс. руб., в пятой – 18900 тыс. руб. Средний товарооборот на один магазин в первой группе 398,5 тыс. руб., во второй – 744,5 тыс. руб., в третьей – 998,75 тыс. руб., в четвертой – 1262,5 тыс. руб., в пятой – 1575 тыс. руб.
Суммарные издержки обращения в первой группе 402 тыс. руб., во второй – 2073 тыс. руб., в третьей – 3861 тыс. руб., в четвертой – 1258 тыс. руб., в пятой – 8249 тыс. руб. Средний издержки обращения в первой группе 201 тыс. руб., во второй – 345,5 тыс. руб., в третьей – 482,625 тыс. руб., в четвертой – 629 тыс. руб., в пятой – 687,417 тыс. руб.
На основании полученных значений можно сделать вывод о прямой зависимости между размером оборота и средними издержек обращения: при росте размера оборота средние издержки обращения увеличиваются. На основании анализа уровня издержек обращения можно сделать вывод, что наиболее конкурентны предприятия пятой группы, поскольку у них уровень издержек ниже среднего.
Пример 2
По данным таблицы постройте ряды распределения домохозяйств, рассчитав число домохозяйств, входящих в те или иные группы:
а) по числу совместно проживающих человек (1,2,3,4 и более)
б) по среднему размеру доходов на душу населения в месяц (образовав 5 групп с равными интервалами)
в) по статусу занятости главы семьи.
№ п/п | Число членов в семье | Статус главы семьи по месту в занятости | |
1. | Самозанятость | ||
2. | По найму | ||
3. | По найму | ||
4. | По найму | ||
5. | По найму | ||
6. | Нет работы | ||
7. | Нет работы | ||
8. | Самозанятость | ||
9. | Нет работы | ||
10. | По найму | ||
11. | По найму | ||
12. | По найму | ||
13. | Самозанятость | ||
14. | По найму | ||
15. | По найму | ||
16. | По найму | ||
17. | По найму | ||
18. | Нет работы | ||
19. | Нет работы | ||
20. | Самозанятость | ||
21. | Нет работы | ||
22. | По найму | ||
23. | По найму | ||
24. | По найму | ||
25. | По найму | ||
26. | По найму | ||
27. | Самозанятость | ||
28. | Нет работы | ||
29. | По найму | ||
30. | По найму | ||
Итого | - | - |
Решение:
Построим ряды распределения домохозяйств, рассчитав число домохозяйств, входящих в те или иные группы:
Общее число семей, имеющих разный статус глав семей по месту в занятости, представлено в таблице. В этом случае группировка строиться по качественному признаку. Число групп совпадает с числом признаков: самозанятость, по найму, нет работы.
Общее число глав семей, имеющих разный статус по месту в занятости (са Общее число семей, имеющих разный статус глав семей по месту в занятости, представлено в таблице. В этом случае группировка строиться по качественному признаку. Число групп совпадает с числом признаков: самозанятость, по найму, нет работы.
Группировка по числу совместно проживающих человек (1,2,3,4 и более), представлено в таблице. В этом случае группировка строиться по количественному дискретному признаку.
Таким образом, 33% всех обследованных семей состоят из трех человек. 13% семей состоят из 4 и более человек. Доли семей, состоящих из 1 человека – 17%, из 2 человек – 37%.
Построим группировку по среднему размеру доходов на душу населения в месяц (образовав 5 групп с равными интервалами);
На начальном этапе проранжируем ряд от меньшего к большему:
Номер домохозяйства | Среднемесячный доход на душу, руб. | Номер домохозяйства | Среднемесячный доход на душу, руб. |
Определим величину интервала по формуле:
, где
i – величина интервала;
n – число групп (в данной задаче 5 группы);
Xmax, Xmin – максимальное и минимальное значение признака.
Величина интервала составит:
Разнесем по выделенным интервалам домашние хозяйства:
Это и будет интервальный ряд распределения.
Рисунок 8 – Гистограмма распределения
Таким образом, в 50% всех обследуемых домашних хозяйствах среднедушевой доход составляет от 4800 рублей до 7460 рублей на человека. Доход от 2140 до 4800 рублей на человека наблюдается в 16% всех семей. Доход от 7460 до 10120 рублей на человека наблюдается в 20% всех обследованных семей. Доля семей, где среднедушевой доход составляет от 10120 до 12780, а также от 12780 до 15440 рублей, равна 7%.
Вопросы для самопроверки
Группировка – это разбиение совокупности на группы, однородные по какому-либо признаку.Назначение сервиса . С помощью онлайн-калькулятора Вы сможете:
- построить вариационный ряд , построить гистограмму и полигон;
- найти показатели вариации (среднюю, моду (в т.ч. и графическим способом), медиану, размах вариации, квартили, децили, квартильный коэффициент дифференциации, коэффициент вариации и другие показатели);
Инструкция . Для группировки ряда необходимо выбрать вид получаемого вариационного ряда (дискретный или интервальный) и указать количество данных (количество строк). Полученное решение сохраняется в файле Word (см. пример группировки статистических данных).
Если группировка уже осуществлена и заданы дискретный вариационный ряд или интервальный ряд , то необходимо воспользоваться онлайн-калькулятором Показатели вариации . Проверка гипотезы о виде распределения производится с помощью сервиса Изучение формы распределения .
Виды статистических группировок
Вариационный ряд . В случае наблюдений дискретной случайной величины одно и то же значение можно встретить несколько раз. Такие значения x i случайной величины записывают с указанием n i числа раз его появления в n наблюдениях, это и есть частота данного значения.В случае непрерывной случайной величины на практике применяют группировку.
- Типологическая группировка – это разделение исследуемой качественно разнородной совокупности на классы, социально–экономические типы, однородные группы единиц. Для построения данной группировки используйте параметр Дискретный вариационный ряд.
- Структурной называется группировка , в которой происходит разделение однородной совокупности на группы, характеризующие ее структуру по какому–либо варьирующему признаку. Для построения данной группировки используйте параметр Интервальный ряд.
- Группировка, выявляющая взаимосвязи между изучаемыми явлениями и их признаками, называется аналитической группировкой (см. аналитическая группировка ряда).
Пример №1 . По данным таблицы 2 постройте ряды распределения по 40 коммерческим банкам РФ. По полученным рядам распределения определите: прибыль в среднем на один коммерческий банк, кредитные вложения в среднем на один коммерческий банк, модальное и медианное значение прибыли; квартили, децили, размах вариации, среднее линейное отклонение, среднее квадратическое отклонение, коэффициент вариации.
Решение
:
В разделе «Вид статистического ряда»
выбираем Дискретный ряд. Нажимаем Вставить из Excel . Количество групп: по формуле Стэрджесса
Принципы построения статистических группировок
Ряд наблюдений, упорядоченных по возрастанию, называется вариационным рядом . Группировочным признаком называется признак, по которому производится разбивка совокупности на отдельные группы. Его называют основанием группировки. В основание группировки могут быть положены как количественные, так и качественные признаки.После определения основания группировки следует решить вопрос о количестве групп, на которые надо разбить исследуемую совокупность.
При использовании персональных компьютеров для обработки статистических данных группировка единиц объекта производится с помощью стандартных процедур.
Одна из таких процедур основана на использовании формулы Стерджесса для определения оптимального числа групп:
k = 1+3,322*lg(N)
Где k – число групп, N – число единиц совокупности.
Длину частичных интервалов вычисляют как h=(x max -x min)/k
Затем подсчитывают числа попаданий наблюдений в эти интервалы, которые принимают за частоты n i . Малочисленные частоты, значения которых меньше 5 (n i < 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В качестве новых значений вариант берут середины интервалов x i =(c i-1 +c i)/2.
Пример №3
.
В результате 5%-ной собственно-случайной выборки получено следующее распределение изделий по содержанию влаги. Рассчитайте:
1) средний процент влажности; 2) показатели, характеризующие вариацию влажности.
Решение получено с помощью калькулятора : Пример №1
Построить вариационный ряд. По найденному ряду построить полигон распределения, гистограмму, кумуляту. Определить моду и медиану.
Скачать решение
Пример
. По результатам выборочного наблюдения (выборка А приложение):
а) составьте вариационный ряд;
б) вычислите относительные частоты и накопленные относительные частоты;
в) постройте полигон;
г) составьте эмпирическую функцию распределения;
д) постройте график эмпирической функции распределения;
е) вычислите числовые характеристики: среднее арифметическое, дисперсию, среднее квадратическое отклонение.
Решение
На основе данных, приведенных в Таблице 4 (Приложение 1) и соответствующих Вашему варианту, выполнить:
- На основе структурной группировки построить вариационный частотный и кумулятивный ряды распределения, используя равные закрытые интервалы, приняв число групп равным 6. Результаты представить в виде таблицы и изобразить графически.
- Проанализировать вариационный ряд распределения, вычислив:
- среднее арифметическое значение признака;
- моду, медиану, 1-ый квартиль, 1-ый и 9-тый дециль;
- среднее квадратичное отклонение;
- коэффициент вариации.
- Сделать выводы.
Требуется: ранжировать ряд, построить интервальный ряд распределения, вычислить среднее значение, колеблемость среднего значения, моду и медиану для ранжированного и интервального рядов.
На основе исходных данных построить дискретный вариационный ряд ; представить его в виде статистической таблицы и статистических графиков. 2). На основе исходных данных построить интервальный вариационный ряд с равными интервалами. Число интервалов выбрать самостоятельно и объяснить этот выбор. Представить полученный вариационный ряд в виде статистической таблицы и статистических графиков. Указать виды примененных таблиц и графиков.
С целью определения средней продолжительности обслуживания клиентов в пенсионном фонде, число клиентов которого очень велико, по схеме собственно-случайной бесповторной выборки проведено обследование 100 клиентов. Результаты обследования представлены в таблице. Найти:
а) границы, в которых с вероятностью 0.9946 заключено среднее время обслуживания всех клиентов пенсионного фонда;
б) вероятность того, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине);
в) объем повторной выборки, при котором с вероятностью 0.9907 можно утверждать, что доля всех клиентов фонда с продолжительностью обслуживания менее 6 минут отличается от доли таких клиентов в выборке не более чем на 10% (по абсолютной величине).
2. По данным задачи 1, используя X 2 критерий Пирсона, на уровне значимости α = 0,05 проверить гипотезу о том, что случайная величина Х – время обслуживания клиентов – распределена по нормальному закону. Построить на одном чертеже гистограмму эмпирического распределения и соответствующую нормальную кривую.
Скачать решение
Дана выборка из 100 элементов. Необходимо:
- Построить ранжированный вариационный ряд;
- Найти максимальный и минимальный члены ряда;
- Найти размах вариации и количество оптимальных промежутков для построения интервального ряда. Найти длину промежутка интервального ряда;
- Построить интервальный ряд. Найти частоты попадания элементов выборки в составленные промежутки. Найти средние точки каждого промежутка;
- Построить гистограмму и полигон частот. Сравнить с нормальным распределением (аналитически и графически);
- Построить график эмпирической функции распределения;
- Рассчитать выборочные числовые характеристики: выборочное среднее и центральный выборочный момент;
- Рассчитать приближенные значения среднего квадратического отклонения, асимметрии и эксцесса (пользуясь пакетом анализа MS Excel). Сравнить приближенные расчетные значения с точными (рассчитанные по формулам MS Excel);
- Сравнить выборочные графические характеристики с соответствующими теоретическими.
Имеются следующие выборочные данные (выборка 10%-ная, механическая) о выпуске продукции и сумме прибыли, млн. руб. По исходным данным:
Задание 13.1.
13.1.1. Постройте статистический ряд распределения предприятий по сумме прибыли, образовав пять групп с равными интервалами. Постройте графики ряда распределения.
13.1.2. Рассчитайте числовые характеристики ряда распределения предприятий по сумме прибыли: среднюю арифметическую, среднее квадратическое отклонение, дисперсию, коэффициент вариации V. Сделайте выводы.
Задание 13.2.
13.2.1. Определите границы, в которых с вероятностью 0.997 заключена сумма прибыли одного предприятия в генеральной совокупности.
13.2.2. Используя x2-критерий Пирсона , при уровне значимости α проверить гипотезу о том, что случайная величина X – сумма прибыли – распределена по нормальному закону.
Задание 13.3.
13.3.1. Определите коэффициенты выборочного уравнения регрессии.
13.3.2. Установите наличие и характер корреляционной связи между стоимостью произведённой продукции (X) и суммой прибыли на одно предприятие (Y). Постройте диаграмму рассеяния и линию регрессии.
13.3.3. Рассчитайте линейный коэффициент корреляции. Используя t-критерий Стьюдента, проверьте значимость коэффициента корреляции. Сделайте вывод о тесноте связи между факторами X и Y, используя шкалу Чеддока .
Методические рекомендации
. Задание 13.3 выполняется с помощью этого сервиса .
Скачать решение
Задача . Следующие данные представляют собой затраты времени клиентов на заключение договоров. Построить интервальный вариационный ряд представленных данных, гистограмму, найти несмещенную оценку математического ожидания, смещенную и несмещенную оценку дисперсии.
Пример
. По данным таблицы 2:
1) Постройте ряды распределения по 40 коммерческим банкам РФ:
А) по величине прибыли;
Б) по величине кредитных вложений.
2) По полученным рядам распределения определите:
А) прибыль в среднем на один коммерческий банк;
Б) кредитные вложения в среднем на один коммерческий банк;
В) модальное и медианное значение прибыли; квартили, децили;
Г) модальное и медианное значение кредитных вложений.
3) По полученным в п. 1 рядам распределения рассчитайте:
а) размах вариации;
б) среднее линейное отклонение;
в) среднее квадратическое отклонение;
г) коэффициент вариации.
Необходимые расчеты оформите в табличной форме. Результаты проанализируйте. Сделайте выводы.
Постройте графики полученных рядов распределения. Графически определите моду и медиану.
Решение:
Для построения группировка с равными интервалами воспользуемся сервисом Группировка статистических данных .
Рисунок 1 – Ввод параметров
Описание параметровКоличество строк : количество исходных данных. Если размерность ряда небольшая, укажите его количество. Если выборка достаточно объемная, то нажмите кнопку Вставить из Excel .
Количество групп : 0 – число групп будет определяться по формуле Стэрджесса.
Если задано конкретное число групп, укажите его (например, 5).
Вид ряда : Дискретный ряд.
Уровень значимости : например, 0.954 . Этот параметр задается для определения доверительного интервала среднего значения.
Выборка : Например, проведена 10% -ная механическая выборка. Указываем число 10 . Для наших данных указываем 100 .
Пусть из генеральной совокупности извлечена выборка, причем х 1 наблюдалось п 1 раз, х 2 - п 2 раз, х к - п к раз и - объем выборки. Наблюдаемые значения х 1 называют вариантами, а последовательность вариант, записанных в возрастающем порядке - вариационным рядом .
Число наблюдений варианты называют частотой, а ее отношение к объему выборки - относительной частотой .
Определение. Статистическим (эмпирическим) законом распределения выборки, или просто статистическим распределением выборки называют последовательность вариант и соответствующих им частот п i или относительных частот .
Статистическое распределение выборки удобно представлять в форме таблицы распределения частот, называемой статистическим дискретным рядом распределения:
(сумма всех относительных частот равна единице ).
Пример 1 . При измерениях в однородных группах обследуемых получены следующие выборки: 71, 72, 74, 70, 70, 72, 71, 74, 71, 72, 71, 73, 72, 72, 72, 74, 72, 73, 72,74 (частота пульса). Составить по этим результатам статистический ряд распределения частот и относительных частот.
Решение. 1) Статистический ряд распределения частот:
Контроль: 0,1 + 0,2 + 0,4 + 0,1 + 0,2 = 1.
Полигоном частот называют ломаную, отрезки, которой соединяют точки Для построения полигона частот на оси абсцисс откладывают варианты х 2 , а на оси ординат - соответствующие им частоты п i . Точки соединяют отрезками и получают полигон частот.
Полигоном относительных частот называют ломаную, отрезки, которой соединяют точки . Для построения полигона относительных частот на оси абсцисс откладывают варианты х i , а на оси ординат соответствующие им частоты w i . Точки соединяют отрезками и получают полигон относительных частот
Пример 2. Постройте полигон частот и полигон относительных частот по данным примера 1.
Решение: Используя дискретный статистический ряд распределения, составленный в примере 1 построим полигон частот и полигон относительных частот:
![]() |
2. Статистический интервальный ряд распределения. Гистограмма .
Статистическим дискретным рядом (или эмпирической функцией распределения) обычно пользуются в том случае, когда отличных друг от друга вариант в выборке не слишком много, или тогда, когда дискретность по тем или иным причинам существенна для исследователя. Если же интерисующий нас признак генеральной совокупности Х распределен непрерывно или его дискретность нецелесообразно (или невозможно) учитывать, то варианты группируются в интервалы.
Статистическое распределение можно задать также в виде последовательности интервалов и соответствующих им частот (в качестве частоты, соответствующей интервалу, принимают сумму частот, попавших в этот интервал).
1. R(размах) = X max -X min
2. k- число групп
3. (формула Стерджеса)
4. a = x min , b = x max
Полученную группировку удобно представить в форме частотной таблицы, которая носит название статистический интервальный ряд распределения:
Интервалы группировки | ... | ||||
Частоты | ... |
Аналогическую таблицу можно образовать, заменяя частоты n i относительными частотами.