中级经济基础辅导:数据整理
①数据的分组:分组的方法
分类方法 | 定义 | 适用范围 |
单变量值分组 | 把每一个变量值作为一组 | 通常只适合于离散变量且变量值较少的情况。 |
组距分组 | 将全部变量值依次划分为若干个区间,并将这一区间的变量值作为一组。 | 连续变量或变量值较多的情况 |
采用组距分组的步骤:
第一步,确定分组组数
确定分组组数的要求是:1)划分的组数,既不应太多也不应太少;2)组数的确定,要尽量保证组间资料的差异性与组内资料的同质性;3)采用的分组办法,要能够充分显示客观现象本身存在的状态。
关于统计分组组数问题,斯特基给出的计算公式为:(了解即可)
k=log10N/log102
第二步,对原始资料进行排序;
第三步,求极差,将最大的观察值与最小的观察值相减便得到极差;
第四步,确定各组组距。在实行等距分组的情况下,组距的确定办法为:
组距=极差÷组数最好把组距取成接近于能被5除尽的一个数。
掌握:组距与组数成反比关系,组数越多,组距越小,组数越少,组距越大。
组距是每组观察值的最大差,即每组的上限值与下限值之间的差。
组距=某组的上限值-该组的下限值
第五步,确定组限
组限是组与组之间的界限,或者说是每组观察值变化的范围。组限有上限与下限之分;上限与下限的差值称为组距;上限值与下限值的平均数称为组中值。
组中值=(上限值 下限值)÷2
确定组限时应注意:1)第一组的下限值应比最小的观察值小一点,最后一组的上限值应比最大的观察值大一点;2)特别需要或不得已的情况除外,最好不要使用开口组;3)组限应取得美观些,按数字偏好,组限值应能被5除尽,且一般要用整数表示。
第六步,确定各组观察值出现的频数
凡观察值落在某一区间的,就计发生一次,最后统计各组观察值发生的总次数。采用组距分组时,需要遵循“不重不漏”的原则。
为解决“不重”的问题,统计分组时习惯上规定“上组限不在内”,即当相邻两组的上下限重叠时,恰好等于某一组上限的观察值不算在本组内,而计算在下一组内。
第七步,制作频数分布表,并填上相关的内容,以及其他需要说明的事项。
数值型数据的图示——直方图、折线图
①直方图——直方图是用矩形的宽度和高度来表示频数分布的图形。
在直方图中,我们实际上用矩形的面积表示各组的频数分布。
直方图与条形图的区别:1)条形图是用条形的长度(横置时)表示各类别频数的多少,其宽度(表示类别)则是固定的;直方图是用面积表示各组频数的多少,矩形的高度表示每一组的频数或百分比,宽度则表示各组的组距,因此其高度与宽度均有意义;2)直方图的各矩形通常是连续排列,而条形图则是分开排列。
②折线图:也称频数多边形图,它是在直方图的基础上,把直方图顶部的中点(即组中值)用直线连接起来,再把原来的直方图抹掉就是折线图。
数据的整理与显示总结
数据类型 | 数据的整理 | 数据的显示 |
分类数据 | 频数、比例、比率、百分比 | 条形图、圆形图 |
顺序数据 | 频数、比例、比率、百分比、累积频数、累积百分比 | 条形图、圆形图、累积分布图 |
数值型数据 | 频数、比例、比率、百分比、累积频数、累积百分比、分组(单变量分组、组距分组) | 条形图、圆形图、累积分布图、直方图、折线图 |