首页  >  正文

数量资料统计描述

2020/7/15 14:57:53 标签:       浏览:1200

对数值变量资料进行统计分析的一般步骤,是先对观察测量得到的变量值(即观察值)进行统计描述,再在此基础上进行深入的统计推断。统计描述的工作主要是在编制频数表的基础上描述资料的集中位置和离散程度。
  
  一、数值变量资料的频数表
  1. 频数表(frequency table)的编制方法:
  
   (1)找出观察值中的最大值(largest value)、最小值(smallest value)和极差(range)。
  
   (2)据极差大小确定组段和组距(class interval),将其分为10个左右的组段。
  
   (3)列表划记落在各组段内的观察值个数即可得频数表。
  
   根据编制出的频数表即可了解该数值变量资料的频数分布特征。
  
  2. 频数分布的特征及类型:
  
   (1)两个特征:集中趋势(central tendency)和离散趋势(tendency of dispersion)
  
   (2)两种类型:对称分布(symmetric distribution)和偏态分布(skewed distribution),偏态分布又有正偏态(positively skewed)和负偏态(negatively skewed)之分。
  
  3. 频数表的用途:
  
   (1)描述资料的分布特征和分布类型。
  
   (2)进一步计算有关指标或进行统计分析。
  
   (3)发现特大、特小的可疑值。
  
   (4)据此绘制频数分布图。
  
  二、集中位置的描述
   描述一组观察值集中位置或平均水平的指标称为平均数(average)。它能使人对资料有个简明概括的印象,并能进行资料间的比较。常用的平均数有算术均数、几何均数和中位数。
  
  1. 算术均数(arithmetic mean)
  
   简称均数(mean),有总体均数和样本均数之分,分别用希腊字母miu(音)和英文字母x bar(音)表示。
  
   (1)计算方法
  
   不分组资料用直接法。即所有观察值的累积和除以观察值个数, 相同观察值较多或分组资料常用加权法(weighting method)。
  
   (2)均数的应用
  
   适用于对称分布,特别是正态分布的资料,不适用于偏态分布的资料。如有数据3、4、5、6、17,可见数据多在3-6之间,但均数为7,显然不能代表这组数据的中心位置,此时应用几何均数或中位数描述其集中趋势。
  
  2. 几何均数(geometric mean ,G)
  
   适用于呈倍数关系的等比资料或对数正态分布的资料,应用中应注意观察值不能同时有正有负,同一资料算得的几何均数小于算术均数。
  
  3. 中位数(median)
  
   中位数是一组观察值的位置平均数,直接由原始数据计算中位数时,若n为奇数,则中位数为将观察值从小到大排序后中间位置那个观察值,若n为偶数,中位数为将观察值从小到大排序后中间两个观察值的算术均数。用频数表计算中位数时先据频数表计算累计频数(cumulative frequency)和累计频率,百分之五十分位数即为中位数。
  
   中位数用于描述偏态分布资料的集中位置,它不受两端特大、特小值的影响,当分布末端无确切数据时也可计算。
  
   百分位数(percentile)是资料分布数列的的百等份分割值,百分位数用于描述样本或总体观察值序列某百分位置的水平,应用中注意,样本例数不够多时,两端的百分位数不稳定。百分位数还用于确定参考值范围(reference range)
  
  三、离散程度的描述
   多组资料均数相同,只说明其集中趋势相同,各组数据内部观察值参差不齐的程度可能不同。此时,常用极差、
  
  四分位数间距、方差、标准差和变异系数等指标来描述资料的离散程度。
  
   1. 极差(range,R)
  
   又称全距,即最大和最小观察值之间的间距,用极差描述资料的离散程度简单明了,但它不能反映观察值的整个变异度,样本的例数越多,极差越大,不够稳定。
  
   2. 四分位数间距
  
   四分位数( quartile, Q) 是特定的百分位数,其中P25为下四分位数Ql,P75为上四分位数Qu。四分位数间距即Qu-Ql。四分位数间距比极差稳定,但仍未考虑每个观察值的变异度。
  
   3. 方差(variance,Var)
  
   怎样一个指标才能反映整个资料的变异程度呢?
  
   离均差的绝对值之和或离均差平方和(sum of squares, SS)可用来描述资料的变异度。SS的均数(即方差)不受观察值个数的影响,用来描述资料的离散程度较离均差的绝对值之和或离均差平方和更好。方差也有总体方差和样本方差之分。
  
   4. 标准差(standard deviation)
  
   因方差的单位是原单位的平方,所以使用仍不方便。方差的算术平方根,即标准差,是一个更好的指标。相应的,标准差也有总体标准差和样本标准差之分,分别用希腊字母xigema(音)和英文s表示
  
   标准差可用于描述变量值的离散程度,与均数结合还可描述资料的分布情况,此外还可用于求参考值范围和计算标准误。
  
  5. 变异系数(coefficient of variance, CV)
  
   当比较多组资料的变异度,而这几组资料的单位不同或均数相差悬殊时,用标准差就不合适。此时需要用到变异系数又称离散系数(coefficient of dispersion)来比较,它实际上是标准差占均数的百分比例。