(北京理工大学珠海学院 广东 珠海 519088 )
摘要:本文主要通过 R 软件对不带参数的分类数据及带参数的分类数据进行检验。
关键词:分类数据;色盲遗传学模型;卡方统计量;卡方检验
实际生活和应用中,除了定量数据,定性数据也是经常会遇到的一种数据类型,对于单一属性的分类数据经常需要做相应的检验。本文主要通过使用 R 软件对分类数据进行检验。
一、不带参数的分类数据的检验
案例 1 (孟德尔的豌豆实验) 19 世纪奥地利生物学家孟德尔按颜色与形状把豌豆分为四类:黄而圆的,青而圆的,黄而有角的,青而有角的。按照遗传学的理论,这四类豌豆的个数之比为 9:3:3:1 ,也就是说,豌豆为黄而圆 的 , 青 而 圆 的 , 黄 而 有 角 的 , 青 而 有 角 的 概 率 分 别 为9/16 , 3/16 , 3/16 , 1/16 。他在 n=556 颗豌豆中,观察到这四类豆的颗数分别为315 、 108 、 101 、 32 。在实际观察时,由于随机性,观察颗数不会恰好呈 9:3:3:1的比例,因此,就需要根据这些观察数据,对孟德尔的遗传学理论进行检验。
单一属性分类数据检验问题的一般提法如下。根据某一项指标,总体被分为 r 类: . 根据理论或从经验出发提出了一个原假设:
,其中 已
知 ,
著名统计学家皮尔逊提出检验统计量为: ,该统计量称为 检验统计量。在原假设成立时,该统计量的渐近分布为分布。
拒绝域为 , p 值为 ,如 果,则
在水平 下拒绝原假设 ,否则不拒绝原假设 。下面通过 R 程序解决。
孟德尔豌豆实验检验的 R 程序:
x<-c(315,108, 101,32)
p<-c(9/16,3/16,3/16,1/16)
chisq.test(x, p = p)
运行结果:
Chi-squared test for given probabilities
data: x
X-squared = 0.47002, df = 3, p-value = 0.9254设检验水平 ,则 ,故不拒绝原假设 ,即认为孟德尔的遗传学理论是正确的。
二、带参数的分类数据的检验
案例 2 (色盲的遗传学模型)随机调查 1000 人,按性别和是否色盲将这1000 人分类。分类结果如下:男性正常、女性正常、男性色盲和女性色盲各有 442 、 514 、 38 、 6 人。按遗传学理论,这四类人所占的比例分别为,其中 p 未知, q=1-p. 问调查数据是否与模型相符?
原假设
检验统计量为
其中 r 为类别数, m 为待估参数个数, , 此处 r=4 , m=1.
除了含有待估参数及 统计量的渐近分布自由度与不带参数的分类数据不同,其余都相同。所以首先要对待估参数进行估计,再进行检验。下面为色盲遗传学模型的 R 程序及运行结果:
# 先对 p 做极大似然估计
f <- function (p) -(p^956)*((2-p)^514)*((1-p)^50)pmin <- optimize(f, c(0, 1), tol = 0.0000001)pmin$`minimum`[1] 0.9129418$objective[1] -6.427138e-73# 再利用不带参数的分类数据的检验算出卡方统计量(注意此处自由度和 p 值均不正确)x<-c(442,514,38,6)p<-pmin$minimumq<-1-pp1<-c(p/2,(p^2)/2+p*q,q/2,(q^2)/2)chisq.test(x, p = p1)Chi-squared test for given probabilitiesdata: xX-squared = 3.0882, df = 3, p-value = 0.3782# 最后设置正确的自由度,重新计算正确的 p 值pchisq( chisq.test (x,p = p1)$statistic,df=2,lower.tail=F)X-squared0.2135072得到的 p=0.2135072 >0.05 ,故不拒绝原假设,即认为色盲遗传学理论是正确的。
参考文献:
[1] 张尧庭 . 定性资料的统计分析 . 南宁:广西师范大学出版社, 1991.
[2] 王静龙,梁小筠,王黎明 . 属性数据分析 . 北京 : 高等教育出版社,2013.7[3] Robert I.Kabacoff.R in Action Data Analysis and Graphics with R. (中译本: R 语言实战 . 高涛,肖楠,陈钢译 . 北京:人民邮电出版社, 2014.1 )