基于R软件的概率统计辅助教学的优势

2022-03-04 08:37:06 | 浏览次数:

摘要:概率论与数理统计作为一门数据分析课程,其开设广泛、应用兴强。如何选择软件辅助教学是一个非常重要的问题,本文结合R软件的特点,通过经典教材例题,对比分析讨论R软件辅助教学的优势。

关键词:R软件;概率统计;辅助教学

一、使用软件的必要性

随着计算机、互联网的迅速发展,数据的采集、整理以及储存的方式发生了巨大的变化。现代的数据分析也越来越离不开计算机和相关软件。概率论与数理统计作为一门数据分析课程,也应与现代的数据分析方式相契合,凸显其实用性,因而有必要在课程教学中进入相关的软件教学。在这方面,魏宗舒等编著的《概率论与数理统计教程》的第二版[1]和盛骤等编著的《概率论与数理统计》第四版[2],都引入了Excel帮助进行统计分析,以适用应用性的需要。Excel作为Office的一部分应用相当广泛,学生也有一定的操作基础,作为概率论与数理统计的教学软件,无疑是最容易被学生接受,也是最方便的。

二、使用R软件的优势

单从统计模拟以及课堂演示的角度考虑,专业的统计分析软件,在这方面更具有优势。例如:被统计学者或科研人员广泛应用的R软件就是一个不错的选择,而软件与商业软件SAS和SPSS不同,它是免费、开源的,而且其统计分析和统计制图功能不亚与SAS和SPSS。美国时代周刊2009年曾指出,R是可以和SAS相媲美,占有相当比例的市场份额[3] 。而且R软件只有七十多兆,不会占用很多磁盘空间,安装时间仅仅几分钟。同时R软件有相当多的统计分析软件包,截止2018年9月,共有13095个软件包。这些软件包不仅功能强大,而且大多数都含有真实数据,如果恰当选择,将可作为概率统计教学的非常新颖的实例。更重要的是R是一种数学计算环境,它提供各种数学计算,统计计算的函数,不仅方便学生和老师调用,而且能更加灵活地进行统计模拟,从而使学生更好的理解概念和性质。

下面通过几个例题,对比分析一下R软件辅助教学的优势。在讲概率论部分,生日问题是学生非常感兴趣的问题之一,设一个班有n( 365)个学生,求至少有两个学生的生日相同的概率。如果假设学生的生日在365天每一天都具有相同的概率,则该概率为 。这个概率看起来简单,但实际上笔算或者用计算器计算,工作量是很大的。为魏宗舒、盛骤、茆诗松等编著的教材中均有此例题,均给出了概率随学生数n的变化表格。茆诗松的教材中给出了近似计算的方法,但也涉及指数运算,如果用R软件进行计算,就方便多了,结果见图1。该过程在课堂上演示或让学生下课重复R件计算过程,使学生更加真实地感受这一结果。

图1 生日问题结果

在概率论部分,在讲授二项分布的内容时,其中一个重要的知识点是二项分布的分布列可由泊松分布的分布列近似计算:即当n较大,p较小,np不太大时,有 ,其中 。详见魏宗舒第二版第67页。教材中表2.2给出了精确的二项分布率和近似的泊松分布率的比较结果,为了验证这一结果,我们可以利用R软件进行比较。计算结果见图2,其中红色为泊松概率,其他颜色的圆圈表示n不同二项分布的概率。

图2 泊松概率与二项概率比较结果

在讲授置信区间内容时,从频率学派的观点,我们通常会强调,在重复采样情况下,将得到许多不同的置信区间,这些区间将有大约 的区间包含未知参数,而对于一次采样所得的置信区间,绝不能说未知参数落入区间的概率为 。但对于学生来说,理解是有一定困难的。茆诗松老师[4]的教材上给出了例6.6.1模拟上的过程,我们可以通过R软件重复茆诗松老师的模拟过程,展示给学生,增加学生的印象,使学生理解更深刻。如图3.

图3 置信区间模拟结果

通过以上三个例子可以说明,R软件辅助教学,具有活泼、生动,使学生理解更深刻的优点。有的老师可能会说,从模拟和计算角度,Matlab也可以实现上述过程。的确如此,而R依然具有占用空间小,免费开源的优势。此外R软件的自己独特的变量类型,表示数据更方便,更符合人们的习惯。例如数据框,它通常是一个矩阵形式的数据,但矩阵各类可以是不同的类型,它的每一列表示一个变量,每行表示一个样本。

图4 数据框结果

三、总结

综上所述,在概率论与数理统计中恰当的引入R软件不仅可以解决计算的问题,而且可以进行统计模拟,便于学生更易理解重要的概念,激发学生的学习兴趣。但同时也存在一定的问题,例如对学生来说,R软件相对于Excel要操作相对难以掌握,另外如何分配R软件教学学时与理论课学时,特别值得研究的问题。

参考文献:

[1] 魏宗舒,等. 概率论与数理统计教程.(第二版)[M]. 北京:高等教育出版社, 2008.

[2] 盛骤,等. 概率论与数理统计(第四版)[M]. 北京:高等教育出版社, 2008.

[3] Ashlee Vance. Data Analysts Captivated by R’s Power, The New York Times, 2009

[4] 茆詩松,等. 概率论与数理统计教程(第二版) [M]. 北京:高等教育出版社, 2011.

附录:

生日问题代码:

m <- seq(10,50,5)

P.E<- function(m){

c(Student = m,ProbAtL2SB = 1-prod((365:(365-m+1)/365)))

}

t(sapply(m,P.E))

泊松概率与二项概率代码:

x<- 0:10

px<- dpois(x,1)

n<- 10;p<- 0.1;px10<- dbinom(x,n,p)

n<- 20;p<- 0.05;px20<- dbinom(x,n,p)

n<- 40;p<- 0.025;px40<- dbinom(x,n,p)

n<- 100;p<- 0.01;px100<- dbinom(x,n,p)

plot(x,px,ylim = c(0,max(px10,px20,px40,px100)),

type = "h",xlab = "x",ylab = "P(X=x)",col="red")

par(new=TRUE);points(x,px10,col= "yellow")

par(new=TRUE);points(x,px20,col= "blue")

par(new=TRUE);points(x,px40,col= "black")

par(new=TRUE);points(x,px100,col= "green")

legend("topright",legend = c("pios","n=10","n=20","n=40","n=100"),

lty = 1,col=c("red","yellow","blue","black","green"))

置信區间模拟代码:

norsim<- function(sims=100,n=36,mu=15,sigma=2,conf.level=0.90){

alpha<- 1-conf.level

CL<- conf.level*100

l1<- numeric(sims)

u1<- numeric(sims)

for (i in 1:sims) {

x<- rnorm(n,mu,sigma)

xbar<- mean(x)

s<- sd(x)

l1[i]<- xbar-qt(1-alpha/2,df=n-1)*s/sqrt(n)

u1[i]<- xbar+qt(1-alpha/2,df=n-1)*s/sqrt(n)

}

notin<- sum((l1>mu)+(u1

percentage<- round((notin/sims)*100,2)

SCL<- 100-percentage

plot(l1,type = "n",ylim = c(min(l1),max(u1)),xlab = "",ylab = "")

for (i in 1:sims) {

low<- l1[i]

high<- u1[i]

if(lowmu){

segments(i,low,i,high)

}

else if(low>mu&high>mu){

segments(i,low,i,high,col = "red",lwd=5)

}

else{

segments(i,low,i,high,col = "blue",lwd=5)

}

}

abline(h=mu)

cat(SCL,"\b% of the random confidence intervals contain Mu=",mu,"\b.","\n")

}

norsim()

数据框代码:

df<- data.frame(

姓名=c("陈一","黄二","张三","李四","王五"),

性别=c("女","女","男","男","男"),

年龄=c(13,12,13,12,14),

体重=c(56.5,56.2,45,44,57)

df

作者简介:

徐平峰(1979—),男,汉族,吉林省辽源市人,职务:长春工业大学数学与统计学院副院长,职称:教授,学历:博士研究生,研究方向图模型、缺失数据统计分析。

推荐访问: 概率 辅助教学 优势 统计 软件