数据素养与数学概念相融合的课改研究

2022-03-06 08:05:38 | 浏览次数：

��zoޛ�)j馟��iI�bzWv�N?��4��饨ky 材料配比不恰当，就是生熟火候不到等，做到色香味俱全，脑子里要有一套数据在指导.

三、数据来源

我们这个世界的每一个角落都充满了数据，来自经济的、政治的、文化的、教育的、科研技术的、军事的等等.不同的行业形成了不同数据平台，有开放的，有不开放的；有流动的，有储存在数据库里.例如，我们研究一个经济问题，我们可以到政府的金融、统计、财政、税务等部门的数据库或者其网站去搜寻，可以到行业企业的数据库或者网站去获取，以及一些经济方面的社交平台去抓取，也可以设计调查问卷去收集数据等等.

数学上，把数据分为一手数据和二手数据.一手数据是直接调查等方式获得的，也就是原始数据；二手数据是指在研究一个问题时，原始数据之外所用到的数据.因此，提高数据素养，我们要清楚怎样去获取数据，一是直接来自数据库，二是去抓取流动的数据，三是实验与调查，取得第一手数据.其中，在流动的数据中抓取数据，需要学习相关软件如爬虫等.

调查设计是获取原始数据的重要手段.对于调查对象的全体称之为总体，其中的对象为个体，部分个体组成样本.抽样分为系统抽样、分层抽样、整群抽样、多级抽样等，从容量为N的总体中产生样本为n的随机样本，常用方法是随机数法.例如，从1到100之間随机抽取20个整数，在R软件中，可以用语句sample（0：100，20）来实现.这些概念都是数据素养提高的载体.

四、数据清洗

清洗数据是为了形成目标数据以及提高数据质量.例如，常见的软件Excel为数据清洗提供了一系列的函数，比如，删除重复、查找替换以及拼音检查等.DataKlee是数据清洗软件领域的新兵，它是一款全自动的解决方案，支持text、数字和二进制数据.它基于云，无须下载安装，只要有浏览器和网络即可.创建账户，所有的数据清洗操作都在云上进行；然后会加密、保存到您的私人工作区，通过账户登陆可以随时随地管理项目.学概率论与数理统计课程，需要基本学会这些软件.

五、数据整理

首先对数据进行审核，检验原始数据的完整性、准确性和时效性，按照一定的标准将原始数据进行分组、汇总，把数据列入表格.整理后的数据可以进一步可视化：运用相关软件如SPASS等，把数据变为规律性图形与色彩.像条形图、饼图、直方图、盒形图、茎叶图等，这几种图形仅仅代表一个变量的观察数据.对两个变量之间的数据关系，可以用散点图来描述，纵横坐标分别表示两个变量的取值.其他可视化图还有面孔图、地理图形，表示四个变量的星形图等等.

六、数据分析的逻辑

统计学的基本思维逻辑是：面对一个问题，提出一个假设，取得样本或者总体的数据，进行数据分析，然后肯定或者否定假设.用部分的特性推测整体的特性，用现在的数据推测未来的趋势.

七、数据分析

在统计思维的基础上，运用分析工具进行数据分析.统计量是不包含未知总体参数的样本的函数，用于估计的统计量称为估计量.汇总统计量主要包括样本均值、中位数、众数，表示数据中心的位置，均值涉及所有数据，中位数不易受极端数据的影响，具有稳健性.众数表示数据中重复出现次数最多的数据.尺度汇总统计量——样本方差、标准差、级差、标准误差，表示数据的离散程度.样本方差、标准差的差别在于量纲.求方差的分母用n-1，而不用n的原因是这样的样本方差是无偏估计量.标准误差是多个样本均值的标准差.

八、数据挖掘

要进行数据挖掘，还要搞清楚变量的常见分布，它表示随机变量的取值和相应概率的关系，随机变量取任意一值所得概率的变化规律称之为分布.熟悉这些分布（模型）是数据挖掘的重要一环，概率分布若知道了，就等于知道了总体.例如，我们知道某一门课程高考的分数服从正态分布，就相当于我们知道了这个总体.

离散型变量分布有：二项分布、多项分布、超几何分布、泊松分布等；连续型变量分布有：正态分布、卡方分布、学生分布、均匀分布、指数分布等.

例如，设有80%的学生能够考试及格，现随机问询7个人，则至少3个人能够考试及格的概率是多少？

九、数据决策

按照专科生概率论与数理统计课程的教学目标，包括简单的统计推断、总体参数估计与总体参数的假设检验.估计总体参数的统计量叫作估计量，常用的估计量就是样本的均值x、样本的标准差s、成功比例xn.估计包括点估计与区间估计，要根据现实的情况，采用哪种估计.例如，某产品“合格率是75%，误差±2%，其置信度95%”，这里合格率是一个区间（73%，77%），置信度是指对产生这样一个区间估计过程的一种信心.当然，我们希望区间窄，置信度大些好.

以假设检验进行决策基础是利用数据来证伪.假设检验中，一般要设立一个零假设（H0表示）和一个对立假设，称为备择假设（常用H1表示），设立这些假设的意图是指运用样本数据（一般更接近于备择假设），找出零假设和现实之间的矛盾，从而否定这个假设，这称之为显著性假设检验.在多数统计实验中的假设检验都是以否定零假设为目标，如果否定不了，那就说明证据不足，但零假设未必正确.判定方法如下：

P值是在零假设下，出现检验统计量的现实值.P值越小，说明样本数据不支持零假设，它是由样本数据决定，而显著性水平是由用户决定的.

十、数据预测

前面的数据分析，都是基于单一变量，但是世界上一个问题中常常涉及相互关联的多个变量.关心变量和其他有关变量之间的关系，一般称为模型.因此，它们形成函数关系Y=f（X），这里Y称为因变量或者响应变量，X称为自变量或者解释变量、协变量.寻找这种关系的过程叫作回归，建立回归模型后可以进行预测.例如，一元线性回归模型如下：

这样，我们取所谓未来的X的一个数值，可以得到预测值Y.

十一、结束语

通过上面的研究，我们把数据素养的十个维度和概率论与数理统计课程中基本概念紧紧地交织在一起，由此，在概率论与数理统计的课堂教学中就融入了数据素养教育，从而摸索进行数学课堂教学模式的改进.课题组相关成员一年多的课堂教学实践表明，能够达到预期目标，教学效果良好.

【参考文献】

[1]Schield M.Information literacy，statistical literacy and data literacy[J].Iassist Quarterly，2004（2-3）：7-14.

[2]徐群芳.《概率論与数理统计》课程教学的探索与实践[J].大学数学，2010（1）：10-13.

[3]王庚.《概率论与数理统计》课程的一种新教改模式[J].南京财经大学学报，2009（2）：102-105.

[4]周兴才.应用型本科院校概率论与数理统计教学研究[J].湖北文理学院学报，2011（5）：60-63.

[5]朱德全.数学素养构成要素探析[J].中国教育学刊，2002（5）：49-51.

[6]张静波.大数据时代的数据素养教育[J].科学，2013（4）：29-32.

[7]郑毓信.简论数学课程改革的活动化、个性化、生活化取向[J].教育研究，2003（6）：90-94.

[8]章建跃.全面深化数学课改的几个关键[J].课程·教材·教法，2015（5）：76-80.