8.3.1 分类变量与列联表ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册
《8.3.1 分类变量与列联表ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册》由会员分享,可在线阅读,更多相关《8.3.1 分类变量与列联表ppt课件-2022年高二下学期数学人教A版(2019)选择性必修第三册(16页珍藏版)》请在七七文库上搜索。
1、8.3 列联表与独立性检验列联表与独立性检验 8.3.1 分类变量与列联表分类变量与列联表 前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑前面两节所讨论的变量,如人的身高、树的胸径、树的高度、短跑100 m世界世界纪录和创纪录的时间等,都是纪录和创纪录的时间等,都是数值变量数值变量. 数值变量的取值为实数,其大小和运算数值变量的取值为实数,其大小和运算都有实际含义都有实际含义. 在现实生活中,人们经常需要回答在现实生活中,人们经常需要回答一定范围内的两种现象或性质一定范围内的两种现象或性质之间是否存之间是否存在在关联性或相互影响的问题关联性或相互影响的问题. 例如,就读不同学校是否
2、对学生的成绩有影响,不例如,就读不同学校是否对学生的成绩有影响,不同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等同班级学生用于体育锻炼的时间是否有差别,吸烟是否会增加患肺癌的风险,等等等. 本节将要学习的本节将要学习的独立性检验独立性检验方法为我们提供了解决这类问题的方案方法为我们提供了解决这类问题的方案. 在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,在讨论上述问题时,为了表述方便,我们经常会使用一种特殊的随机变量,以以区别不同的现象或性质区别不同的现象或性质,这类随机变量称为,这类随机变量称为分类变量分类变量. 分类变量的取值可以用分类变量的取值
3、可以用实数表示,例如,学生所在的班级可以用实数表示,例如,学生所在的班级可以用1, 2, 3等表示,男性、女性可以用等表示,男性、女性可以用1, 0表表示,等等示,等等. 在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意在很多时候,这些数值只作为编号使用,并没有通常的大小和运算意义义. 本节我们主要讨论本节我们主要讨论取值于取值于0, 1的分类变量的分类变量的关联性问题的关联性问题. 1. 分类变量分类变量 问题问题 为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因为了有针对性地提高学生体育锻炼的积极性,某中学需要了解性别因素是否对本校学生体育锻炼的经常性有影响,为此对
4、学生是否经常锻炼的情素是否对本校学生体育锻炼的经常性有影响,为此对学生是否经常锻炼的情况进行了普查况进行了普查. 全校学生的普查数据如下全校学生的普查数据如下: 523名女生中有名女生中有331名经常锻炼;名经常锻炼;601名男生中有名男生中有473名经常锻炼名经常锻炼. 你能利用这些数据,说明该校女生和男生在你能利用这些数据,说明该校女生和男生在体育锻炼的经常性方面是否存在差异吗体育锻炼的经常性方面是否存在差异吗? 如何利用统计数据判断一对分类变量之间是否具有关联性呢如何利用统计数据判断一对分类变量之间是否具有关联性呢? 对于这样的统计对于这样的统计问题,有时可以利用普查数据,通过比较相关的
5、比率给出问题的准确回答,但在问题,有时可以利用普查数据,通过比较相关的比率给出问题的准确回答,但在大多数情况下,需要借助概率的观点和方法大多数情况下,需要借助概率的观点和方法. 我们先看下面的具体问题我们先看下面的具体问题. 这是一个简单的统计问题这是一个简单的统计问题. 最直接的解答方法是,比较最直接的解答方法是,比较经常锻炼的学生在女生经常锻炼的学生在女生和男生中的比率和男生中的比率. 由已知数据,可得由已知数据,可得 0f 经经常常锻锻炼炼的的女女生生数数女女生生总总数数1f 经经常常锻锻炼炼的的男男生生数数男男生生总总数数3310.633523,4730.787601. . 该校的女生
6、和男该校的女生和男生在体育锻炼的生在体育锻炼的经常性方面有差经常性方面有差异,而且男生更异,而且男生更经常锻炼经常锻炼. 上面的问题还可以通过建立一个古典概型,上面的问题还可以通过建立一个古典概型,使用条件概率使用条件概率的语言,给出另外的语言,给出另外一一 种解答方法种解答方法. 用用表示该校全体学生构成的集合,则表示该校全体学生构成的集合,则为样本空间,定义一对分类变量为样本空间,定义一对分类变量X和和Y如下如下: 对于对于中的每一名学生,分别令中的每一名学生,分别令 01X ,该该生生为为女女生生,该该生生为为男男生生,01Y ,该该生生不不经经常常锻锻炼炼,该该生生经经常常锻锻炼炼.
7、.下面我们利用已知数据分别来计算这两个条件概率下面我们利用已知数据分别来计算这两个条件概率. 若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体若从该校女生和男生中各随机选取一名学生,那么该女生属于经常锻炼群体的概率为的概率为 而该男生属于经常锻炼群体的概率为而该男生属于经常锻炼群体的概率为 (1|0)P YX,(1|1).P YX为了清楚起见,我们用表格整理数据,如下表所示为了清楚起见,我们用表格整理数据,如下表所示. 性别性别 锻炼锻炼 合计合计 不经常不经常(Y0) 经常经常(Y1) 女生女生(X0) 192 331 523 男生男生(X1) 128 473 601 合计
8、合计 320 804 1124 331(1|0)0.633523P YX,473(1|1)0.787.601P YX(1|1)(1|0)P YXP YX,在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男在该校的学生中,性别对体育锻炼的经常性有影响,即该校的女生和男生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼生在体育锻炼的经常性方面存在差异,而且男生更经常锻炼. 2. 列联表列联表 在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需在实践中,由于保存原始数据的成本较高,人们经常按研究问题的需要,将数据分类统计,并做成表格加以保存要,将数据分类统计,并做成表格加以保
9、存. 我们将形如下表这种形式我们将形如下表这种形式的数据统计表称为的数据统计表称为2 2列联表列联表. 2 2列联表给出了列联表给出了成对分类变量数据的交成对分类变量数据的交叉分类频数叉分类频数. 组别组别 甲甲(Y0) 乙乙(Y1) 合计合计 A(X0) a b ab B(X1) c d cd 合计合计 ac bd abcd 用用表示两所学校的全体学生构成的集合,则表示两所学校的全体学生构成的集合,则为样本空间,对于为样本空间,对于中的每中的每一名学生,定义分类变量一名学生,定义分类变量X和和Y如下:如下: 例例1 为比较甲、为比较甲、 乙两所学校学生的数学水平,采用简单随机抽样的方法抽乙两
10、所学校学生的数学水平,采用简单随机抽样的方法抽取取88名学生名学生. 通过测验得到了如下数据通过测验得到了如下数据: 甲校甲校43名学生中有名学生中有10 名数学成绩名数学成绩优秀优秀; 乙校乙校45名学生中有名学生中有7名数学成绩优秀名数学成绩优秀. 试分析两校学生中数学成绩优试分析两校学生中数学成绩优秀率之间是否存在差异秀率之间是否存在差异. 解:解: 01X ,该该生生来来自自甲甲校校,该该生生来来自自乙乙校校,01Y ,该该生生数数学学成成绩绩不不优优秀秀,该该生生数数学学成成绩绩优优秀秀. .将所给数据整理成如下将所给数据整理成如下2 2列联表列联表. 学校学校 数学成绩数学成绩 合
11、计合计 不优秀不优秀(Y0) 优秀优秀(Y1) 甲校甲校(X0) 33 10 43 乙校乙校(X1) 38 7 45 合计合计 71 17 88 学校学校 数学成绩数学成绩 合计合计 不优秀不优秀(Y0) 优秀优秀(Y1) 甲校甲校(X0) 33 10 43 乙校乙校(X1) 38 7 45 合计合计 71 17 88 330.767443 ,由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲由等高堆积条形图可知,可以认为两校学生的数学成绩优秀率存在差异,甲校学生的数学成绩优秀率比乙校学生的高校学生的数学成绩优秀率比乙校学生的高. 由由2 2列联表可列联表可得,得,甲校学生中数
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 8.3
链接地址:https://www.77wenku.com/p-218310.html