考点34 变量的相关关系与统计案例(教师版)备战2021年新高考数学微专题补充考点精练
《考点34 变量的相关关系与统计案例(教师版)备战2021年新高考数学微专题补充考点精练》由会员分享,可在线阅读,更多相关《考点34 变量的相关关系与统计案例(教师版)备战2021年新高考数学微专题补充考点精练(23页珍藏版)》请在七七文库上搜索。
1、 第 1 页 / 共 23 页 考点考点 34 变量的相关关系与统计案例变量的相关关系与统计案例 1、了解样本相关系数的统计含义, 2、了解样本相关系数与标准化数据向量夹角的关系,了解一元线性回归模型及独立性检验的含义, 3、了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,针对 实际问题,会用一元线性回归模型进行预测 独立性检验是一种统计案例,是高考命题的一个热点,多以解答题的形式出现,试题难度不大,多为 中档题,高考中经常是将独立性检验与概率统计相综合进行命题,解题关键是根据独立性检验的一般步骤, 作出判断,再根据概率统计的相关知识求解问题. 1、独立性
2、检验独立性检验 利用随机变量 2 K (也可表示为 2 ) 2 () ()()()() n adbc ab cd ac bd (其中nabcd 为样本容量)来判断 “两个变量有关系”的方法称为独立性检验 2、独立性检验的一般步骤独立性检验的一般步骤 (1)根据样本数据列出2 2列联表; (2)计算随机变量 2 K 的观测值 k,查下表确定临界值 k0: 2 0 ()P Kk 0.50 0.40 0.25 0.15 0.100 0.050 0.025 0.010 0.005 0.001 0 k 0.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.8
3、79 10.828 考考纲要求纲要求 近三年高考情况分析近三年高考情况分析 考点总结考点总结 第 2 页 / 共 23 页 (3)如果 0 kk,就推断“X 与 Y 有关系”,这种推断犯错误的概率不超过 2 0 P Kk;否则,就认为 在犯错误的概率不超过 2 0 P Kk的前提下不能推断“X 与 Y 有关系” 【注意】(1)通常认为2.706k 时,样本数据就没有充分的证据显示“X 与 Y 有关系” (2)独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个 结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就 可能对统计
4、计算的结果作出错误的解释 (3)独立性检验是对两个变量有关系的可信程度的判断,而不是对其是否有关系的判断 (4)已知分类变量的数据,判断两类变量的相关性可依据数据及公式计算 2 K ,然后作出判断 3、相关关系相关关系 当自变量取值一定时, 因变量的取值带有一定的随机性, 则这两个变量之间的关系叫做相关关系 即 相关关系是一种非确定性关系 当一个变量的值由小变大时,另一个变量的值也由小变大,则这两个变量正相关; 当一个变量的值由小变大时,而另一个变量的值由大变小,则这两个变量负相关. 【注意】相关关系与函数关系的异同点: 共同点:二者都是指两个变量间的关系 不同点:函数关系是一种确定性关系,体
5、现的是因果关系;而相关关系是一种非确定性关系,体现 的不一定是因果关系,可能是伴随关系 4、非线性回归方程及应用非线性回归方程及应用 求非线性回归方程的步骤: 1确定变量,作出散点图 2根据散点图,选择恰当的拟合函数 3变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程 4分析拟合效果:通过计算相关指数或画残差图来判断拟合效果 5根据相应的变换,写出非线性回归方程 三年高考真题三年高考真题 第 3 页 / 共 23 页 1、 【2020 年高考全国卷理数】某校一个课外学习小组为研究某作物种子的发芽率 y 和温度 x(单位: C) 的关系,在 20 个不同的温度条件下进
6、行种子发芽实验,由实验数据( , )(1,2,20) ii x yi 得到下面的散点 图: 由此散点图,在 10 C 至 40 C 之间,下面四个回归方程类型中最适宜作为发芽率 y 和温度 x 的回归方 程类型的是 Ay abx B 2 yabx Ce x yab D lnyabx 【答案】D 【解析】由散点图分布可知,散点图分布在一个对数函数的图象附近, 因此,最适合作为发芽率y和温度x的回归方程类型的是lnyabx. 故选:D. 2、 【2020 年高考全国卷理数】某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加为 调查该地区某种野生动物的数量,将其分成面积相近的 200 个
7、地块,从这些地块中用简单随机抽样的 方法抽取 20 个作为样区,调查得到样本数据(xi,yi)(i=1,2,20),其中 xi和 yi分别表示第 i 个样区 的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得 20 1 60 i i x , 20 1 1200 i i y , 20 2 1 )8(0 i i xx , 20 2 1 )9000( i i yy , 20 1 )()800( ii i yyxx (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的 平均数乘以地块数) ; (2)求样本(xi,yi) (i=1,2,20)的相关系数(精确
8、到 0.01) ; (3)根据现有统计资料,各地块间植物覆盖面积差异很大为提高样本的代表性以获得该地区这种野 第 4 页 / 共 23 页 生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由 附:相关系数 1 22 11 ) ( () () ( ) ii i n i n i i n i xy r xy xy xy , 21.414 【解析】 (1)由已知得样本平均数 20 1 60 1 20 i i yy ,从而该地区这种野生动物数量的估计值为 60 200=12000 (2)样本(,) ii x y(1,2,20)i 的相关系数 20 1 2020 22 11 )() 80
9、02 2 0.94 380 900 ( 0 ) ( ( i i i i ii i xyy x x r xyy (3)分层抽样:根据植物覆盖面积的大小对地块分层,再对 200 个地块进行分层抽样 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关由于各地块间植物 覆盖面积差异很大,从而各地块间这种野生动物数量差异也很大,采用分层抽样的方法较好地保持了 样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该地区这种野生动物数量更准确 的估计 3、 【2020 年高考全国 III 卷理数】某学生兴趣小组随机调查了某市 100 天中每天的空气质量等级和当天到某 公园锻炼的
10、人次,整理数据得到下表(单位:天) : 锻炼人次 锻炼人次 空气质量等级 0,200 (200,400 (400,600 1(优) 2 16 25 2(良) 5 10 12 3(轻度污染) 6 7 8 4(中度污染) 7 2 0 (1)分别估计该市一天的空气质量等级为 1,2,3,4 的概率; (2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表) ; (3)若某天的空气质量等级为 1 或 2,则称这天“空气质量好”;若某天的空气质量等级为 3 或 4,则称 第 5 页 / 共 23 页 这天“空气质量不好”根据所给数据,完成下面的 2 2 列联表,并根据列联表
11、,判断是否有 95%的把 握认为一天中到该公园锻炼的人次与该市当天的空气质量有关? 人次400 人次400 空气质量好 空气质量不好 附:K2= 2 ) n adbc ab cdacbd , P(K2k) 0.050 0.010 0.001 k 3.841 6.635 10.828 【解析】 (1)由所给数据,该市一天的空气质量等级为 1,2,3,4 的概率的估计值如下表: 空气质量等级 1 2 3 4 概率的估计值 0.43 0.27 0.21 0.09 (2)一天中到该公园锻炼的平均人次的估计值为 1 (100203003550045)350 100 (3)根据所给数据,可得22列联表:
12、人次400 人次400 空气质量好 33 37 空气质量不好 22 8 根据列联表得 2 2 100(33 822 37) 5.820 5545 70 30 K 由于5.8203.841,故有 95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关 4、 【2020 年高考山东】为加强环境保护,治理空气污染,环境监测部门对某市空气质量进行调研,随机抽 查了100天空气中的PM2.5和 2 SO浓度(单位: 3 g/m) ,得下表: 2 SO PM2.5 0,50 (50,150 (150,475 0,35 32 18 4 (35,75 6 8 12 (75,115 3 7 10 第
13、6 页 / 共 23 页 (1)估计事件“该市一天空气中PM2.5浓度不超过75,且 2 SO浓度不超过150”的概率; (2)根据所给数据,完成下面的22列联表: 2 SO PM2.5 0,150 (150,475 0,75 (75,115 (3) 根据 (2) 中的列联表, 判断是否有99%的把握认为该市一天空气中PM2.5浓度与 2 SO浓度有关? 附: 2 2 () ()()()() n adbc K ab cd ac bd , 2 ()P Kk 0.050 0.010 0.001 k 3.841 6.635 10.828 【解析】 (1)根据抽查数据,该市 100 天的空气中 PM2
14、.5 浓度不超过 75,且 2 SO浓度不超过 150 的天 数为32186864,因此,该市一天空气中 PM2.5 浓度不超过 75, 且 2 SO浓度不超过 150 的概率的估 计值为 64 0.64 100 (2)根据抽查数据,可得22列联表: 2 SO PM2.5 0,150 (150,475 0,75 64 16 (75,115 10 10 (3)根据(2)的列联表得 2 2 100 (64 10 16 10) 7.484 8020 7426 K 由于7.4846.635,故有99%的把握认为该市一天空气中PM2.5浓度与 2 SO浓度有关 5、 【2018 年高考全国卷理数】下图是
15、某地区 2000 年至 2016 年环境基础设施投资额y(单位:亿元)的 折线图 第 7 页 / 共 23 页 为了预测该地区 2018 年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型根据 2000 年至 2016 年的数据(时间变量t的值依次为1 2 17, ,)建立模型:30.4 13.5yt ;根据 2010 年 至 2016 年的数据(时间变量t的值依次为1 2 7, ,)建立模型:99 17.5yt (1)分别利用这两个模型,求该地区 2018 年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由 【答案】 (1)模型:226.1亿元
16、,模型:256.5亿元; (2)利用模型得到的预测值更可靠,理由 见解析 【解析】 (1)利用模型, 该地区 2018 年的环境基础设施投资额的预测值为30.4 13.5 19226.1y (亿元) 利用模型, 该地区 2018 年的环境基础设施投资额的预测值为99 17.5 9256.5y (亿元) (2)利用模型得到的预测值更可靠 理由如下: ()从折线图可以看出,2000 年至 2016 年的数据对应的点没有随机散布在直线30.4 13.5yt 上 下这说明利用 2000 年至 2016 年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化 趋势 2010 年相对 2009 年的
17、环境基础设施投资额有明显增加, 2010 年至 2016 年的数据对应的点位于一 条直线的附近,这说明从 2010 年开始环境基础设施投资额的变化规律呈线性增长趋势,利用 2010 年至 2016年的数据建立的线性模型 9917.5yt 可以较好地描述2010年以后的环境基础设施投资额的变化 趋势,因此利用模型得到的预测值更可靠 第 8 页 / 共 23 页 ()从计算结果看,相对于 2016 年的环境基础设施投资额 220 亿元,由模型得到的预测值 226.1 亿 元的增幅明显偏低, 而利用模型得到的预测值的增幅比较合理 说明利用模型得到的预测值更可靠 以上给出了 2 种理由,考生答出其中任
18、意一种或其他合理理由均可得分 6、 【2018 年高考全国卷理数】某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的 两种新的生产方式为比较两种生产方式的效率,选取 40 名工人,将他们随机分成两组,每组 20 人第 一组工人用第一种生产方式,第二组工人用第二种生产方式根据工人完成生产任务的工作时间(单位: min)绘制了如下茎叶图: (1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求 40 名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m 的工人数填入下面的列联表: 超过m 不超过m 第一种生产方式 第二种生产方式 (3)根据(2)
19、中的列联表,能否有 99%的把握认为两种生产方式的效率有差异? 附: 2 2 n adbc K abcdacbd , 2 P Kk 0.050 0.010 0.001 k 3.841 6.635 10.828 【答案】 (1)第二种生产方式的效率更高,理由见解析; (2)列联表见解析; (3)有 99%的把握认为两 种生产方式的效率有差异 【解析】 (1)第二种生产方式的效率更高 理由如下: (i)由茎叶图可知:用第一种生产方式的工人中,有 75%的工人完成生产任务所需时间至少 80 分钟, 用第二种生产方式的工人中, 有 75%的工人完成生产任务所需时间至多 79 分钟 因此第二种生产方式的
20、 效率更高 (ii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为 85.5 分钟,用第二种 第 9 页 / 共 23 页 生产方式的工人完成生产任务所需时间的中位数为 73.5 分钟因此第二种生产方式的效率更高 (iii)由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于 80 分钟;用第二种生产 方式的工人完成生产任务平均所需时间低于 80 分钟,因此第二种生产方式的效率更高 (iv)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎 8 上的最多,关于茎 8 大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 7 上的最多,
21、关于茎 7 大致 呈对称分布,又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生 产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少,因此第二种生产方 式的效率更高 以上给出了 4 种理由,考生答出其中任意一种或其他合理理由均可得分 (2)由茎叶图知 7981 80 2 m 列联表如下: 超过m 不超过m 第一种生产方式 15 5 第二种生产方式 5 15 (3)由于 2 2 40(15 155 5) 106.635 20 20 20 20 K ,所以有 99%的把握认为两种生产方式的效率有差异 题型一、独立性检验与线性回归方程 1、 (202
22、0 届山东省德州市高三上期末)针对时下的“抖音热”,某校团委对“学生性别和喜欢抖音是否有关” 作了一次调查,其中被调查的男女生人数相同,男生喜欢抖音的人数占男生人数的 4 5 ,女生喜欢抖音的人 数占女生人数 3 5 ,若有95%的把握认为是否喜欢抖音和性别有关则调查人数中男生可能有( )人 附表: 2 0 P Kk 0.050 0.010 二年模拟试题二年模拟试题 第 10 页 / 共 23 页 k 3.841 6.635 附: 2 2 n adbc K abcdacbd A25 B45 C60 D75 【答案】BC 【解析】设男生的人数为5n nN ,根据题意列出2 2列联表如下表所示:
23、男生 女生 合计 喜欢抖音 4n 3n 7n 不喜欢抖音 n 2n 3n 合计 5n 5n 10n 则 2 2 1042310 557321 nnnn nn K nnnn , 由于有95%的把握认为是否喜欢抖音和性别有关,则 2 3.8416.632K, 即 10 3.8416.632 21 n ,得8.066113.9272n, nN ,则n的可能取值有9、10、11、12, 因此,调查人数中男生人数的可能值为45或60. 故选:BC. 2、 (2020 届山东省烟台市高三上期末)某大学为了解学生对学校食堂服务的满意度,随机调查了 50 名男生 和 50 名女生,每位学生对食堂的服务给出满意
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 考点34 变量的相关关系与统计案例教师版 备战2021年新高考数学微专题补充考点精练 考点 34 变量 相关 关系 统计 案例 教师版 备战 2021 高考 数学 专题 补充 精练
链接地址:https://www.77wenku.com/p-162317.html