专题9.3变量间的相关关系及统计案例 2020年高考数学一轮复习对点提分(文理科通用)解析版
《专题9.3变量间的相关关系及统计案例 2020年高考数学一轮复习对点提分(文理科通用)解析版》由会员分享,可在线阅读,更多相关《专题9.3变量间的相关关系及统计案例 2020年高考数学一轮复习对点提分(文理科通用)解析版(22页珍藏版)》请在七七文库上搜索。
1、第九篇 统计专题9.03变量间的相关关系与统计案例【考试要求】1.了解样本相关系数的统计含义,了解样本相关系数与标准化数据向量夹角的关系,会通过相关系数比较多组成对数据的相关性;2.了解一元线性回归模型的含义,了解模型参数的统计意义,了解最小二乘原理,掌握一元线性回归模型参数的最小二乘估计方法,会使用相关的统计软件,会用一元线性回归模型进行预测;3.理解22列联表的统计意义,了解22列联表独立性检验及其应用.【知识梳理】1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左
2、下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系.2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x1,y1),(x2,y2),(xn,yn),其回归方程为x,则,.其中,是回归方程的斜率,是在y轴上的截距.回归直线一定过样本点的中心(,).3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一
3、种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x1,y1),(x2,y2),(xn,yn),其中(,)称为样本点的中心.(3)相关系数当r0时,表明两个变量正相关;当r0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R21.其中 (yii)2是残差平方和,其值越小,则R2越大(接近1),模型的拟合效果越好.4.独立性检验(1)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.(2)列联表:列出的两
4、个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为x1,x2和y1,y2,其样本频数列联表(22列联表)为y1y2总计x1Ababx2Cdcd总计acbdabcd则随机变量K2,其中nabcd为样本容量.【微点提醒】1.求解回归方程的关键是确定回归系数,应充分利用回归直线过样本中心点(,).2.根据K2的值可以判断两个分类变量有关的可信程度,若K2越大,则两分类变量有关的把握越大.3.根据回归方程计算的值,仅是一个预报值,不是真实发生的值.【疑误辨析】 1.判断下列结论正误(在括号内打“”或“”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.
5、()(2)通过回归直线方程x可以估计预报变量的取值和变化趋势.()(3)因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行相关性检验.()(4)事件X,Y关系越密切,则由观测数据计算得到的K2的观测值越大.()【答案】(1)(2)(3)(4)【解析】根据相关性概念及独立性检验概念可得。【教材衍化】2.(选修23P91探究改编)为调查中学生近视情况,测得某校男生150名中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力()A.回归分析 B.均值与方差C.独立性检验 D.概率【答案】C【解析】“近视”与“性别”是两类变量,其
6、是否有关,应用独立性检验判断.3.(选修23P85讲解改编)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25【答案】A【解析】在两个变量y与x的回归模型中,它们的相关指数R2越近于1,模拟效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.【真题体验】4.(2019临沂模拟)已知变量x和y的统计数据如下表:x34567y2.5344.56根据上表可得回归直线方程为x0.25,据此可以预测当
7、x8时,()A.6.4 B.6.25 C.6.55 D.6.45【答案】C【解析】由题意知5,4,将点(5,4)代入x0.25,解得0.85,则0.85x0.25,所以当x8时,0.8580.256.55,故选C.5.(2015全国卷)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论不正确的是()A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关【答案】D【解析】对于A选项,由图知从2007年到2008年二氧化硫排
8、放量下降得最多,故A正确.对于B选项,由图知,由2006年到2007年矩形高度明显下降,因此B正确.对于C选项,由图知从2006年以后除2011年稍有上升外,其余年份都是逐年下降的,所以C正确.由图知2006年以来我国二氧化硫年排放量与年份负相关,D不正确.6.(2019天津和平区检测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用22列联表进行独立性检验,经计算K26.705,则所得到的统计学结论是:有_的把握认为“学生性别与支持该活动没有关系”.()P(K2k0)0.1000.0500.0250.0100.001k02.7063.8415.0246.63510.82
9、8A.99.9% B.99% C.1% D.0.1%【答案】C【解析】因为6.6356.7050,则正相关;r0时,正相关;R;x,y之间不能建立线性回归方程.【答案】(1)C(2)【解析】(1)由y0.1x1,知x与y负相关,即y随x的增大而减小,又y与z正相关,所以z随y的增大而增大,减小而减小,所以z随x的增大而减小,x与z负相关.(2)在散点图中,点散布在从左上角到右下角的区域,因此x,y是负相关关系,故正确;由散点图知用yc1ec2x拟合比用x拟合效果要好,则RR,故正确;x,y之间可以建立线性回归方程,但拟合效果不好,故错误.考点二线性回归方程及应用【例2】 (2019日照调研)某
10、地随着经济的发展,居民收入逐年增长,下表是该地一建设银行连续五年的储蓄存款(年底余额),如下表1:年份x20132014201520162017储蓄存款y(千亿元)567810表1为了研究计算的方便,工作人员将上表的数据进行了处理,tx2 012,zy5得到下表2:时间代号t12345Z01235表2(1)求z关于t的线性回归方程;(2)通过(1)中的方程,求出y关于x的回归方程;(3)用所求回归方程预测到2022年年底,该地储蓄存款额可达多少?(附:对于线性回归方程x,其中,)【答案】见解析【解析】(1)3,2.2,tizi45,t55,1.2,2.231.21.4,所以1.2t1.4.(2
11、)将tx2 012,zy5,代入1.2t1.4,得y51.2(x2 012)1.4,即1.2x2 410.8.(3)因为1.22 0222 410.815.6,所以预测到2022年年底,该地储蓄存款额可达15.6千亿元.【规律方法】1.(1)正确理解计算,的公式和准确的计算是求线性回归方程的关键.(2)回归直线方程x必过样本点中心(,).2.(1)在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.(2)对于非线性回归分析问题,应先进行变量代换, 求出代换后的回归直线方程,再求非线性回归方程.【训练2】
12、(2018全国卷)如图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y与时间变量t的两个线性回归模型.根据2000年至2016年的数据(时间变量t的值依次为1,2,17)建立模型:30.413.5t;根据2010年至2016年的数据(时间变量t的值依次为1,2,7)建立模型:9917.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【答案】见解析【解析】(1)利用模型,该地区2018年的环境基础设施投资额的预测值为30.413.5
13、19226.1(亿元).利用模型,该地区2018年的环境基础设施投资额的预测值为9917.59256.5(亿元).(2)利用模型得到的预测值更可靠.理由如下:()从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y30.413.5t上下,这说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型9917.5t可以较好地
14、描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠.()从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠.以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分.考点三独立性检验【例3】 (2019湖南长沙雅礼中河南省实验中学联考)环境问题是当今世界共同关注的问题,我国环保总局根据空气污染指数PM2.5浓度,制定了空气质量标准:空气污染指数(0,50(50,100(100,150(150,200(200,300(300,)空气质
15、量等级优良轻度污染中度污染重度污染严重污染某市政府为了打造美丽城市,节能减排,从2010年开始考察了连续六年11月份的空气污染指数,绘制了频率分布直方图,经过分析研究,决定从2016年11月1日起在空气质量重度污染和严重污染的日子对机动车辆限号出行,即车牌尾号为单号的车辆单号出行,车牌尾号为双号的车辆双号出行(尾号是字母的,前13个视为单号,后13个视为双号).王先生有一辆车,若11月份被限行的概率为0.05.(1)求频率分布直方图中m的值;(2)若按分层抽样的方法,从空气质量良好与中度污染的天气中抽取6天,再从这6天中随机抽取2天,求至少有一天空气质量是中度污染的概率;(3)该市环保局为了调
16、查汽车尾气排放对空气质量的影响,对限行两年来的11月份共60天的空气质量进行统计,其结果如下表:空气质量优良轻度污染中度污染重度污染严重污染天数112711731根据限行前6年180天与限行后60天的数据,计算并填写22列联表,并回答是否有90%的把握认为空气质量的优良与汽车尾气的排放有关.空气质量优、良空气质量污染总计限行前限行后总计参考数据:P(K2k0)0.150.100.050.0250.0100.005k02.0722.7063.8415.0246.6357.879参考公式:K2,其中nabcd.【答案】见解析【解析】(1)因为限行分单双号,王先生的车被限行的概率为0.05,所以空气
17、重度污染和严重污染的概率应为0.0520.1,由频率分布直方图可知(0.0040.0060.005m)500.11,解得m0.003.(2)因为空气质量良好与中度污染的天气的概率之比为0.30.1521,按分层抽样的方法从中抽取6天,则空气质量良好的天气被抽取的有4天,记作A1,A2,A3,A4,空气中度污染的天气被抽取的有2天,记作B1,B2,从这6天中随机抽取2天,所包含的基本事件有(A1,A2),(A1,A3),(A1,A4),(A1,B1),(A1,B2),(A2,A3),(A2,A4),(A2,B1),(A2,B2),(A3,A4),(A3,B1),(A3,B2),(A4,B1),(
- 配套讲稿:
如PPT文件的首页显示word图标,表示该PPT已包含配套word讲稿。双击word图标可打开word文档。
- 特殊限制:
部分文档作品中含有的国旗、国徽等图片,仅作为作品整体效果示例展示,禁止商用。设计者仅对作品中独创性部分享有著作权。
- 关 键 词:
- 专题
链接地址:https://www.77wenku.com/p-95123.html