1、第三章 统计案例3.1 回归分析的基本思想及其初步应用1回归分析回归分析是对具有_的两个变量进行统计分析的一种常用方法,回归分析的基本步骤是画出两个变量的_,求_,并用回归方程进行预报2线性回归模型(1)在线性回归方程中,_其中_,_,称为样本的中心(2)线性回归模型,其中称为_,自变量称为_变量,因变量称为_变量温馨提示:是回归直线的斜率的估计值,表示每增加一个单位,的平均增加单位数3刻画回归效果的方式方式方法计算公式刻画效果_越_,表示回归的效果越好残差图称为相应于点的残差,残差点_地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度_,说明模型拟合精确度越高残差平方和
2、残差平方和越_,模型的拟合效果越好K知识参考答案:1相关关系散点图回归方程2(1) (2)随机误差解释预报3接近于1比较均匀越窄小K重点了解随机误差、残差、残差分析的概念,会用残差分析判断线性回归模型的拟合效果,掌握建立回归模型的步骤K难点通过对典型案例的探究,了解回归分析的基本思想方法和初步应用K易错不能准确理解概念和参数的含义概念辨析有下列说法:线性回归分析就是由样本点去寻找一条直线,使之贴近这些样本点的数学方法;利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;通过回归方程可以估计观测变量的取值和变化趋势;因为由任何一组观测值都可以求得一个线性回归方程,所以没有必要进行
3、相关性检验其中正确命题的个数是A1B2C3D4【答案】C【解析】反映的正是最小二乘法思想,故正确;反映的是画散点图的作用,也正确;学-科网解释的是回归方程的作用,故也正确;是不正确的,在求回归方程之前必须进行相关性检验,以体现两变量的关系因此正确命题的个数为3,故选C【名师点睛】由题目可获取以下信息:线性回归分析;散点图;相关性检验等的相关概念及意义解答本题可先逐一核对相关概念及其性质,然后再逐一作出判断,最后得出结论线性回归模型一台机器由于使用时间较长,生产的零件有一些会缺损,按不同转速生产出来的零件有缺损的统计数据如下表:转速x(转/秒)1614128每小时生产缺损零件数y(件)11985
4、(1)作出散点图;(2)如果与线性相关,求出回归直线方程;(3)若实际生产中,允许每小时生产的产品中有缺损的零件最多为10个,那么,机器的转速应控制在什么范围内?(结果保留整数)附:线性回归方程中,其中为样本平均值【答案】(1)见解析;(2);(3)机器的运转速度应控制在转/秒内【解析】(1)根据表中的数据画出散点图如下图:(2)由题中数据列表如下:i1234xi1614128yi11985xiyi1761269640,(3)令,解得,故机器的运转速度应控制在转/秒内【名师点睛】(1)求回归直线方程的一般步骤如下:作出散点图,依据问题所给的数据在平面直角坐标系中描点,观察点的分布是否呈条状分布
5、,即是否在一条直线附近,从而判断两变量是否具有线性相关关系;当两变量具有线性相关关系时,求回归系数,写出回归直线方程(2)回归直线方程中的表示x每增加1个单位时,的变化量的估计值为(3)可以利用回归直线方程预报在取某个值时的估计值(4)由于回归直线方程中的系数和是通过样本估计而来的,存在着误差,这种误差可能导致预报结果有偏差线性回归分析为研究重量(单位:克)对弹簧长度(单位:厘米)的影响,对不同重量的6个物体进行测量,数据如下表所示:x51015202530y7.258.128.959.9010.911.8(1)作出散点图,并求回归方程:(2)求相关指数R2,并判断模型的拟合效果;(3)进行残
6、差分析【答案】(1)散点图见解析,回归方程为;(2)回归模型的拟合效果较好;(3)见解析【解析】(1)散点图如下图所示:从散点图,可以看出这些点大致分布在一条直线的附近,因此,可用公式求得线性回归方程的系数因为,计算,得所以所求回归方程为(3)由表中数据可以看出残差点比较均匀地落在比较狭窄的水平带状区域中,说明选用的线性回归模型的精度较高,由以上分析可知,弹簧长度与拉力呈线性关系由残差表中的数值可以看出第3个样本点的残差比较大,需要确认在采集这个数据的时候是否有人为的错误,如果有的话,需要纠正数据,重新建立回归模型【名师点睛】(1)线性回归分析的过程:随机抽取样本,确定数据,形成样本点;由样本
7、点形成散点图,判定是否具有线性相关关系;由最小二乘法求线性回归方程;进行残差分析,分析模型的拟合效果,不合适时,分析错因,予以纠正;依据回归方程作出预报(2)用散点图可粗略判断两个变量间有无线性相关关系,用相关指数R2可以描述两个变量之间的密切程度非线性回归分析在一次抽样调查中测得样本的5个样本点,数值如表:x0.250.5124y1612521试建立y与x之间的回归方程【答案】见解析【解析】作出变量y与x之间的散点图如图所示:由图可知变量y与x近似地呈反比例函数关系设,令,则由y与x的数据表可得y与t的数据表:t4210.50.25y1612521作出y与t的散点图如图所示:由图可知y与t呈
8、近似的线性相关关系又,所以y与x的回归方程是【名师点睛】求非线性回归方程的步骤如下:确定变量,作出散点图;根据散点图,选择恰当的拟合函数;变量置换,通过变量置换把非线性回归问题转化为线性回归问题,并求出线性回归方程;分析拟合效果,通过计算相关指数或画残差图来判断拟合效果;根据相应的变换,写出非线性回归方程不能准确理解概念和参数的含义关于与有如下数据:x24568y3040605070为了对两个变量进行统计分析,现有以下两种线性模型:甲模型,乙模型,试比较哪一个模型拟合的效果更好【错解】,乙模型拟合的效果更好【错因分析】明确的大小与拟合效果的关系,用相关指数来比较模型的拟合效果,越大,模型的拟合
9、效果越好,并不是越小模型的拟合效果越好【正解】,甲模型拟合的效果更好1已知回归方程,而试验得到一组数据是(2,4.9),(3,7.1),(4,9.1),则残差平方和是A0.01B0.02C0.03D0.042在回归分析中,相关指数R2的值越大,说明残差平方和A越大B越小C可能大也可能小D以上均不正确3对变量x、y有观测数据(xi,yi)(i1,2,10),得散点图;对变量u、v有观测数据(ui,vi)(i1,2,10),得散点图由这两个散点图可以判断A变量x与y正相关,u与v正相关B变量x与y正相关,u与v负相关C变量x与y负相关,u与v正相关D变量x与y负相关,u与v负相关4两个变量x与y的
10、散点图如图,可用如下函数进行拟合,比较合理的是ABCD5已知x和y之间的一组数据如下表:x0123y1357则y与x的线性回归方程必过点A(2,2)B(,0)C(1,2)D(,4)6在对两个变量x,y进行回归分析时有以下操作:求回归方程;收集数据(xi,yi),n;对所求出的回归方程作出解释;根据所收集的数据绘制散点图则下列操作顺序正确的是ABCD7对两个变量y和x进行回归分析,得到一组样本数据:,则下列说法中不正确的是A由样本数据得到的回归方程必过样本点的中心B残差平方和越小的模型,拟合的效果越好C用相关指数来刻画回归效果,的值越小,说明模型的拟合效果越好D若变量y和x之间的相关系数,则变量
11、y与x之间具有线性相关关系8某学校开展研究性学习活动,某同学获得一组实验数据如下表:x1.99345.16.12y1.54.047.51218.01对于表中数据,现给出下列拟合曲线,其中拟合程度最好的是Ay2x2BCD9已知方程是根据女大学生的身高预报她的体重的回归方程,其中x的单位是cm,的单位是kg,那么针对某个体(160,53)的残差是_10已知x,y的取值如下表:x0134y2.24.34.86.7若x,y具有线性相关关系,且回归方程为,则_11某市居民20112015年家庭年平均收入x(单位:万元)与年平均支出y(单位:万元)的统计资料如下表:年份201120122013201420
12、15收入x11.512.11313.515支出y6.88.89.81012根据统计资料,居民家庭年平均收入的中位数是_,家庭年平均收入与年平均支出有_线性相关关系12四名同学根据各自的样本数据研究变量x,y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:y与x负相关且2.3x6.4;y与x负相关且3.4x5;y与x正相关且5.3x8.4;y与x正相关且4.36x4.5其中一定不正确的结论的序号是_学科=网13随着我国经济的发展,居民的储蓄存款逐年增长,某地区城乡居民人民币储蓄存款(年底余额)如下表:年份20142015201620172018时间代号t12345储蓄存款y(千亿元)5
13、67810(1)求y关于t的回归方程;(2)用所求回归方程预测该地区2019年(t6)的人民币储蓄存款附:回归方程中,14某班5名学生的数学和物理成绩如下表: 学生学科ABCDE数学成绩(x)8876736663物理成绩(y)7865716461(1)画出散点图;(2)求物理成绩y对数学成绩x的回归方程;(3)一名学生的数学成绩是96分,试预测他的物理成绩15为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计表:收入x(万元)8.28.610.011.311.9支出y(万元)6.27.58.08.59.8根据上表可得回归直线方程,其中据此估计该社区一户年收入为1
14、5万元家庭的年支出为A11.4万元B11.8万元C12.0万元D12.2万元16具有线性相关关系的变量x,y有一组观测数据(xi,yi)(i=1,2,8),其回归直线方程是且,则实数ABCD17已知具有线性相关关系的两个变量x、y之间的一组数据如下表:x01234y2.24.34.54.86.7且回归方程,则当x=6时,y的预测值为A8.46B6.8C6.3D5.7618关于x与y有如下数据:x24568y3040605070为了对x,y两个变量进行统计分析,现有以下两种线性模型:甲:6.5x17.5,乙:7x17,则_(填“甲”或“乙”)模型拟合的效果更好19某商场为了了解毛衣的月销售量(件
15、)与月平均气温()之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:月平均气温()171382月销售量(件)24334055由表中数据算出线性回归方程中的,气象部门预测下个月的平均气温约为,据此估计该商场下个月毛衣销售量约为_件20某学生课外活动兴趣小组对两个相关变量收集到5组数据如下表:x1020304050y62758189由最小二乘法求得回归方程为,现发现表中有一个数据模糊不清,请推断该点数据的值为_21以下是某地收集到的新房屋的销售价格y和房屋的面积x的数据:房屋面积(m2)11511080135105销售价格(万元)24.821.618.429.222(1)画出数
16、据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线;(3)根据(2)的结果估计当房屋面积为150m2时的销售价格22某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号12345工作年限x/年35679推销金额y/万元23345(1)以工作年限为自变量,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额23某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,
17、得到如下资料:日期12月1日12月2日12月3日12月4日12月5日温差x()101113128发芽y(颗)2325302616该农科所确定的研究方案是:先从这5组数据中选取3组数据求线性回归方程,剩下的2组数据用于回归方程检验(1)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y关于x的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?(3)请预测温差为14的发芽数24(2016新课标全国理)下图是我国2008年至2014年生活垃圾无害化处理量
18、(单位:亿吨)的折线图(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量参考数据:,2.646,参考公式:相关系数回归方程中斜率和截距的最小二乘估计公式分别为:25(2017新课标全国I节选)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm)下面是检验员在一天内依次抽取的16个零件的尺寸:抽取次序12345678零件尺寸9.9510.129.969.9610.019.929.9810.04抽取次序91011121
19、3141516零件尺寸10.269.9110.1310.029.2210.0410.059.95经计算得,其中为抽取的第个零件的尺寸,求的相关系数,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小)附:样本的相关系数,26(2018新课标全国理)下图是某地区2000年至2016年环境基础设施投资额(单位:亿元)的折线图为了预测该地区2018年的环境基础设施投资额,建立了与时间变量的两个线性回归模型根据2000年至2016年的数据(时间变量的值依次为)建立模型:;根据2010年至2016年的数据(时间变量的值
20、依次为)建立模型:(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由1【答案】C【解析】因为残差,所以残差的平方和为故选C2【答案】B【解析】因为,所以当越大时,越小,即残差平方和越小,故选B5【答案】D【解析】因为,所以回归方程必过点(,4)故选D6【答案】D【解析】根据回归分析的思想,可知对两个变量x,y进行回归分析时,应先收集数据(xi,yi),然后绘制散点图,再求回归方程,最后对所求的回归方程作出解释,正确操作的顺序为,故选D7【答案】C【解析】R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选
21、C8【答案】C【解析】可以代入检验,当x取相应的值时,所求y与已知y相差平方和最小的便是拟合程度最高的故选C9【答案】【解析】把代入,可得,所以残差10【答案】2.6【解析】由已知得,而回归方程过点,则4.50.952,解得a2.613【答案】(1);(2)千亿元【解析】(1)整理所给数据:序号tyt2ty11515226412337921448163255102550153655120由上表可得,所以,故,故所求回归直线方程为(2)当t6时,1.263.610.8(千亿元)所以预测该地区2019年的人民币储蓄存款为10.8千亿元14【答案】(1)散点图见解析;(2);(3)预测他的物理成绩是
22、82分【解析】(1)散点图如下图所示:(2)由图可看出,这些点在一条直线附近,可以用线性回归方程来刻画与之间的关系,因为,所以,所以故y对x的线性回归方程是学=科*网(3)当时,所以预测他的物理成绩是82分16【答案】B【解析】因为,所以,所以这组数据的样本中心点是(,),把样本中心点代入回归直线方程得,解得,故选B17【答案】C【解析】因为,所以将点代入回归方程,可得,解得,所以,当时,故选C18【答案】甲19【答案】70【解析】由表格得为(10,38),因为在回归直线上,所以,解得,所以,当时,故估计该商场下个月毛衣销售量约为70件20【答案】【解析】由题意可得,设要求的数据为,则有,因为
23、回归直线过样本点的中心,所以,解得21【答案】(1)见解析;(2);(3)31.2442万元【解析】(1)散点图如图所示:(2),设所求回归直线方程为,则,故所求回归直线方程为(3)当x150m2时,销售价格的估计值为0.19621501.814231.2442(万元)22【答案】(1)见解析;(2);(3)5.9万元【解析】(1)画出散点图如图所示:(2)从散点图可以看出,这些点大致在一条直线附近,则可设所求的线性回归方程为由题意可得,所以,所以,所以年推销金额y关于工作年限x的线性回归方程为(3)当x11时,0.5x0.40.5110.45.9(万元)所以可以估计第6名推销员的年销售金额为
24、5.9万元23【答案】(1);(2)研究所得到的线性回归方程是可靠的;(3)32颗【解析】(1)由数据求得,由公式求得,所以y关于x的线性回归方程为(2)当时,;当时,所以该研究所得到的线性回归方程是可靠的(3)当时,有,所以当温差为14时的发芽数约为32颗24【答案】(1)见解析;(2)预测2016年我国生活垃圾无害化处理量约1.82亿吨【解析】(1)由折线图中数据和附注中参考数据得,故由于与的相关系数近似为0.99,说明与的线性相关程度相当高,从而可以用线性回归模型拟合与的关系(2)由及(1)得,所以关于的回归方程为将2016年对应的代入回归方程得所以预测2016年我国生活垃圾无害化处理量
25、约1.82亿吨25【答案】,可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小【解析】由样本数据得的相关系数为由于,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小26【答案】(1)利用模型预测值为226.1,利用模型预测值为256.5;(2)利用模型得到的预测值更可靠,理由见解析(2)利用模型得到的预测值更可靠理由如下:(i)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=30.4+13.5t上下,说明利用2000年至2016年的数据建立的线性模型不能很好地描述环境基础设施投资额的变化趋势2010年相对2009年的环境基础设施投资
26、额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型=99+17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型得到的预测值更可靠(ii)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型得到的预测值226.1亿元的增幅明显偏低,而利用模型得到的预测值的增幅比较合理,说明利用模型得到的预测值更可靠(以上给出了2种理由,答出其中任意一种或其他合理理由均可)【名师点睛】若已知回归直线方程,则可以直接将数值代入求得特定要求下的预测值;若回归直线方程有待定参数,则根据回归直线方程恒过点求参数TheEnd下节见