1、统计案例全章复习与巩固编稿:张林娟 审稿:孙永钊【学习目标】1.通过对典型案例的探究,进一步了解回归分析的基本思想、方法及初步应用.2.通过对典型案例的探究,了解独立性检验(只要求22列联表)的基本思想、方法及初步应用.【知识网络】【要点梳理】要点一:线性回归分析回归分析是应用及其广泛的数据分析方法,它依赖于观测到的真实数据,分析内在规律,从而用来预报、控制相关问题. 回归分析按照自变量和因变量之间的关系类型,可分为线性回归分析和非线性回归分析(在本章只研究可线性化的非线性回归分析). 如果在回归分析中,只包括一个自变量和一个因变量,且二者的关系可用一条直线近似表示,这种回归分析称为(一元)线
2、性回归分析.回归直线方程对于一组具有线性相关关系的数据,其回归直线的截距和斜率的最小二乘法估计公式分别为:其中,分别表示数据的平均数.要点诠释:(1)、的意义是:以为基数,每增加一个单位,相应地平均变化个单位(2)称为样本中心点,回归直线必经过样本中心点.求回归直线方程的一般步骤:作出散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系,若存在线性相关关系,进行第二步.求回归系数、:,利用公式求出;由求出的值; 写出回归直线方程;利用回归直线方程预报在取某一个值时的估计值.相关性检验1.残差分析对于样本,.其中,表示残差,其计算公式为:(真实值)(预报值的估计量);表示残差平方和,其
3、计算公式为:.类比样本方差估计总体的思想,可以用残差平方和衡量回归方程的预报精度.通常越小,预报精度越高.2.相关指数相关指数:.其中,表示预报值的估计量;表示样本预报变量的平均数.取值越大,意味着残差平方和越小,也就是模型的拟合效果越好.在线性回归直线总,表示解释变量对于预报变量变化的贡献率. 越接近1,解释变量和预报变量的线性相关性越强,那么表示回归的效果越好.如果对某组数据可能采取几种不同的回归方程进行分析,也可以通过比较几个,选择大的模型作为这组数据的模型.3.相关系数利用样本相关系数用于衡量两个变量之间是否具有线性相关关系,描述线性相关关系的强弱: (1)当0时,表明两个变量正相关,
4、 即增加,随之相应地增加,若减少,随之相应地减少当越接近1,表明两个变量之间的线性相关程度越强;越接近0,表明两个变量之间的线性相关程度越弱.当,认为与之间具有很强的线性相关关系.(2)当0时,表明两个变量负相关, 即增加,随之相应地减少;若减少,随之相应地增加(3)若=0,则称与不相关.线性回归分析的一般步骤(1)确定研究对象,明确哪个变量是解释变量(),哪个变量是预报变量();(2)判断两变量是否具有线性相关关系作散点图:由样本点是否呈条状分布来判断两个量是否具有线性相关关系.求相关系数:当,认为与之间具有很强的线性相关关系.(3)若两变量存在线性相关关系,设所求的线性回归方程为,求回归系
5、数、. 计算,利用公式求出;由求出的值; (4)写出回归直线方程;(5)利用回归直线方程预报在()取某一个值时()的估计值.要点二:可线性化的回归分析常见的非线性回归模型幂函数曲线:;指数曲线:;倒指数曲线:;对数曲线:.求非线性回归直线方程的一般方法非线性函数可以通过变换转化为线性函数,得到线性回归方程,再通过相应变换得到非线性回归方程.比如:(1)幂函数曲线转换为线性函数的方法:对两边取对数,得,记,则.即回到线性回归直线方程,于是可以用最小二乘法计算.(2)将指数曲线转换为线性函数的方法:对两边取对数,得,记,则.即回到线性回归直线方程,于是可以用最小二乘法计算.(3)将倒指数曲线转换为
6、线性函数的方法:对两边取对数,得,记,则.即回到线性回归直线方程,于是可以用最小二乘法计算.(4)对数曲线转换为线性函数的方法:记,则.即回到线性回归直线方程,于是可以用最小二乘法计算.非线性回归分析的一般步骤确定研究对象,明确变量关系,即弄请哪个变量是解释变量(),哪个变量是预报变量();画出散点图,观察变量之间的关系;由经验确定回归方程的类型;按一定规则估计回归方程中的参数;利用回归直线方程预报在()取某一个值时()的估计值要点三:独立性检验独立性检验统计学的一种检验方式,它是根据22列联表,再通过卡方统计量公式计算的值,利用随机变量来确定在多大程度上可以认为“两个分类变量有关系”的方法.
7、卡方统计量公式假设有两个分类变量X与Y的关系,经调查得到一张22列联表,如下表所示:Y1Y2合计X1+X2cdc+d合计+c+dn=+c+d统计中有一个有用的(读做“卡方”)统计量,它的表达式是: 变量独立性的判断通过对统计量分布的研究,已经得到两个临界值:3.841和6.635.当数据量较大时,在统计中,用以下结果对变量的独立性进行判断:如果2.706时,没有充分的证据证明事件、有关联,可认为事件与是没有关联的;当2.706时,有90%的把握判定事件、有关联;如果3.841时,有95%的把握说事件与事件有关;如果6.635时,有99%的把握说事件与事件有关.要点诠释:独立性检验的基本思想是统
8、计学中的假设检验思想.即在H0:事件与无关的统计假设下,利用统计量的大小来决定在多大程度上拒绝原来的统计假设H0,即拒绝“事件与无关”,从而认为事件与有关.独立性检验为假设检验的特例.独立性检验的基本步骤及简单应用要推断“与是否有关”,可按下面步骤进行:(1)提出统计假设H0:事件与无关(相互独立);(2)抽取样本(样本容量不要太小,每个数据都要大于5);(3)列出22列联表;(4)根据22列联表,利用公式:,计算出的值;(5)统计推断:当2.706时,认为事件与是没有关联的;当2.706时,有90%的把握判定事件、有关联;当3.841时,有95的把握判定事件、有关联;当6.635时,有99的
9、把握判定事件、有关联.要点诠释:独立性检验的基本思想类似于反证法要确认“两个分类变量有关系”这一结论成立的可信程度,首先假设结论不成立,即假设结论“两个分类变量没有关系”成立,在该假设下构造的随机变量应该很小,如果由观测数据计算得到的的观测值很大,则在一定程度上说明假设不合理根据随机变量的含义,由实际计算的6.635,说明假设不合理的程度约为99,即“两个分类变量有关系”这一结论成立的可信程度约为99当2.706时,认为两个分类变量是无关的【例题讲解】类型一:抽象概括思想例1. 收集一只棉铃虫的产卵数y与温度X的几组数据后发现两个变量有相关关系,并按不同的曲线来拟合y与x之间的回归方程,并算出
10、了对应相关指数如下表:拟合曲线直 线指数曲线抛 物 线二次曲线y与x回归方程相关指数0.7460.9960.9020.002则这组数据模型的回归方程的最好选择应是( )A. B.C. D.【思路点拨】题目给出了四个不同的回归方程及其相关指数,根据“相关指数越大拟合效果越好”来判断选择哪条拟合曲线.【答案】B【解析】0.9960.9020.7460.0020,这表明指数曲线拟合效果最好,而二次曲线拟合效果最差,故选B.【思路点拨】曲线的拟合效果可以通过残差分析、相关指数或者相关系数来检验,在使用时要注意这三者之间的区别。相关系数多用于衡量两个变量间的线性相关关系的强弱;残差分析和相关指数除了衡量
11、线性相关关系,非线性的相关关系的强弱判断仍可使用。若某组可能采取不同的回归方程进行回归分析,一般通过比较相关指数的大小选择合适的模型(越大,拟合效果越好).举一反三:【变式1】一只蝗虫的产卵数y与温度x()有关.现收集到5组数据如下:温度x()2023252729产卵数y512213068对上述数据分别用与来拟合y与x之间的关系,并用残差分析两者的拟合效果.【答案】令,y与t的数据表为:t400529625729841产卵数y512213068则y与t之间的线性回归方程为:,即;令z=lny,则,z与x的数据表是:温度x()2023252729z=lny1.609 42.484 93.044
12、53.40124.219 5z与x的线性回归方程是:,即,现列出、残差表:温度x()2023252729产卵数y512213068e17.613 3-2.494 6-6.226 5-11.019 212.127 2e2-0.016 30.415 10.753 1-17.737 66.212 6式的残差的平方和为,式的残差的平方和,ycedx来拟后y与x之间的关系效果要好【变式2】在某班能随机地抽取7名学生,得到一组数学成绩与物理成绩的数据如下表:数学成绩5898113125135143150物理成绩24537169787798试用计算求出数学成绩x与物理成绩y的线性回归方程,并计算相关系数r的
13、值,并说明两者相关性的强弱.当这个班里的同学甲的数学成绩为87分,预测该名同学的物理成绩.【答案】线性回归方程是:0.712 8x-16.557 2,相关系数r=0.969 7,由此可知数学与物理的相关性很强;当解释变量x87时,预报变量物理成绩y45.456分.类型二:数形结合思想例2. 某运动员训练次数与运动成绩之间的数据关系如下:次数3033353739444650成绩3034373942464851(1)作出散点图;(2)求出回归方程;(3)计算相关系数并进行相关性检验;(4)试预测该运动员训练47次及55次的成绩【解析】【总结升华】通过散点图可以判断回归方程的大致类型和相关关系的强弱
14、.举一反三:【变式】某城区为研究城镇居民月家庭人均生活费支出和月人均收入的相关关系,随机抽取10户进行调查,其结果如下:月人均收入(元)3003904205205707007608008501 080月人均生活费(元)255324335360450520580600630750(1)作出散点图;(2)求出线性回归方程;(3)试预测月人均收入为1 100元和月人均收入为1 200元的两个家庭的月人均生活费【答案】(1)作出散点图,如下: 由图可知月人均生活费与月人均收入之间具有较强的线性相关关系(2)作出如下表格:12345678910总计3003904205205707007608008501
15、 0806390255324335360450520580600630750480476500126360140700187200256500364000440800480000535500810000341756009000015210017640027040032590049000057760064000072250011664004610300通过计算可知,所以, ,.所以,线性回归方程为.(3)由以上分析可知,我们可以利用(2)得到的线性回归方程来计算月人均生活费的预报值.方程:当1 100时,784.61;当1 200时,850.60.故预测月人均收入分别为1 100元和1 200元
16、的两个家庭的月人均生活费分别为784.61元和850.60元类型三:转化与化归思想例3. 某商店各个时期的商品流通率(%)和商品零售额(万元)资料如下:9.511.513.515.517.519.521.523.525.527.564.643.22.82.52.42.32.22.1散点图显示出与的变动关系为一条递减的曲线经济理论和实际经验都证明,流通率决定于商品的零售额,体现着经营规模效益,假定它们之间存在关系式:. 试根据上表数据,求出与的估计值,并估计商品零售额为30万元时的商品流通率【思路点拨】本题的重点是通过变换将非线性回归方程转化为线性回归方程.【解析】【总结升华】若两个变量非线性相
17、关,可以通过散点图观察确定用幂函数、指数函数、对数函数、二次函数模型来拟合两个变量间的关系,然后通过变更转化为线性相关问题.举一反三:【变式1】对两个变量,取得4组数据(1,1),(2,1.2),(3,1.3),(4,1.37),甲、乙、丙三人分别求得数学模型如下:甲0.11,乙0.0520.350.7,丙0.80.51.4,试判断三人谁的数学模型更接近于客观实际【答案】分别将=1,=2,=3,=4代入三组数学模型,将所得值与实际值比较,如下表所示:1234实际值11.21.31.37甲模型1.11.21.31.4乙模型11.21.31.3丙模型11.21.31.35观察4组数据并对照知,丙的
18、数学模型更接近于客观实际【变式2】在某化学实验中,测得如下表所示的6对数据,其中(单位:min)表示化学反应进行的时间,(单位:mg)表示未转化物质的质量./min123456/mg39.832.225.420.316.213.3(1)设与之间具有关系,试根据测量数据估计c和d的值(精确到0.001);(2)估计化学反应进行到10 min时未转化物质的质量(精确到0.1)【答案】(1)对两边取自然对数,则,令,可得由已知数据,得12345639.832.225.420.316.213.3z3.6843.4723.2353.0112.7852.588由公式得3.905 5,0.221 9,则线性
19、回归方程为:z3.905 50.221 9.而,故,所以的估计值分别为49.675,0.801.(2)由(1)可知,与之间具有关系,当10时,5.4(mg)所以,化学反应进行到10 min时未转化物质的质量约为5.4 mg.类型四:假设检验思想例4. 在对人们的休闲方式的一次调查中,共调查了124人,其中女性70人,男性54人.女性中有43人主要的休闲方式是看电视,另外27人主要的休闲方式是运动;男性中有21人主要的休闲方式是看电视,另外33人主要的休闲方式是运动.(1)根据以上数据建立一个22的列联表;(2)判断性别与休闲方式是否有关系;(3)该判断出错的可能性是多少?【思路点拨】正确统计数
20、据,完成22的列联表,再利用公式,计算出的值,最后统计推断.【解析】(1)问题是要判断性别与休闲方式是否有关系.根据统一,可列出如下的22的列联表: 休闲方式性别看电视运动总计女432770男213354总计6460124(2)由的计算公式得:,所以有95%的把握认为“休闲方式与性别有关”.(3)该判断出错的可能性是1-95%=5%.【总结升华】利用假设检验的思想,计算随机变量2的值,可以更精确地判断两个分类变量是否有关系举一反三:【变式1】调查某医院某段时间内婴儿出生的时间与性别的关系,得到下面的数据表,试问婴儿的性别与出生的时间是否有关系? 出生时间性别晚上白天男婴1531女婴826【答案】问题是判断婴儿的性别是否出生的时间有关系,根据已知表格可以得到如下表格: 出生时间性别晚上白天总计男婴153146女婴82634总计235780则6.635.由于6.635,所以有99%的把握认为两者有关系,或者说在犯错误概率不超过0.01的前提下,认为“注射药物后的疱疹面积与注射药物后的疱疹面积有差异”【变式3】某高校“统计初步”课程的教师随机调查了选该课的一些学生情况,具体数据如下表: 专业性别非统计专业统计专业男1310女720为了判断主修统计专业是否与性别有关系,根据表中的数据,得到:.因为,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为 _.【答案】5%