1、第三章第三章 统计案例统计案例 章末复习章末复习 学习目标 1.会求线性回归方程,并用回归直线进行预报.2.理解独立性检验的基本思想及 实施步骤 一、线性回归分析 1线性回归方程 在线性回归方程 yabx 中,b n i1 xi x yi y n i1 xi x 2 n i1xiyin x y n i1x 2 in x 2 ,a y b x .其中 x 1 n n i1xi, y 1 n n i1yi. 2相关系数 (1)相关系数 r 的计算公式 r n i1xiyin x y n i1x 2 in x 2 n i1y 2 in y 2 . (2)相关系数 r 的取值范围是1,1,|r|值越大
2、,变量之间的线性相关程度越高 (3)当 r0 时,b0,称两个变量正相关; 当 r0 时,b2.706 时,有 90%的把握判定变量 A,B 有关联 当 23.841 时,有 95%的把握判定变量 A,B 有关联 当 26.635 时,有 99%的把握判定变量 A,B 有关联. 类型一 回归分析 例 1 如图所示的是某企业 2011 年至 2017 年污水净化量(单位:吨)的折线图 (1)由折线图看出,可用线性回归模型拟合 y 和 t 的关系,请用相关系数加以说明; (2)建立 y 关于 t 的回归方程,预测 2019 年该企业污水净化量 附注:参考数据: y 54, i1 7 (ti t )
3、(yi y )21, 143.74, i1 7 (yi y )218. 参考公式:相关系数 r i1 n ti t yi y i1 n ti t 2 i1 n yi y 2 ,回归方程 yabt 中斜率和截距的 最小二乘估计公式分别为 b i1 n ti t yi y i1 n ti t 2 ,a y b t . 考点 线性回归分析 题点 线性回归方程的应用 解 (1)由题意, t 4, i1 7 (ti t )(yi y )21, r i1 7 ti t yi y i1 7 ti t 2 i1 7 yi y 2 21 28180.936. 0.9360.75, 故 y 与 t 之间存在较强的
4、正相关关系 (2)由题意, y 54,b i1 7 ti t yi y i1 7 ti t 2 21 28 3 4, a y b t 543 4451, y 关于 t 的回归方程为 y3 4t51. 当 t9 时,y3 495157.75,预测 2019 年该企业污水净化量约为 57.75 吨 反思与感悟 解决回归分析问题的一般步骤 (1)画散点图根据已知数据画出散点图 (2)判断变量的相关性并求回归方程通过观察散点图,直观感知两个变量是否具有相关关 系;在此基础上,利用最小二乘法求回归系数,然后写出回归方程 (3)实际应用依据求得的回归方程解决实际问题 跟踪训练 1 某兴趣小组欲研究昼夜温差
5、大小与患感冒人数之间的关系, 他们分别到气象局 与某医院抄录了 1 至 6 月份每月 10 号的昼夜温差 x()与因患感冒而就诊的人数 y,得到如 下资料: 日期 昼夜温差 x() 就诊人数 y(个) 1 月 10 日 10 22 2 月 10 日 11 25 3 月 10 日 13 29 4 月 10 日 12 26 5 月 10 日 8 16 6 月 10 日 6 12 该兴趣小组确定的研究方案是: 先从这六组数据中选取 2 组, 用剩下的 4 组数据求线性回归 方程,再用被选取的 2 组数据进行检验 (1)求选取的 2 组数据恰好是相邻两个月的概率; (2)若选取的是 1 月与 6 月的
6、两组数据,请根据 2 至 5 月份的数据,求出 y 关于 x 的线性回 归方程 ybxa; (3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过 2 人,则认为得 到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想? (参考公式:b i1 n xiyin x y i1 n x2in x 2 i1 n xi x yi y i1 n xi x 2 ,a y b x ) 考点 线性回归分析 题点 线性回归方程的应用 解 (1)设抽到相邻两个月的数据为事件 A. 试验发生包含的事件是从 6 组数据中选取 2 组数据,共有 15 种情况,每种情况都是等可能 出现的,其中抽到相邻
7、两个月的数据的情况有 5 种,P(A) 5 15 1 3. (2)由数据求得 x 11, y 24,由公式求得 b18 7 , a y b x 30 7 , y 关于 x 的线性回归方程为 y18 7 x30 7 . (3)当 x10 时,y150 7 , 150 7 22 2; 当 x6 时,y78 7 , 78 7 12 6.635, 故在犯错误的概率不超过 0.01 的前提下认为“其亲属的饮食习惯与年龄有关” 1下列相关系数 r 对应的变量间的线性相关程度最强的是( ) Ar0.90 Br0.5 Cr0.93 Dr0 考点 线性相关系数 题点 线性相关系数的应用 答案 C 2为了解高中生
8、作文成绩与课外阅读量之间的关系,某研究机构随机抽取了 60 名高中生, 通过问卷调查,得到以下数据: 作文成绩优秀 作文成绩一般 总计 课外阅读量较大 22 10 32 课外阅读量一般 8 20 28 总计 30 30 60 临界值: P(2k) 0.05 0.010 0.005 0.001 k 3.841 6.635 7.879 10.828 由以上数据,计算得到 29.643,根据临界值表,以下说法正确的是( ) A没有充足的理由认为课外阅读量大与作文成绩优秀有关 B有 0.5%的把握认为课外阅读量大与作文成绩优秀有关 C有 99.9%的把握认为课外阅读量大与作文成绩优秀有关 D有 99.
9、5%的把握认为课外阅读量大与作文成绩优秀有关 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 D 解析 根据临界值表,10.8289.6437.879,在犯错误的概率不超过 0.005 的前提下,认为 课外阅读量大与作文成绩优秀有关, 即有 99.5%的把握认为课外阅读量大与作文成绩优秀有 关 3某化妆品公司为了增加其商品的销售利润,调查了该商品投入的广告费用 x 与销售利润 y 的统计数据如下表: 广告费用 x(万元) 2 3 5 6 销售利润 y(万元) 5 7 9 11 由表中数据,得线性回归方程 l:ybxa,则下列结论正确的是( ) Ab0 Ba0 C直线 l 过点(4,
10、8) D直线 l 过点(2,5) 考点 线性回归方程 题点 样本点中心的应用 答案 C 解析 由表计算可得 x 4, y 8,b1.40,a y b x 81.442.40,所以 排除 A,B;因为 y1.4x2.4,所以 1.422.45.25,所以点(2,5)不在直线 l 上,所以 排除 D;因为 x 4, y 8,所以回归直线 l 过样本点的中心(4,8),故选 C. 4在西非肆虐的“埃博拉病毒”的传播速度很快,这已经成为全球性的威胁为了考察某 种埃博拉病毒疫苗的效果,现随机抽取 100 只小鼠进行试验,得到如下列联表: 感染 未感染 总计 服用 10 40 50 未服用 20 30 5
11、0 总计 30 70 100 附表: P(2k) 0.10 0.05 0.025 k 2.706 3.841 5.024 参照附表,在犯错误的概率不超过_(填百分比)的前提下,认为“小鼠是否被感染与 服用疫苗有关” 考点 独立性检验及其基本思想 题点 独立性检验的方法 答案 5% 解析 210010302040 2 30705050 4.7623.841,所以在犯错误的概率不超过 5%的前提 下,认为“小鼠是否被感染与服用疫苗有关” 5对于线性回归方程 ybxa,当 x3 时,对应的 y 的估计值是 17,当 x8 时,对应的 y 的估计值是 22, 那么, 该线性回归方程是_, 根据线性回归方程判断当 x_ 时,y 的估计值是 38. 考点 线性回归分析 题点 线性回归方程的应用 答案 yx14 24 解析 首先把两组值代入线性回归方程,得 3ba17, 8ba22, 解得 b1, a14. 所以线性回归方程是 yx14. 令 x1438,可得 x24,即当 x24 时,y 的估计值是 38. 1建立回归模型的基本步骤 (1)确定研究对象,明确变量 (2)画出散点图,观察它们之间的关系 (3)由经验确定回归方程的类型 (4)按照一定的规则估计回归方程中的参数 2独立性检验是对两个分类变量间是否存在相关关系的一种案例分析方法.