1、第八章第八章 成对数据的统计分析成对数据的统计分析 章末复习课章末复习课 一、变量的相关性 1 变量的相关关系与样本相关系数是学习一元线性回归模型的前提和基础, 前者可借助散点 图从直观上分析变量间的相关性,后者从数量上准确刻化了两个变量的相关程度 2在学习该部分知识时,体会直观想象和数学运算的素养 例 1 (1)下列两个变量具有相关关系且不是函数关系的是( ) A圆的半径与面积 B匀速行驶的车辆的行驶距离与时间 C庄稼的产量与施肥量 D人的身高与视力 答案 C 解析 对于 A,圆的半径与面积是确定的关系,是函数关系;对于 B,匀速行驶的车辆的行 驶距离与时间是确定的关系,是函数关系;对于 C
2、,庄稼的产量与施肥量在一定范围内有相 关关系,不是函数关系;对于 D,人的身高与视力,不具有相关关系,也不是函数关系故 选 C. (2)在一次试验中,测得(x,y)的四组值分别为(1,2),(2,0),(4,4),(1,6),则 y 与 x 的样 本相关系数为_ 答案 1 解析 方法一 x 1.5, y 1, i1 4 x2i22, i1 4 y2i56, i1 4 xiyi20, 样本相关系数 r 2041.51 2241.52564121. 方法二 观察四个点,发现其在一条单调递减的直线上,故 y 与 x 的样本相关系数为1. 反思感悟 变量相关性的判断的两种方法 (1)散点图法:直观形象
3、 (2)公式法: 可用公式精确计算, 需注意特殊情形的样本相关系数 如点在一条直线上, |r|1, 且当 r1 时,正相关;r1 时,负相关 跟踪训练 1 (1)已知变量 x 和 y 满足关系 y2x1,变量 y 与 z 正相关,下列结论中正确 的是( ) Ax 与 y 正相关,x 与 z 负相关 Bx 与 y 正相关,x 与 z 正相关 Cx 与 y 负相关,x 与 z 负相关 Dx 与 y 负相关,x 与 z 正相关 答案 C 解析 根据题意, 变量 x 和 y 满足关系 y2x1, 其比例系数为20, 所以 x 与 y 负相关; 又由变量 y 与 z 正相关,则 x 与 z 负相关故选
4、C. (2)如图所示,给出了样本容量均为 7 的 A,B 两组成对样本数据的散点图,已知 A 组成对样 本数据的样本相关系数为 r1,B 组成对样本数据的样本相关系数为 r2,则( ) Ar1r2 Br1r2 D无法判定 答案 C 解析 根据 A,B 两组成对样本数据的散点图知,A 组成对样本数据几乎在一条直线上,且 成正相关,样本相关系数为 r1应最接近 1,B 组成对样本数据分散在一条直线附近,也成 正相关,样本相关系数为 r2,满足 r2r2,故选 C. 二、一元线性回归模型及其应用 1 该知识点是具有线性相关关系的两变量的一种拟合应用, 目的是借助函数的思想对实际问 题做出预测和分析
5、2主要培养数学建模和数据分析的素养 例 2 一商场对每天进店人数和商品销售件数进行了统计对比,得到如下表格: 人数 xi 10 15 20 25 30 35 40 件数 yi 4 7 12 15 20 23 27 其中 i1,2,3,4,5,6,7. (1)以每天进店人数为横坐标,每天商品销售件数为纵坐标,画出散点图; (2)求经验回归方程;(结果保留到小数点后两位) (3)预测进店人数为 80 时商品销售的件数(结果保留整数) 参考公式:经验回归方程y b xa , b i1 n xiyin x y i1 n x2in x 2 ,a y b x . 解 (1)由表中数据,画出 7 个数据点,
6、 可得散点图如图所示 (2) i1 7 xiyi3 245, x 25, y 15.43, i1 7 x2i5 075,7 x 24 375. b i1 7 xiyi7 x y i1 7 x2i7 x 2 0.777, a y b x 4.00. 经验回归方程是y 0.78x4.00. (3)进店人数为 80 时,商品销售的件数y 0.78804.0058(件) 反思感悟 解决回归分析问题的一般步骤 (1)画散点图根据已知数据画出散点图 (2)判断变量的相关性并求经验回归方程通过观察散点图,直观感知两个变量是否具有相关 关系;在此基础上,利用最小二乘法求回归系数,然后写出经验回归方程 (3)回
7、归分析画残差图或计算 R2,进行残差分析 (4)实际应用依据求得的经验回归方程解决实际问题 跟踪训练2 某地搜集到的新房屋的销售价格(单位: 万元)和房屋面积(单位: m2)的数据如下表: 房屋面积/m2 115 110 80 135 105 销售价格/万元 24.8 21.6 18.4 29.2 22 (1)画出数据对应的散点图; (2)求经验回归方程; (3)根据(2)的结果,估计当房屋面积为 150 m2时的销售价格 解 (1)设 x 轴表示房屋的面积,y 轴表示销售价格,数据对应的散点图如图 (2)由(1)知 y 与 x 具有线性相关关系,可设其经验回归方程为y b xa ,依据题中的
8、数据,可 得出 x 1 5 i1 5 xi109, i1 5 (xi x )21 570, y 1 5 i1 5 yi23.2, i1 5 (xi x )(yi y )308, b i1 5 xi x yi y i1 5 xi x 2 308 1 5700.196 2, a y b x 23.20.196 21091.814 2. 故所求经验回归方程为y 0.196 2x1.814 2. (3)由(2)知当 x150 时,销售价格的估计值为y 0.196 21501.814 231.244 2(万元) 故当房屋面积为 150 m2时,估计销售价格是 31.244 2 万元 三、非线性经验回归方
9、程 1在实际问题中,并非所有的变量关系均满足线性关系,故要选择适当的函数模型去拟合样 本数据,再通过代数变换,把非线性问题线性化 2体现数学建模的优劣,提升数据分析的素养 例 3 某公司为确定下一年度投入产品的宣传费,需了解年宣传费 x(单位:千元)对年销售量 y(单位: t)和年利润 z(单位: 千元)的影响, 于是对近 8 年的宣传费 xi和年销售量 yi(i1,2, , 8)的数据进行了初步处理,得到如图所示的散点图及一些统计量的值 x y w i1 8 (xi x )2 i1 8 (wi w )2 i1 8 (xi x )(yi y ) i1 8 (wi w )(yi y ) 46.6
10、 563 6.8 289.8 1.6 1 469 108.8 注:表中 wi xi, w 1 8 i1 8 wi. (1)根据散点图判断,y a b x 与y c d x哪一个适宜作为年销售量 y 关于年宣传费 x 的回 归方程模型?(给出判断即可,不必说明理由) (2)根据(1)的判断结果及表中数据,建立 y 关于 x 的回归方程; (3)已知这种产品的年利润 z 与 x,y 之间的关系为 z0.2yx,根据(2)的结果回答下列问题 当年宣传费 x49 时,年销售量及年利润的预报值是多少? 年宣传费 x 为何值时,年利润的估计值最大? 解 (1)由散点图可以判断, y c d x适宜作为年销
11、售量 y 关于年宣传费 x 的回归方程模型 (2)令 w x,先建立 y 关于 w 的经验回归方程由于d i1 8 wi w yi y i1 8 wi w 2 108.8 1.6 68, c y d w 563686.8100.6,所以 y 关于 w 的经验回归方程为y 100.668w,因此 y 关于 x 的回归方程为y 100.668 x. (3)由(2)知,当 x49 时,年销售量 y 的估计值y 100.668 49576.6,年利润 z 的估计 值z 576.60.24966.32. 根据(2)的结果知,年利润 z 的估计值z 0.2(100.668 x)xx13.6 x20.12,
12、所 以当 x13.6 2 6.8,即 x46.24 时,z 取得最大值 故当年宣传费为 46.24 千元时,年利润的估计值最大 反思感悟 非线性经验回归方程的求解策略 (1)本例中,y 与 x 不是线性相关关系,但通过 wi xi,转换为 w 与 y 的线性相关关系,从而 可利用线性回归分析间接讨论 y 与 x 的相关关系 (2)可线性化的回归分析问题,画出已知数据的散点图,选择跟散点图拟合得最好的函数模型 进行变量代换,作出变换后样本点的散点图,用线性回归模型拟合 跟踪训练 3 电容器充电达到某电压值时作为时间 t 的计算原点,此后电容器串联一电阻放 电,测定各时间的电压值(U)所得数据见下
13、表: t(h) 0 1 2 3 4 5 6 7 8 U(V) 100 75 55 40 30 20 15 10 5 设 U 与 t 之间具有近似关系 UU0e t(U 0, 为常数, e2.718 28), 求 U 对 t 的回归方程 解 对 UU0e t 两边取自然对数, 得 ln Uln U0t. 令 zln U,a ln U0,b ,则z a b t. 将 U 的各数据代入 zln U,求得: t 0 1 2 3 4 5 6 7 8 z 4.605 4.317 4.007 3.689 3.401 2.996 2.708 2.303 1.6 09 b 0.355 3, a 4.714, 所
14、以z 4.7140.355 3t, 即 ln U4.7140.355 3t, 所以 Ue4.714 0.355 3t. 故所求回归方程为 Ue4.714 0.355 3t. 四、独立性检验 1主要考查根据样本制作 22 列联表,由 22 列联表计算 2,查表分析并判断相关性结 论的可信程度 2通过计算 2值,进而分析相关性结论的可信程度,提升数学运算、数据分析素养 例 4 奥运会期间,为调查某高校学生是否愿意提供志愿者服务,用简单随机抽样方法从该 校调查了 60 人,结果如下: 是否愿意提供 志愿者服务 性别 愿意 不愿意 男生 20 10 女生 10 20 (1)用分层随机抽样的方法在愿意提
15、供志愿者服务的学生中抽取 6 人,其中男生抽取多少人? (2)依据小概率值 0.01 的独立性检验,能否据此推断该校高中生是否愿意提供志愿者服务 与性别有关? 下面的临界值表供参考: 0.10 0.05 0.010 0.005 0.001 x 2.706 3.841 6.635 7.879 10.828 2 nadbc2 abcdacbd,其中 nabcd. 解 (1)由题意,男生抽取 6 20 20104(人) (2)零假设 H0:该校高中生是否愿意提供志愿者服务与性别无关 则 26020201010 2 30303030 6.6676.635x0.01, 所以依据小概率值 0.01 的独立
16、性检验,可以认为该校高中生是否愿意提供志愿者服务与 性别有关 反思感悟 独立性检验问题的求解策略 (1)等高堆积条形图法:依据题目信息画出等高堆积条形图,依据频率差异来粗略地判断两个 变量的相关性 (2)通过公式 2 nadbc2 abcdacbd先计算 2,再与临界值表作比较,最后得出结论 跟踪训练 4 考察小麦种子灭菌与否跟发生黑穗病的关系,经试验观察,得到数据如下表: 种子灭菌 种子未灭菌 合计 黑穗病 26 184 210 无黑穗病 50 200 250 合计 76 384 460 试分析依据小概率值0.05 的独立性检验,能否据此推断种子灭菌与小麦发生黑穗病有关? 解 零假设 H0:
17、种子灭菌与小麦发生黑穗病无关由列联表的数据可求 24602620018450 2 76384210250 4.8043.841x0.05, 所以依据小概率值 0.05 的独立性检验,可以认为种子灭菌与小麦发生黑穗病有关系 1(2020 全国)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加为 调查该地区某种野生动物的数量,将其分成面积相近的 200 个地块,从这些地块中用简单随 机抽样的方法抽取 20 个作为样区,调查得到样本数据(xi,yi)(i1,2,20),其中 xi和 yi 分别表示第 i 个样区的植物覆盖面积(单位: 公顷)和这种野生动物的数量, 并计算得 i1 20
18、xi60, i1 20 yi1 200, i1 20 (xi x )280, i1 20 (yi y )29 000, i1 20 (xi x )(yi y )800. (1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物 数量的平均数乘以地块数); (2)求样本(xi,yi)(i1,2,20)的相关系数(精确到 0.01); (3)根据现有统计资料,各地块间植物覆盖面积差异很大,为提高样本的代表性以获得该地区 这种野生动物数量更准确的估计,请给出一种你认为更合理的抽样方法,并说明理由 附:样本相关系数 r i1 n xi x yi y i1 n xi x 2
19、i1 n yi y 2 , 21.414. 解 (1)由已知得样本平均数为 y 1 20 i1 20 yi60, 从而该地区这种野生动物数量的估计值为 6020012 000. (2)样本(xi,yi)(i1,2,20)的相关系数为 r i1 20 xi x yi y i1 20 xi x 2 i1 20 yi y 2 800 809 000 2 2 3 0.94. (3)分层随机抽样,根据植物覆盖面积的大小对地块分层,再对 200 个地块进行分层抽样 理由如下:由(2)知各样区的这种野生动物数量与植物覆盖面积有很强的正相关关系由于各 地块间植物覆盖面积差异很大,从而各地块间这种野生动物数量差
20、异也很大,采用分层抽样 的方法较好地保持了样本结构与总体结构的一致性,提高了样本的代表性,从而可以获得该 地区这种野生动物数量更准确的估计 2(2020 新高考全国改编)为加强环境保护,治理空气污染,环境监测部门对某市空气质量 进行调研,随机抽查了 100 天空气中的 PM2.5和 SO2浓度(单位:g/m3),得下表: SO2 PM2.5 0,50 (50,150 (150,475 0,35 32 18 4 (35,75 6 8 12 (75,115 3 7 10 (1)估计事件“该市一天空气中 PM2.5浓度不超过 75,且 SO2浓度不超过 150”的概率; (2)根据所给数据,完成下面
21、的 22 列联表: SO2 PM2.5 0,150 (150,475 0,75 (75,115 (3)根据(2)中的列联表,依据小概率值 0.010 的独立性检验,分析该市一天空气中 PM2.5 浓度与 SO2浓度是否有关 附:2 nadbc2 abcdacbd. 解 (1)由表格可知,该市 100 天中,空气中的 PM2.5浓度不超过 75,且 SO2浓度不超过 150 的天数为 32618864, 所以该市一天中, 空气中的PM2.5浓度不超过75, 且SO2浓度不超过150的概率的估计值为 64 100 0.64. (2)由所给数据,可得 22 列联表: SO2 PM2.5 0,150 (150,475 0,75 64 16 (75,115 10 10 (3)零假设为 H0:该市一天空气中 PM2.5浓度与 SO2浓度无关 根据列联表中数据,经计算得到 2 nadbc2 abcdacbd 10064101610 2 80207426 7.4846.635x0.010, 根据小概率值 0.010 的独立性检验,我们推断 H0不成立,即认为该市一天空气中 PM2.5 浓度与 SO2浓度有关