1、【学习目标】1会收集现实问题中两个有关联变量的数据并作出散点图,会利用散点图直观认识变量间的相关关系;2了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程;3了解独立性检验(只要求 22 列联表)的基本思想、方法及其简单应用;4了解回归的基本思想、方法及简单应用【知识要点】1抽样方法(1)抽样要具有随机性、等可能性,这样才能通过对样本的分析和研究更准确的反映总体的情况,常用的抽样方法有简单随机抽样、系统抽样和分层抽样(2)简单随机抽样是指一个总体的个数为 (较小的有限数),通过逐个抽取一个样本,且每次抽取时每个个体被抽取的概率相等简单随机抽样的两种常用方法为抽签法和随机数表
2、法(3)分层抽样是总体由差异明显的几部分组成,常将总体按差异分成几个部分,然后按各部分所占比例抽样,其中所分成的各部分叫做层(4)系统抽样是当总体中的个数较多时,将总体均分成几部分,按事先按确定的在各部分抽取2总体分布的估计(1)作频率分布直方图的步骤:求极差(即一组数据中最大值与最小值的差 )决定组距与组数将数据分组列频率分布表(下图)分组 频数 频率 累计频率 01)t,1r1f 1f2,22 2 1kt ,krkf画频率分布直方图,将区间 )ab, 标在横轴上,纵轴表示频率与组距的比值,以每个组距为底,以各频率除以组距的商为高,分别画矩形,共得 k个矩形,这样得到的图形叫频率分布直方图频
3、率分布直方图的性质:第 i个矩形的面积等于样本值落入区间 1)iit , 的频率;由于,所以所有小矩形的面积的和为 1.(2)连接频率分布直方图中各小 长方形上边的中点,就得到频率分布折线图,随着样本容量的增加,折线图会越来越近似于一条光滑曲线,称之为总体密度曲线(3)统计中还有一种被用来表示数据的图叫茎叶图,茎是中格中间的一列数,叶是从茎旁边长出来的一列数.用茎叶图表示数据有两个突出的优点:一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到;二是茎叶图可以在比赛时随时记录,方便记录与表示3平均数和方差的计算(1)如果有 n个数据 ,则叫做这组数据的平均数,叫做这组数据的方差
4、,而 s叫做标准差(2)公式(3)当一组数据 中各数较大时,可以将各数据减去一个适当的常数 a,得到 1xa ,2xa , nxa ,则4利用频率分布直方图估计样本的数字特征(1)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可以估计中位数值.(2)平均数:平均数的估计值等 于每个小矩形的面积乘以矩形底边中点横坐标之和. 6.独立性检验(1)分类变量用变量的不同“值” ,表示个体所属的不同类别,这种变量称为分类变量.例如:是否吸烟,宗教信仰,国籍等.(2)列联表:即列出两个分类变量的频数表:一般地,假设有两个分类变量 x和 y,它们的值域分别为12,x和 12y,,其
5、样本频数列联表(称为 22 列联表) 为:1y2y合计1xabab2cdcd合计 n其中 为样本容量.(3)可以利用独立性检验来考察两个分类变量是否有关系,并且能较为准确地给出这种判断的可靠程度,具体做法是:根据观测数据计算由公式 所给出的检验随机变量的观测值 k,并且 k的值越大,说明“ X与 Y有关系”成立的可能性越大,同时可以利用以下数据来确定“ X与 Y有关系”的可信程度.这种利用随机变量 2K来确定在多大程度上可以认为“两个分类变量有关系”的方法称为两个分 类 变量的独立性检验.三高考命题类型分析(一)随机抽样例 1从 2018 名学生中选取 50 名学生参加某一活动,若采用下面的方
6、法选取:先用简单随机抽样从 2018人中剔除 18 人,剩下的 2000 人再按系统抽样的方法抽取 50 人,则在这 2018 人中,每个人入选的概率 ( )A不全相等 B均不相等 C都相等,且为 D都相等,且为【答案】C【解析】由简单随机抽样和系统抽样都是等可能抽样,从 个个体中抽取 个个体,则每个个体被抽到的概率都等于 ,即可得解.练习 1下列说法中错误的是( )A先把高二年级的 2000 名学生编号为 1 到 2000,再从编号为 1 到 50 的 50 名学生中随机抽取 1 名学生,其编号为 ,然后抽取编号为 , , 的学生,这样的抽样方法是系统抽样法;B独立性检验中, 越大,则越有把
7、握说两个变量有关;C若两个随机变量的线性相关性越强,则相关系数 的值越接近于 1;D若一组数据 1、a、3 的平均数是 2,则该组数据的方差是 .【答案】C【解析】对选项逐个进行分析,排除即可得到答案.【详解】对于 A,根据个体数目较多,且没有明显的差异,抽取样本间隔相等,知这种抽样方法是系统抽样法,A 正确;对应 B,独立性检验中, 越大,应该是说明两个变量有关系的可能性大,即有足够的把握说明两个变量有关,B 正确;对于 C,两个随机变量的线性相关性越强,则相关系数| r|的值越接近于 1,C 错误;对于 D,一组数据 1、a、3 的平均数是 2,a2;该组数据的方差是 s2 (12) 2+
8、(2 2) 2+(3 2) 2 ,D 正确故选:C.(二)样本估计总体例 2某校高一年级有甲,乙,丙三位学生,他们前三次月考的物理成绩如表:第一次月考物理成绩 第二次月考物理成绩 第三次月考物理成绩学生甲 80 85 90学生乙 81 83 85学生丙 90 86 82则下列结论正确的是( )A甲,乙,丙第三次月考物理成绩的平均数为 86B在这三次月考物理成绩中,甲的成绩平均分最高C在这三次月考物理成绩中,乙的成绩最稳定D在这三次月考物理成绩中,丙的成绩方差最大【答案】C【解析】由表格中数据,利用平均数公式以及方差的定义与性质,对选项中的命题逐一判断正误即可【详解】故选 C 上购物经历的人数,
9、所得数据的茎叶图如图所示,则这 20 个班有网购经历的人数的众数为( )A24 B37 C35 D48【答案】C【解析】根据茎叶图中的数据,利用众数的定义写出结果【点睛】本题主要考查利用茎叶图求众数,意在考查对基础知识的掌握与应用,是基础题练习 2已知一组数据 3,4,5,a,b 的平均数是 4,中位数是 m,从 3,4,5,a,b,m 这组数据中任取一数,取到数字 4 的概率为 ,那么 3,4,5,a,b 这组数据的方差为( )A B 2 C D【答案】D【解析】根据 3,4,5,a,b 的平均数是 4,中位数是 m,从 3,4,5,a,b,m 这组数据中任取一数,取到数字 4 的概率为 ,
10、可知 ,由方差公式求解即可.【详解】因为从 3,4,5,a,b,m 这组数据中任取一数,取到数字 4 的概率为 ,所以3,4,5,a,b,m 这 6 个数字中有 4 个 4,所以 ,所以故选 D.(三)频率分布直方图例 3.例 3.2017 年 APEC 会议于 11 月 10 日至 11 日在越南岘港举行,某研究机构为了了解各年龄层对APEC 会议的关注程度,随机选取了 100 名年龄在20 ,45内的市民举行了调查,并将结果绘制成如图所示的频率分布直方图(分组区间分布为20,25) ,25.30) ,30,35) ,35,40) ,40 ,45) (1)求选取的市民年龄在30,35)内的人
11、数;(2)若从第 3,4 组用分层抽样的方法选取 5 名市民进行座谈,再从中选取 2 人参与 APEC 会议的宣传活动,求参与宣传活动的市民中至少有一人的年龄在35,40)内的概率【答案】 (1)30; (2) .【解析】 (1)由频率分布直方图可得年龄在 内的频率为 ,从而可得结果;(2)利用分层抽样的方法可知,所选的 5 人中,从第 3 组选 3 人,从第 4 组选 2 人,利用列举法,求出总事件以及至少有一人的年龄在 内的事件,再利用古典概型概率公式即可得出结果.【详解】 (1)由频率分布直方图可得年龄在30,35)内的频率为 0.065=0.3,则选取的市民年龄在30,35)内的人数
12、0.3100=30; 练习 2如图是一组样本数据的频率分布直方图,则依据图形中的数据,可以估计总体的平均数与中位数分别是( )A12.5,12.5 B13,13 C13.5,12.5 D13.5,13【答案】B【解析】本题首先要通过频率分布直方图得出第一组、第二组、第三组的频率,然后根据平均数的定义计算出平均数,最后根据中位数定义计算出中位数,即可得出答案。【点睛】频率分布直方图问题需要注意:在频率分布直方图中,小矩形的高表示频率/组距,而不是频率;利用频率分布直方图求众数、中位数和平均数时,应注意三点:最高的小长方形底边中点的横坐标即是众数;中位数左边和右边的小长方形的面积和是相等的;平均数
13、是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和。练习 3某市要对 2000 多名出租车司机的年龄进行调査,现从中随机抽出 100 名司机,已知该市的司机年龄都在20,45之间,根据调査结果得出司机的年龄情况的频率分布直方图如图所示 ,估计该市出租车司机年龄在频率是( )A0.02 B0.04 C 0.2 D0.84【答案】C【解析】根据题意补全频率直方图,即可求出结果【详解】根据频率分布直方图知,在20,30)岁之间的频率为1( 0.01+0.07+0.06+0.02)5=0.2 ,故选:C(四)茎叶图例 4将甲、乙两名同学 5 次物理测验的
14、成绩用茎叶图表示如图,若甲、乙两人成绩的中位数分别为,则下列说法正确的是( )A ;乙比甲成绩稳定 B ;甲比乙成绩稳定C ;乙比甲成绩稳定 D ;甲比乙成绩稳定【答案】A【解析】中位数为把数据按顺序排列后,处于中间位置的数,分别写出甲乙的中位数即可比较其大小;茎叶图中,数据越集中就越稳定,因此可得乙比甲成绩稳定.练习 1为比较甲、乙两地某月 12 时的气温状况,随机选取该月中的 5 天,将这 5 天中 12 时的气温数据(单位: )制成如图所示的茎叶图.考虑以下结论:甲地的平均气温低于乙地的平均气温;甲地的平均气温高于乙地的平均气温;甲地气温的标准差小于乙地气温的标准差;甲地气温的标准差大于
15、乙地气温的标准差.其中根据茎叶图能得到的统计结论的标号为( )A B C D【答案】B【解析】由已知的茎叶图,我们易分析出甲、乙两地某月 12 时的气温抽取的样本温度,进而求出两组数据的平均数、方差,可得答案所以甲地该月 12 时的气温的标准差大于乙地该月 12 时的气温标准差.正确,故选 B. 练习 1已知一个样本数据 x,1,5, 其中点 是直线 和圆 的交点,则这个样本的标准差为 A5 B2 C D【答案】D【解析】求出 x,y 的值,求出数据的平均数,从而求出数据的标准差即可【详解】由 ,解得: 或 ,故数据为: ,1,3,5,数据的平均数是 2,故数据的方差是 ,故标准差是 ,故选:
16、 D练习 2若样本 的平均数是 ,方差是 ,则对样本,下列结论正确的是 ( )A平均数为 14,方差为 5 B平均数为 13,方差为 25C平均数为 13,方差为 5 D平均数为 14,方差为 2【答案】C【解析】根据平均数和方差的定义和性质进行求解即可【点睛】本题主要考查样本数据的方差和平均数的计算,根据相应的公式进行计算是解决本题的关键(七)极差、方差、标准差例 7已知某 7 个数的平均数为 3,方差为 ,现又加入一个新数据 3,此时这 8 个数的平均数为 x,方差为 ,则( )A , B , C , D ,【答案】B【解析】由题设条件,利用平均数和方差的计算公式,进行求解,即可得到答案.
17、【详解】由题意,根据这 7 个数的平均数为 3,方差为 ,即 , ,即 ,现又加入一个新数据 3,此时这 8 个数的平均数为 ,方差为 ,即 ,故选 B. 练习 1在下列命题中,下列选项正确的是( )A在回归直线 中,变量 时,变量 的值一定是 15.B两个变量相关性越强,则相关系数 就越接近于 1.C在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关.D若 是两个相等的非零实数,则 是纯虚数.【答案】D【解析】根据回归方程的定义判断 ;根据相关系数的定义判断 ;根据残差图的性质判断 ;根据纯虚数的定义判断 .【点睛】本题主要通过对多个命题真假的判断
18、,主要综合考查回归方程的定义、相关系数的定义、残差图的性质、纯虚数的定义,属于中档题.这种 题型综合性较强,也是高考的命题热点,做这类题目要细心、多读题,尽量挖掘出题目中的隐含条件,另外,要注意从简单的、自己已经掌握的知识点入手,然后集中精力突破较难的命题.(九)回归分析例 926已知某商品的价格 (元)与需求量 (件)之间的关系有如下一组数据:x 14 16 18 20 22y 12 10 7 5 3; 参考: ;当 时 , ,(1)求 , ;(2)求出回归直线方程;(3)计算相关系数 r 的值,并说明回归模型拟合程度的好坏。【答案】 (1) ;(2) ;(3) ,拟合效果好.【解析】 (1
19、)由平均数公式计算 x,y 的平均值即可;(2)结合回归方程系数公式和(1)的结论求解回归方程即可;(3)利用相关系数的计算公式求得相关系数即可比较拟合效果的好坏【点睛】本题考查了线性回归方程的实际应用,线性回归方程的性质,相关系数的概念等,重点考查学生的计算能力和对基础概念的理解,属于中等题 【解析】 (1)根据散点图选择 作为回归方程(2)利用公式及所给数据计算回归方程后可估计月销售额练习 1某工厂每日生产一种产品 吨,每日生产的产品当日销售完毕,日销售额为 万元,产品价格随着产量变化而有所变化,经过一段时间的产销,得到了 的一组统计数据如下表: (1)请判断 与 中,哪个模型更适合刻画
20、之间的关系?可从函数增长趋势方面给出简单的理由; (2)根据你的判断及下面的数据和公式,求出 关于 的回归方程,并估计当日产量 时,日销售额是多少?(结果保留整数)参考公式及数据:线性回归方程 中, , ., ,【答案】(1)答案见解析;(2)23 万元.【解析】分析:(1)从函数增长趋势考虑可知 更适合刻画 之间的关系.(2)由题意可得非线性回归方程为 ,据此预测当日产量 时,日销售额是 23 万元.详解:(1) 更适合刻画 之间的关系.理由如下:值每増加 1,函数值的増加量分别为 7, 4, 3, 2,増加得越来越缓慢,适合对数型函数的増长规律,与直线型函数的均匀増长存在较大差异,故 更适
21、合刻画 之间的关系.点睛:本题主要考查非线性回归方程的求解,回归分析的数学思想等知识,意在考查学生的转化能力和计算求解能力.(十一)独立性检验例 11 中华人民共和国道路交通安全法第 47 条的相关规定:机动车行经人行横道时,应当减速慢行;遇行人正在通过人行横道,应当停车让行,俗称“礼让斑马线”, 中华人民共和国道路交通安全法 第 90条规定:对不礼让行人的驾驶员处以扣 3 分,罚款 50 元的处罚.下表是某市一主干路口监控设备所抓拍的5 个月内驾驶员不“礼让斑马线”行为统计数据:月份 1 2 3 4 5违章驾驶员人数 120 105 100 90 85(1)请利用所给数据求违章人数 与月份之
22、间的回归直线方程 ;(2)交警从这 5 个月内通过该路口的驾驶员中随机抽查了 50 人,调查驾驶员不“礼让斑马线”行为与驾龄的关系,得到如下 列联表:能否据此判断有 的把握认为“礼让斑马线”行为与驾龄有关?不礼让斑马线 礼让斑马线 合计驾龄不超过 1 年 22 8 30驾龄 1 年以上 8 12 20合计 30 20 50参考公式及数据:.(其中 )【答案】 (1) ;(2)有 的把握认为“礼让斑马线”行为与驾龄关【解析】 (1)利用所给数据计算 、 ,求出回归系数,写出回归直线方程; 所以 的分布列为(十二)分布列例 12某有机水果种植基地试验种植的某水果在售卖前要成箱包装,每箱 80 个,
23、每一箱水果在交付顾客之前要按约定标准对水果作检测,如检测出不合格品,则更换为合格品检测时,先从这一箱水果中任取10 个作检测,再根据检测结果决定是否对余下的所有水果作检测设每个水果为不合格品的概率都为,且各个水果是否为不合格品相互独立()记 10 个水果中恰有 2 个不合格品的概率为 ,求 取最大值时 p 的值 ;()现对一箱水果检验了 10 个,结果恰有 2 个不合格,以 ()中确定的 作为 p 的值已知每个水果的检测费用为 1.5 元,若有不合格水果进入顾客手中,则种植基地要对每个不合格水果支付 a 元的赔偿费用()若不对该箱余下的水果作检验,这一箱水果的检验费用与赔偿费用的和记为 X,求
24、 EX;()以检验费用与赔偿费用和的期望值为决策依据,当种植基地要对每个不合格水果支付的赔偿费用至少为多少元时,将促使种植基地对这箱余下的所有水果作检验?【答案】()0.2 () () ()8【解析】 () 记 10 个水果中恰有 2 个不合格品的概率为 ,求得 ,利用导数即可求解函数的单调性,进而求得函数的最值. ()由( )知 ,()中,依题意知 , ,进而利用公式,即可求解; ()如果对余下的水果作检验,得这一箱水果所需要的检验费为 120 元,列出相应的不等式,判定即可得到结论.【详解】() 记 10 个水果中恰有 2 个不合格品的概率为 f(p),则 , ,由 ,得 .且当 时, ;
25、当 时, . 的最大值点 .【点睛】本题主要考查了独立重复试验的概率的应用,以及二项分布的应用,其中解答中认真审题,分析试验过程,根据对立重复试验求得事件的概率,以及正确利用分布列的性质求解上解答的关键,着重考查了分析问题和解答问题的能力,属于中档试题. 练习 2在某次活动中,有 5 名幸运之星.这 5 名幸运之星可获得 、 两种奖品中的一种,并规定:每个人通过抛掷一枚质地均为的骰子决定自己最终获得哪一种奖品(骰子的六个面上的点数分别为 1 点、2 点、3 点、4 点、5 点、6 点) ,抛掷点数小于 3 的获得 奖品,抛掷点数不小于 3 的获得 奖品.(1)求这 5 名幸运之星中获得 奖品的
26、人数大于获得 奖品的人数的概率;(2)设 、 分别为获得 、 两种奖品的人数,并记 ,求随机变量 的分布列及数学期望.【答案】 (1) ;(2) , 的分布列见解析.【解析】首先求出 5 名幸运之星中,每人获得 A 奖品的概率和 B 奖品的概率 (1)获得 A 奖品的人数大于获得 B 奖品的人数,得到获得 A 奖品的人数可能为 3,4,5,利用独立重复试验求得概率;(2)由|X Y|,可得 的可能取值为 1,3,5,同样利用独立重复试验求得概率,然后列出频率分布表,代入期望公式求期望【详解】这 5 名幸运之星中,每人获得 奖品的概率为 , 奖品的概率为 .(1)要获得 奖品的人数大于获得 奖品
27、的人数,则 奖品的人数可能为 3,4,5,则所求概率为 .所以 的分布列是:1 3 5故随机变量 的数学期望 .练习 3随着经济的发展,个人收入的提高自 2018 年 10 月 1 日起,个人所得税起征点和税率的调整调整如下:纳税人的工资、薪金所得,以每月全部收入额减除 5000 元后的余额为应纳税所得额依照个人所得税税率表,调整前后的计算方法如下表:(1)假如小李某月的工资、薪金等所得税前收入总和不高于 8000 元,记 表示总收入,y 表示应纳的税,试写出调整前后 y 关于 的函数表达式;(2)某税务部门在小李所在公司利用分层抽样方法抽取某月 100 个不同层次员工的税前收入,并制成下面的
28、频数分布表:先从收入在3000,5000)及5000,7000) 的人群中按分层抽样抽取 7 人,再从中选 4 人作为新纳税法知识宣讲员,用 a 表示抽到作为宣讲员的收入在3000,5000)元的人数,b 表示抽到作为宣讲员的收入在5000,7000) 元的人数,随机变量 ,求 Z 的分布列与数学期望;小李该月的工资、薪金等税前收入为 7500 元时,请你帮小李算一下调整后小李的实际收入比调整前增加了多少?【答案】 (1)见解析;(2)见解析【解析】 (1) 依照个人所得税税率表,调整前后的计算方法表示调整前后 y 关于 的函数表达式;(2) 由频数分布表可知 Z 的取值可能为 0,2,4,求
29、出相应的概率值得到分布列与期望值,由于小李的工资、薪金等收入为 7500 元,按调整前起征点应纳个税为 295 元,按调整后起征点应纳个税为 75 元,从而得到结果.(2)由频数分布表可知从3000,5000)及5000 ,7000 )的人群中抽取 7 人,其中3000,5000)中占3 人,5000,7000)的人中占 4 人,再从这 7 人中选 4 人, 所以 Z 的取值可能为 0,2,4, (5 分),,所以其分布 列为Z 0 2 4P所以由于小李的工资、薪金等收入为 7500 元,按调整前起征点应纳个税为 15003%+250010%=295 元; 按调整后起征点应纳个税为 25003
30、%=75 元, 【点睛】本题考查频率分布直方图的应用,考查平均数的计算,考查二项分布中期望的求法,是中档题练习 5某企业对设备进行升级改造,现从设备改造前后生产的大量产品中各抽取了 100 件产品作为样本,检测一项质量指标值,若该项指标值落在20,40)内的产品视为合格品,否则为不合格品,图 1 是设备改造前样本的频率分布直方图,表 1 是设备改造后的频数分布表.表 1,设备改造后样本的频数分布表:质量指标值频数 2 18 48 14 16 2(1)请估计该企业在设备改造前的产品质量指标的平均数;(2)企业将不合格品全部销毁后,并对合格品进行等级细分,质量指标值落在25,30) 内的定为一等品
31、,每件售价 240 元,质量指标值落在20,25) 或30,35) 内的定为二等品,每件售价 180 元,其它的合格品定为三等品,每件售价 120 元.根据表 1 的数据,用该组样本中一等品、二等品、三等品各自在合格品中的频率代替从所有产品中抽到一件相应等级产品的概率,现有一名顾客随机购买两件产品,设其支付的费用为X(单位:元) ,求 X 得分布列和数学期望.【答案】(1) 30.2;(2) 分布列见解析, 400.【解析】 (1)每个矩形的中点横坐标与该矩形的纵坐标、组距相乘后求和可得平均值;(2) 的可能取值为 : 240, 300,360, 420, 480, 根据直方图求出样本中一、二
32、、三等品的频率分别为 ,利用独立事件与互斥事件概率公式求出各随机变量对应的概率,从而可得分布列,进而利用期望公式可得 的数学期望.(2)根据样本频率分布估计总体分布,样本中一、二、三等品的频率分别为 ,故从所有产品中随机抽一件,是一、二、三等品的概率分别为 ,随机变量 的取值为:240, 300,360, 420, 480,;, 所以随机变量 的分布列为:240 300 360 420 480.【点睛】本题主要考查直方图的应用,互斥事件的概率公式、独立事件同时发生的概率公式以及离散型随机变量的分布列与数学期望,属于中档题. 求解数学期望问题,首先要正确理解题意,其次要准确无误的找出随机变量的所有可能值,计算出相应的概率,写出随机变量的分布列,正确运用均值、方差的公式进行计算,也就是要过三关:(1)阅读理解关;(2)概率计算关;(3)公式应用关.