1、6.3 统计与概率大题,-2-,-3-,-4-,-5-,-6-,-7-,1.变量间的相关关系 (1)如果散点图中的点从整体上看大致分布在一条直线的附近,那么我们说变量x和y具有线性相关关系. (2)线性回归方程:若变量x与y具有线性相关关系,有n个样本数据(xi,yi)(i=1,2,n),则回归方程为,-8-,2.独立性检验 对于取值分别是x1,x2和y1,y2的分类变量X和Y,其样本频数列联表是:,-9-,3.超几何分布 在含有M件次品的N件产品中,任取n件,其中恰有X件次品,则P(X=k)= ,k=0,1,2,m,其中m=minM,n,且nN,MN,n,M,NN*. 4.二项分布 一般地,
2、在n次独立重复试验中,事件A发生的次数为X,设每次试验中事件A发生的概率为p,则P(X=k)= pkqn-k,其中0p1,p+q=1,k=0,1,2,n,称X服从参数为n,p的二项分布,记作XB(n,p),且E(X)=np,D(X)=np(1-p).,-10-,5.正态分布 一般地,如果对于任意实数ab,随机变量X满足P(aXb)= ,(x)dx,则称X的分布为正态分布.正态分布完全由参数和确定,因此正态分布常记作N(,2).如果随机变量X服从正态分布,则记为XN(,2).满足正态分布的三个基本概率的值是:P(-X+)=0.682 6;P(-2X+2)=0.954 4;P(-3X+3)=0.9
3、97 4.,-11-,6.离散型随机变量的分布列、期望、方差 (1)设离散型随机变量X可能取的不同值为x1,x2,xi,xn,X取每一个值xi(i=1,2,n)的概率P(X=xi)=pi,则称下表为离散型随机变量X的分布列. (2)E(X)=x1p1+x2p2+xipi+xnpn为X的均值或数学期望. (3)D(X)=(x1-E(X)2p1+(x2-E(X)2p2+(xi-E(X)2pi+(xn-E(X)2pn叫做随机变量X的方差. (4)均值与方差的性质:E(aX+b)=aE(X)+b;E(+)=E()+E();D(aX+b)=a2D(X).,6.3.1 统计与统计案例,-13-,考向一,考
4、向二,考向三,考向四,样本的数字特征的应用 例1(2019全国卷2,文19)某行业主管部门为了解本行业中小企业的生产情况,随机调查了100个企业,得到这些企业第一季度相对于前一年第一季度产值增长率y的频数分布表. (1)分别估计这类企业中产值增长率不低于40%的企业比例、产值负增长的企业比例; (2)求这类企业产值增长率的平均数与标准差的估计值(同一组中的数据用该组区间的中点值为代表).(精确到0.01),-14-,考向一,考向二,考向三,考向四,-15-,考向一,考向二,考向三,考向四,解题心得(1)在预测总体数据的平均值时,常用样本数据的平均值估计,从而做出合理的判断. (2)平均数反映了
5、数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定.,-16-,考向一,考向二,考向三,考向四,对点训练1为迎接即将举行的集体跳绳比赛,高一年级对甲、乙两个代表队各进行了6轮测试,测试成绩(单位:次/分钟)如下表: (1)补全茎叶图,并指出乙队测试成绩的中位数和众数; (2)试用统计学中的平均数、方差知识对甲、乙两个代表队的测试成绩进行分析.,-17-,考向一,考向二,考向三,考向四,-18-,考向一,考向二,考向三,考向四,利用回归方程进行回归分析 例2(2019新疆乌鲁木齐二模,理19)某互联网公司为了确定下季度的前期广告投入
6、计划,收集了近6个月广告投入量x(单位:万元)和收益y(单位:万元)的数据如表: 他们分别用两种模型y=bx+a,y=aebx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:,-19-,考向一,考向二,考向三,考向四,-20-,考向一,考向二,考向三,考向四,(1)根据残差图,比较模型,的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除: 剔除异常数据后求出(1)中所选模型的回归方程; 若广告投入量x=18时,该模型收益的预报值是多少?,-21-,考向一,考向二,考向三,考向四,-22-,考向一,考向二,考向三
7、,考向四,解题心得在求两变量的回归方程时,由于 的公式比较复杂,求它的值计算量比较大,为了计算准确,可将这个量分成几个部分分别计算,最后再合成,这样等同于分散难点,各个攻破,提高了计算的准确度.,-23-,考向一,考向二,考向三,考向四,对点训练2(2019山东德州一模,理20)改革开放以来,我国经济持续高速增长.如图给出了我国2003年至2012年第二产业增加值与第一产业增加值的差值(以下简称为:产业差值)的折线图,记产业差值为y(单位:万亿元). (1)求出y关于年份代码t的线性回归方程; (2)利用(1)中的回归方程,分析2003年至2012年我国产业差值的变化情况,并预测我国产业差值在
8、哪一年约为34亿元; (3)结合折线图,试求出除去2007年产业差值后剩余的9年产业差值的平均值及方差(结果精确到0.1).,-24-,考向一,考向二,考向三,考向四,-25-,考向一,考向二,考向三,考向四,-26-,考向一,考向二,考向三,考向四,-27-,考向一,考向二,考向三,考向四,样本的相关系数的应用 例3(2019四川宜宾二模,理18)艾滋病是一种危害性极大的传染病,由感染艾滋病病毒(HIV病毒)引起,它把人体免疫系统中最重要的CD4T淋巴细胞作为主要攻击目标,使人体丧失免疫功能.下表是近八年来我国艾滋病病毒感染人数统计表:,-28-,考向一,考向二,考向三,考向四,(1)请根据
9、该统计表,画出这八年我国艾滋病病毒感染人数的折线图; (2)请用相关系数说明:能用线性回归模型拟合y与x的关系;,-29-,考向一,考向二,考向三,考向四,(3)建立y关于x的回归方程(系数精确到0.01),预测2019年我国艾滋病病毒感染人数.,-30-,考向一,考向二,考向三,考向四,解 (1)我国艾滋病病毒感染人数的折线图如图所示.,-31-,考向一,考向二,考向三,考向四,-32-,考向一,考向二,考向三,考向四,-33-,考向一,考向二,考向三,考向四,解题心得对于样本的相关系数的应用的题目,题目一般都给出样本(xi,yi)(i=1,2,n)的相关系数r的表达式,以及有关的数据,解决
10、这类题的关键是在有关的数据中选择题目需要的数据代入公式即可.,-34-,考向一,考向二,考向三,考向四,对点训练3下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图. (1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明; (2)建立y关于t的回归方程(系数精确到0.01),预测2018年我国生活垃圾无害化处理量.,-35-,考向一,考向二,考向三,考向四,-36-,考向一,考向二,考向三,考向四,-37-,考向一,考向二,考向三,考向四,-38-,考向一,考向二,考向三,考向四,统计图表与独立性检验的综合 例4某工厂为提高生产效率,开展技术创新活
11、动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人,第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:,-39-,考向一,考向二,考向三,考向四,(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由; (2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表: (3)根据(2)中的列联表,能否有99%的把握认为两种生产方式的效率有差异?,-40-,考向一,考向二,考向三,考向四,解 (1)第二种生产
12、方式的效率更高.理由如下:由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80分钟,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5分钟,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5分钟.因此第二种生产方式的效率更高.由茎叶图可知:用第一种生产方式的工人完成生产任务平均所需时间高于80分钟;用第二种生产方式的工人完成生产任务平均所需时间低于80分钟.因此第二种生产方式的效率更高.,-41-,考向一,考向二,考向三,考向四
13、,由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,学生答出其中任意一种或其他合理理由均可),-42-,考向一,考向二,考向三,考向四,解题心得有关独立性检验的问题解题步骤:(1)作出22列联表;(2)计算随机变量K2的值;(3)查临界值,检验作答.,-43-
14、,考向一,考向二,考向三,考向四,对点训练4“共享单车”的出现,为我们提供了一种新型的交通方式.某机构为了调查人们对此种交通方式的满意度,从交通拥堵不严重的A城市和交通拥堵严重的B城市分别随机调查了20个用户,得到了一个用户满意度评分的样本,并绘制出如图茎叶图. (1)根据茎叶图,比较两城市满意度评分的平均值的大小及方差的大小(不要求计算出具体值,给出结论即可);,-44-,考向一,考向二,考向三,考向四,(2)若得分不低于80分,则认为该用户对此种交通方式“认可”,否则认为该用户对此种交通方式“不认可”,请根据此样本完成下面22列联表,并据此样本分析是否有95%的把握认为城市拥堵与认可共享单车有关; (3)若从此样本中的A城市和B城市各抽取1人,则在此2人中恰有1人认可的条件下,此人来自B城市的概率是多少?,-45-,考向一,考向二,考向三,考向四,解 (1)A城市评分的平均值小于B城市评分的平均值; A城市评分的方差大于B城市评分的方差. (2)22列联表如下.,