1、章末复习学习目标1.梳理本章知识,构建知识网络.2.进一步体会用统计图、表对样本数据进行整理分析,用样本和样本的数字特征估计总体.3.能利用散点图对两个变量是否相关进行初步判断,能用线性回归方程进行预测.1.抽样方法(1)当总体容量较小,样本容量也较小时,可采用抽签法.(2)当总体容量较大,样本容量较小时,可用随机数法.(3)当总体容量较大,样本容量也较大时,可用系统抽样法.(4)当总体由差异明显的几部分组成时,可用分层抽样法.2.统计图表的特点及选择方法(1)在统计过程中收集到的数据量较多时,在用统计图表表示之前,一般需要先将数据按一定的方式进行整理.在此基础上,再根据不同的需要选择适当的统
2、计图进行表示.(2)如果只需大致判断一些数据的分布规律,了解数据中各元素所占比例的大小情况可以使用扇形统计图.(3)如果需要根据图表了解各个数据所占的频率可以使用条形统计图.例如,统计一批产品中优等品所占频率.(4)如果要了解数据的增减情况可以使用折线统计图.例如,统计一个人考试成绩的变化情况.(5)如果要了解数据的全部信息可以使用茎叶图.例如,篮球比赛的记分.因此要选择恰当的统计图表直观表达统计的数据,必须把各种统计图表的特点和问题中的需要结合起来,确定选择哪种统计图表.3.数据的数字特征(1)分类:样本的数字特征可分为两大类,一类是反映样本数据的集中趋势的,包括样本平均数、中位数、众数;一
3、类是反映样本数据的波动大小的,包括样本方差和标准差,通常我们用样本的数字特征来估计总体的数字特征.(2)意义:在实际应用中,平均数常被理解为平均水平,标准差常被理解为稳定性,常常将二者结合起来解决问题.(3)常用公式平均数:(x1x2xn);方差的求法:标准差的平方s2叫作方差,s2(x1)2(x2)2(xn)2,其中,xn是样本数据,n是样本容量,是样本平均数;标准差的求法:标准差是样本数据到平均数的一种平均距离,一般用s表示.s.4.变量间的相关关系(1)两个变量之间的相关关系的研究,通常先作变量的散点图,根据散点图判断这两个变量比较接近于哪种确定性关系(函数关系).(2)求线性回归方程的
4、步骤:先把数据制成表,从表中计算出,x,xiyi;计算回归系数a,b.公式为写出线性回归方程ybxa.1.随机数表只有一张,并且读数时只能按照从左向右的顺序读取,否则产生的随机样本就不同了,对整体的估计就不准确了.()2.某企业共有3 200名职工,其中青年、中年、老年职工的比例为352.若从所有职工中抽取一个容量为400的样本,则每人被抽到的可能性都为.()3.一组数据一定存在众数,且不可能有两个众数.()4.一组数据为10,15,8,13,7,9,20,5,则这组数据的中位数为10.()题型一抽样方法例1(1)大、中、小三个盒子中分别装有同一产品120个、60个、20个,现在需从这三个盒子
5、中抽取一个容量为25的样本,较为恰当的抽样方法是()A.分层抽样 B.系统抽样C.简单随机抽样 D.以上三种均可(2)某企业三月中旬生产A,B,C三种产品共3 000件,根据分层抽样的结果,企业统计员制作了如下的表格:产品类别ABC产品数量(件)1 300样本数量(件)130由于不小心,表格中A,C产品的有关数据已被污染看不清楚,统计员记得A产品的样本数量比C产品的样本数量多10,根据以上信息,可得C产品的数量是_件.答案(1)B(2)800解析(1)总体无明显差异,但总体中个体数较多,故采用系统抽样较恰当.(2)设C产品的样本数量为n,则A产品的样本数量为n10,由题意知,解得n80.故C产
6、品的数量为80800(件).反思感悟系统抽样的特点是“等距离”抽样,分层抽样的特点是“等比例”抽样.跟踪训练1某高级中学有学生270人,其中一年级108人,二、三年级各81人.现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,270;使用系统抽样时,将学生统一随机编号为1,2,270,并将整个编号依次分为10段.如果抽得号码有下列四种情况:7,34,61,88,115,142,169,196,223,250;5,9,100,107,111,121,180,195,200,265;1
7、1,38,65,92,119,146,173,200,227,254;30,57,84,111,138,165,192,219,246,270.关于上述样本的下列结论中,正确的是()A.都不能为系统抽样B.都不能为分层抽样C.都可能为系统抽样D.都可能为分层抽样答案D解析按分层抽样时,在一年级抽取1084(人),在二年级、三年级各抽取813(人),则在号码段1,2,108中抽取4个号码,在号码段109,110,189中抽取3个号码,在号码段190,191,270中抽取3个号码,符合,所以可能是分层抽样,不符合,所以不可能是分层抽样;如果按系统抽样时,抽出的号码应该是“等距”的,符合,不符合,所
8、以都可能为系统抽样,都不能为系统抽样.题型二用样本的频率分布估计总体分布例2某制造商生产一批直径为40 mm的乒乓球,现随机抽样检查20个,测得每个球的直径(单位:mm,保留两位小数)如下:40.0340.0039.9840.0039.9940.0039.9840.0139.9839.9940.0039.9939.9540.0140.0239.9840.0039.9940.0039.96(1)完成下面的频率分布表,并画出频率分布直方图;分组频数频率39.95,39.97)39.97,39.99)39.99,40.01)40.01,40.03合计(2)假定乒乓球的直径误差不超过0.02 mm为合
9、格品.若这批乒乓球的总数为10 000,试根据抽样检查结果估计这批产品的合格个数.解(1)频率分布表如下:分组频数频率39.95,39.97)20.10539.97,39.99)40.201039.99,40.01)100.502540.01,40.0340.2010合计201.0050频率分布直方图如图.(2)抽样的20个产品中在39.98,40.02范围内的有17个,产品合格率为100%85%.10 00085%8 500.故根据抽样检查结果,可以估计这批产品的合格个数为8 500.反思感悟总体分布中相应的统计图表主要包括:频率分布表、频率分布直方图、频率分布折线图等.通过这些统计图表给出
10、的相应统计信息可以估计总体.跟踪训练2从高三学生中抽取50名同学参加数学竞赛,成绩的分组及各组的频数如下:(单位:分)40,50),2;50,60),3;60,70),10;70,80),15;80,90),12;90,100,8.(1)列出样本的频率分布表;(2)画出频率分布直方图和频率分布折线图;(3)估计成绩在60,90)分的学生比例.解(1)频率分布表如下.成绩分组频数频率40,50)20.040.00450,60)30.060.00660,70)100.20.02070,80)150.30.03080,90)120.240.02490,10080.160.016合计501.000.1
11、00(2)频率分布直方图和折线图如图所示:(3)成绩在60,90)分的学生比例为0.20.30.240.7474%.题型三用样本的数字特征估计总体的数字特征例3为调查甲、乙两校高三年级学生某次联考数学成绩情况,用简单随机抽样,从这两校中各抽取30名高三年级学生,以他们的数学成绩(百分制)作为样本,样本数据的茎叶图如图.(1)若甲校高三年级每位学生被抽取的概率为0.05,求甲校高三年级学生总人数,并估计甲校高三年级这次联考数学成绩的及格率(60分及60分以上为及格);(2)设甲、乙两校高三年级学生这次联考数学平均成绩分别为1,2,估计12的值.解(1)设甲校高三年级学生总人数为n.由题意,知0.
12、05,解得n600.样本中甲校高三年级学生数学成绩不及格的人数为5,据此估计甲校高三年级这次联考数学成绩的及格率为1.(2)设甲、乙两校样本平均数分别为,.根据样本茎叶图知,30()3030(75)(55814)(241265)(262479)(2220)92249537729215.因此0.5,所以12的估计值为0.5分.反思感悟样本的数字特征分为两大类:一类是反映样本数据集中趋势的特征数,例如平均数;另一类是反映样本数据波动大小的特征数,例如方差和标准差.通常我们用样本的平均数和方差(标准差)来近似代替总体的平均数和方差(标准差),从而实现对总体的估计.跟踪训练3对甲、乙的学习成绩进行抽样
13、分析,各抽5门功课,得到的观测值如下:甲6080709070乙8060708075问:甲、乙谁的平均成绩好?谁的各门功课发展较平衡?解甲的平均成绩为甲74,乙的平均成绩为乙73.所以甲的平均成绩好.甲的方差是s(14)262(4)2162(4)2104,乙的方差是s72(13)2(3)2722256.因为s s,所以乙的各门功课发展较平衡.线性回归及应用典例理论预测某城市2020到2024年人口总数与年份的关系如下表所示:年份202x(年)01234人口数y(十万)5781119(1)请画出上表数据的散点图;(2)指出x与y是否线性相关;(3)若x与y线性相关,请根据上表提供的数据,用最小二乘
14、法求出y关于x的回归方程ybxa;(4)据此估计2025年该城市人口总数.(参数数据:051728311419132,021222324230)解(1)数据的散点图如图:(2)由散点图可知,样本点基本上分布在一条直线附近,故x与y呈线性相关.(3)由表知(01234)2,(5781119)10.b3.2,ab3.6,回归方程为y3.2x3.6.(4)当x5时,y3.253.619.6(十万)196万.故2025年该城市人口总数约为196万.素养评析(1)最小二乘法估计的三个步骤作出散点图,判断是否线性相关.如果是,则用公式求a,b,写出回归方程.根据方程进行估计.(2)线性回归的应用,注意三个
15、方面,一是收集数据,二是准确计算求得回归方程,三是用回归方程进行估计预测,所以,这类题目培养的数学核心素养为数学运算与数据分析.1.现有10个数,其平均数是4,且这10个数的平方和是200,那么这组数的标准差是()A.1 B.2 C.3 D.4答案B解析设这10个数为a1,a2,a10,则有aaa200,且a1a2a1040,所以4,标准差为2.2.某农田施肥量x(单位:kg)与小麦产量y(单位:kg)之间的回归方程是y4x250,则当施肥量为50 kg时,可以预测小麦的产量为_kg.答案450解析直接将x50代入回归方程中,可得y450250450.3.如图所示是一次考试结果的频率分布直方图
16、,则据此估计这次考试的平均分为_.答案75解析利用组中值估算平均分,则有550.1650.2750.4850.2950.175,故估计这次考试的平均分为75.4.某车间为了制定工时定额,需要确定加工零件所花费的时间,为此做了四次试验,得到的数据如下:零件的个数x(个)2345加工的时间y(小时)2.5344.5(1)在给定的坐标系中画出表中数据的散点图;(2)求出y关于x的线性回归方程ybxa,并在坐标系中画出回归直线;(3)试预测加工10个零件需要多少小时?解(1)散点图如图.(2)由表中数据得:iyi52.5,3.5,3.5,54,b0.7,a1.05,y0.7x1.05,回归直线如图所示
17、.(3)将x10代入线性回归方程,得y0.7101.058.05,故加工10个零件约需要8.05小时.5.从某学校的800名男生中随机抽取50名测量身高,被测学生身高全部介于155 cm和195 cm之间,将测量结果按如下方式分成八组;第一组155,160),第二组160,165),第八组190,195.如图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组的人数相同,第六组的人数为4.(1)求第七组的频率;(2)估计该校的800名男生的身高的中位数以及身高在180 cm以上(含180 cm)的人数.解(1)第六组的频率为0.08,所以第七组的频率为10.085(0.00820.
18、0160.0420.06)0.06.(2)身高在第一组155,160)的频率为0.00850.04,身高在第二组160,165)的频率为0.01650.08,身高在第三组165,170)的频率为0.0450.2,身高在第四组170,175)的频率为0.0450.2,由于0.040.080.20.320.5,0.040.080.20.20.520.5,估计这所学校的800名男生的身高的中位数为m,则170m175,由0.040.080.2(m170)0.040.5,得m174.5,所以可估计这所学校的800名男生的身高的中位数为174.5,由频率分布直方图得后三组频率为0.060.080.008
19、50.18,所以身高在180 cm以上(含180 cm)的人数为0.18800144.1.应用抽样方法抽取样本时,应注意根据总体特征和已知信息设计和选择合适的抽样方法,确保样本的代表性.2.用样本的频率分布估计总体分布利用样本的频率分布表和频率分布直方图对总体情况作出估计,有时也利用频率折线图和茎叶图对总体情况作出估计.直方图能够很容易地表示大量数据,非常直观地表明分布的形状.在样本数据较少时,用茎叶图表示数据的效果较好,它不但可以保留原始信息,而且可以随时记录,这给数据的记录和表示都带来方便.3.用样本的数字特征估计总体的数字特征为了从整体上更好地把握总体的规律, 我们还可以通过样本数据的众数、中位数、平均数和标准差等数字特征对总体的数字特征作出估计.虽然随着样本不同,样本数字特征也不同,但只要样本代表性好,样本数字特征还是能估计总体数字特征的.4.线性回归方程的应用分析两个变量的相关关系时,我们可根据样本数据散点图确定两个变量之间是否存在相关关系,还可利用最小二乘法求出线性回归方程,并利用线性回归方程进行估计和预测.