1、11.2 用样本估计总体,第十一章 统计与统计案例,ZUIXINKAOGANG,最新考纲,1.通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点. 2.通过实例理解样本数据标准差的意义和作用,学会计算数据标准差. 3.能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数,标准差),并作出合理的解释. 4.在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,初步体会样本频率分布和数字特征的随机性.,5.会用随机抽样
2、的基本方法和样本估计总体的思想,解决一些简单的实际问题,能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异. 6.形成对数据处理过程进行初步评价的意识.,NEIRONGSUOYIN,内容索引,基础知识 自主学习,题型分类 深度剖析,课时作业,1,基础知识 自主学习,PART ONE,(1)求极差(即一组数据中_与_的差). (2)决定_与_. (3)将数据_. (4)列_. (5)画_.,1.作频率分布直方图的步骤,知识梳理,ZHISHISHULI,最大值,最小值,组距,组数,分组,频率分布表,频率分布直方图,2.频率分布折线图和总体密度曲线 (1)频率
3、分布折线图:连接频率分布直方图中各小长方形上端的_,就得到频率分布折线图. (2)总体密度曲线:随着样本容量的增加,作图时所分的_增加,_减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.,中点,组数,组距,3.茎叶图 统计中还有一种被用来表示数据的图叫做茎叶图,茎是指中间的一列数,叶就是从茎的旁边生长出来的数.,4.众数、中位数、平均数,最多,从小到大,中间,5.标准差和方差 (1)标准差是样本数据到平均数的一种_. (2)标准差:,平均距离,1.在频率分布直方图中如何确定中位数?,提示 在频率分布直方图中,中位数左边和右边的直方图的面积是相等的.,2.平
4、均数、标准差与方差反映了数据的哪些特征?,提示 平均数反映了数据取值的平均水平,标准差、方差反映了数据对平均数的波动情况,即标准差、方差越大,数据的离散程度越大,越不稳定;反之离散程度越小,越稳定.,【概念方法微思考】,题组一 思考辨析,1.判断下列结论是否正确(请在括号中打“”或“”) (1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( ),基础自测,JICHUZICE,1,2,3,4,5,6,(4)
5、茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( ) (5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( ) (6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( ),1,2,3,4,5,6,题组二 教材改编,1,2,3,4,5,6,2.一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为 A.4 B.8 C.12 D.16,1,2,3,4,5,6,3.若某校高一年级8个班参加合唱比赛的得分如茎叶图所示,则这组数据的中位数和平均数分别是 A.91.5和91.5 B.91.5和92 C.91和91.5
6、 D.92和92,解析 这组数据由小到大排列为87,89,90,91,92,93,94,96,,4.如图是100位居民月均用水量的频率分布直方图,则月均用水量为2,2.5)范围内的居民有_人.,解析 0.50.510025.,1,2,3,4,5,6,25,题组三 易错自纠,5.若数据x1,x2,x3,xn的平均数 5,方差s22,则数据3x11,3x21,3x31,3xn1的平均数和方差分别为 A.5,2 B.16,2 C.16,18 D.16,9,1,2,3,4,5,6,解析 x1,x2,x3,xn的平均数为5,,x1,x2,x3,xn的方差为2, 3x11,3x21,3x31,3xn1的方
7、差是32218.,1,2,3,4,5,6,6.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分的中位数为m,众数为n,平均数为 ,则m,n, 的大小关系为_.(用“”连接),1,2,3,4,5,6,解析 由图可知,30名学生得分的中位数为第15个数和第16个数(分别为5,6)的平均数,即m5.5; 又5出现次数最多,故n5;,2,题型分类 深度剖析,PART TWO,题型一 统计图表及应用,命题点1 扇形图,例1 (2018全国)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统
8、计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图: 则下面结论中不正确的是,多维探究,A.新农村建设后,种植收入减少 B.新农村建设后,其他收入增加了一倍以上 C.新农村建设后,养殖收入增加了一倍 D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半,解析 设新农村建设前,农村的经济收入为a,则新农村建设后,农村的经济收入为2a.新农村建设前后,各项收入的对比如下表:,故选A.,命题点2 折线图,例2 (2017全国)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.
9、 根据该折线图,下列结论错误的是,A.月接待游客量逐月增加 B.年接待游客量逐年增加 C.各年的月接待游客量高峰期大致在7,8月 D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比 较平稳,解析 对于选项A,由图易知,月接待游客量每年7,8月份明显高于12月份,故A错; 对于选项B,观察折线图的变化趋势可知,年接待游客量逐年增加,故B正确; 对于选项C,D,由图可知显然正确. 故选A.,命题点3 茎叶图,例3 (2017山东)如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为 A.3,5 B.5
10、,5 C.3,7 D.5,7,解析 甲组数据的中位数为65, 由甲,乙两组数据的中位数相等,得y5. 又甲、乙两组数据的平均值相等,,命题点4 频率分布直方图,例4 某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是17.5,30,样本数据分组为17.5,20),20,22.5),22.5,25),25,27.5),27.5,30.根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是 A.56 B.60 C.120 D.140,解析 设所求人数为N, 则N2.5(0.160.080.04)200140, 故选D.,(1)通
11、过扇形统计图可以很清楚的表示出各部分数量同总数之间的关系. (2)折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势. (3)由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较烦琐.,(4)准确理解频率分布直方图的数据特点,频率分布直方图中纵轴上的数据是各组的频率除以组距的结果,不要误以为纵轴上的数据是各组的频率,不要和条形图混淆. 在很多题目中,频率分布直方图中各小长方形的面积之和为1,是解
12、题的关键,常利用频率分布直方图估计总体分布.,跟踪训练1 (1)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15,B点表示四月的平均最低气温约为5.下面叙述不正确的是 A.各月的平均最低气温都在0以上 B.七月的平均温差比一月的平均温差大 C.三月和十一月的平均最高气温基本相同 D.平均最高气温高于20的月份有5个,解析 由题意知,平均最高气温高于20的有七月,八月,故选D.,(2)(2018黔东南州联考)近年呼吁高校招生改革的呼声越来越高,在赞成高校招生改革的市民中按年龄分组,得到样本频率分布直方图如图所示,其中
13、年龄在区间30,40)内的有2 500人,在区间20,30)内的有1 200人,则m的值为A.0.013 B.0.13 C.0.012 D.0.12,解析 由题意,得年龄在区间30,40)内的频率为0.025100.25,,因为年龄在区间20,30)内的有1 200人,,(3)(2018长春质检)已知某班级部分同学一次测验的成绩统计如图所示,则其中位数和众数分别为 A.95,94 B.92,86 C.99,86 D.95,91,解析 由题中茎叶图可知, 此组数据由小到大排列依次为 76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17
14、个, 故中位数为92,出现次数最多的为众数,故众数为86,故选B.,(4)下图是2017年111月汽油、柴油价格走势图(单位:元/吨),据此下列说法错误的是 A.从1月到11月,三种油里面柴油的价格波动最大 B.从7月份开始,汽油、柴油的价格都在上涨,而且柴油价格涨速最快 C.92#汽油与95#汽油价格成正相关 D.2月份以后,汽油、柴油的价格同时上涨或同时下跌,解析 由价格折线图,不难发现4月份到5月份汽油价格上涨,而柴油价格下跌.,题型二 用样本的数字特征估计总体的数字特征,例5 (2017北京)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了
15、100名学生,记录他们的分数,将数据分成7组:20,30),30,40),80,90,并整理得到如下频率分布直方图: (1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;,师生共研,解 根据频率分布直方图可知,样本中分数不小于70的频率为(0.020.04)100.6, 所以样本中分数小于70的频率为10.60.4, 所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4.,(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间40,50)内的人数;,解 根据题意,样本中分数不小于50的频率为(0.010.020.040.02)100.9, 分数在区
16、间40,50)内的人数为1001000.955,,(3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.,解 由题意可知,样本中分数不小于70的学生人数为(0.020.04)1010060,,所以样本中的男生人数为30260, 女生人数为1006040, 所以样本中男生和女生人数的比例为604032, 所以根据分层抽样原理,估计总体中男生和女生人数的比例为32.,平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.,跟踪训练2
17、 (2018漳平模拟)某企业有甲、乙两个研发小组,为了比较他们的研发水平,现随机抽取这两个小组往年研发新产品的结果如下:,(1)若某组成功研发一种新产品,则给该组记1分,否则记0分.试计算甲、乙两组研发新产品的成绩的平均数和方差,并比较甲、乙两组的研发水平;,(2)若该企业安排甲、乙两组各自研发一种新产品,试估计恰有一组研发成功的概率.,解 记恰有一组研发成功为事件E,在所抽得的15个结果中,恰有一组研发成功的结果是,3,课时作业,PART THREE,1.某教育局为了解“跑团”每月跑步的平均里程,收集并整理了2018年1月至2018年11月期间“跑团”每月跑步的平均里程(单位:公里)的数据,
18、绘制了下面的折线图.,基础保分练,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,根据折线图,下列结论正确的是 A.月跑步平均里程的中位数为6月份对应的里程数 B.月跑步平均里程逐月增加 C.月跑步平均里程高峰期大致在8,9月 D.1月至5月的月跑步平均里程相对于6月至11月,波动性更小,变化比较平稳,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解析 由折线图知,月跑步平均里程的中位数为5月份对应的里程数; 月跑步平均里程不是逐月增加的; 月跑步平均里程高峰期大致在9,10月份,故A,B,C错.,1,2,3,4,5,6,7,8,9
19、,10,11,12,13,14,15,16,2.如图是某样本数据的茎叶图,则该样本的中位数、众数、极差分别是 A.32 34 32 B.33 45 35 C.34 45 32 D.33 36 35,解析 从茎叶图中知共16个数据, 按照从小到大排序后中间的两个数据为32,34, 所以这组数据的中位数为33; 45出现的次数最多,所以这组数据的众数为45; 最大值是47,最小值是12,故极差是35.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,3.从某中学甲、乙两班各随机抽取10名同学,测量他们的身高(单位:cm),所得数据用茎叶图表示如下,由此可估计甲、乙两班
20、同学的身高情况,则下列结论正确的是 A.甲班同学身高的方差较大 B.甲班同学身高的平均值较大 C.甲班同学身高的中位数较大 D.甲班同学身高在175 cm以上的人数较多,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解析 逐一考查所给的选项: 观察茎叶图可知甲班同学数据波动大, 则甲班同学身高的方差较大,A选项正确; 甲班同学身高的平均值为,乙班同学身高的平均值为:,则乙班同学身高的平均值大,B选项错误;,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,则乙班同学身高的中位数大,C选项错误; 甲班同学身高在175 cm以上的人数为3
21、人, 乙班同学身高在175 cm以上的人数为4人, 则乙班同学身高在175 cm以上的人数多,D选项错误.,4.为了解学生在课外活动方面的支出情况,抽取了n个同学进行调查,结果显示这些学生的支出金额(单位:元)都在10,50内,其中支出金额在30,50内的学生有117人,频率分布直方图如图所示,则n等于 A.180 B.160 C.150 D.200,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,5.某工厂对一批新产品的长度(单位:mm)进行检测,如图是检测结果的频率分布直方图,据此估计这批产品的中位数为 A.20 B.25 C.22.5 D.22.75,1,2
22、,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解析 产品的中位数出现在频率是0.5的地方. 自左至右各小矩形的面积依次为0.1,0.2,0.4,0.15,0.15, 设中位数是x, 则由0.10.20.08(x20)0.5, 得x22.5,故选C.,6.北京市2016年12个月的PM2.5平均浓度指数如图所示.由图判断,四个季度中PM2.5的平均浓度指数方差最小的是 A.第一季度 B.第二季度 C.第三季度 D.第四季度,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解析 从题设中提供的图象及数据分析可以看出:第二季度的三个月中PM2.
23、5的平均浓度指数较为平缓,差异不大较为整齐,因此其方差最小,故选B.,7.已知样本数据x1,x2,xn的平均数 5,则样本数据2x11,2x21,2xn1的平均数为_.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,11,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,8.从某企业的某种产品中抽取1 000件,测量该种产品的一项质量指标值,由测量结果得到如图所示的频率分布直方图,假设这项指标在185,215内,则这项指标合格,估计该企业这种产品在这项指标上的合格率为_.,解析 这种指标值在185,215内,则这项指标合格, 由频率分
24、布直方图得到这种指标值在185,215内的频率为(0.0220.0330.024)100.79, 所以估计该企业这种产品在这项指标上的合格率为0.79.,0.79,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,9.从甲、乙、丙三个厂家生产的同一种产品中抽取8件产品,对其使用寿命(单位:年)进行追踪调查的结果如下: 甲:3,4,5,6,8,8,8,10; 乙:4,6,6,6,8,9,12,13; 丙:3,3,4,7,9,10,11,12. 三个厂家广告中都称该产品的使用寿命是8年,请根据结果判断厂家在广告中分别运用了平均数、众数、中位数中的哪一种集中趋势的特征数.
25、 甲:_;乙:_;丙:_.,解析 甲的众数为8,乙的平均数为8,丙的中位数为8.,众数,平均数,中位数,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,10.某校女子篮球队7名运动员身高(单位:cm)分布的茎叶图如图,已知记录的平均身高为175 cm,但记录中有一名运动员身高的末位数字不清晰,如果把其末位数字记为x,那么x的值为_.,2,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,11.某市民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费,从该市随机调查了10 00
26、0位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:,(1)如果w为整数,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解 如题图所示,用水量在0.5,2)的频率的和为(0.20.30.4)0.50.45, 用水量在0.5,3)的频率的和为(0.20.30.40.50.3)0.50.85. 用水量小于等于2立方米的频率为0.45,用水量小于等于3立方米的频率为0.85,又w为整数, 为使80%以上的居民在该月的用水价格为4元/立方米,w至少定为3.,1,2,3,4
27、,5,6,7,8,9,10,11,12,13,14,15,16,(2)假设同组中的每个数据用该组区间的右端点值代替,当w3时,估计该市居民该月的人均水费.,解 当w3时,该市居民该月的人均水费估计为 (0.110.151.50.220.252.50.153)40.15340.05(3.53)0.05(43)0.05(4.53)107.21.81.510.5(元). 即当w3时,该市居民该月的人均水费估计为10.5元.,12.某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分
28、布表.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,A地区用户满意度评分的频率分布直方图,图,(1)在图中作出B地区用户满意度评分的频率分布直方图,并通过直方图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可);,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,B地区用户满意度评分的频数分布表,图,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,B地区用户满意度评分的频率分布直方图,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解 作出频率分布直
29、方图如图: 通过两地区用户满意度评分的频率分布直方图可以看出,B地区用户满意度评分的平均值高于A地区用户满意度评分的平均值; B地区用户满意度评分比较集中,而A地区用户满意度评分比较分散.,(2)根据用户满意度评分,将用户的满意度分为三个等级:,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,估计哪个地区用户的满意度等级为不满意的概率大?说明理由.,解 A地区用户的满意度等级为不满意的概率大. 记CA表示事件:“A地区用户的满意度等级为不满意”;CB表示事件:“B地区用户的满意度等级为不满意”. 由直方图得P(CA)的估计值为(0.010.020.03)100.6
30、, P(CB)的估计值为(0.0050.02)100.25. 所以A地区用户的满意度等级为不满意的概率大.,技能提升练,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,13.(2017全国)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,xn,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是 A.x1,x2,xn的平均数 B.x1,x2,xn的标准差 C.x1,x2,xn的最大值 D.x1,x2,xn的中位数,解析 因为可以用极差、方差或标准差来描述数据的离散程度, 所以要评估亩产量稳定程度,应该用样本数据的
31、极差、方差或标准差. 故选B.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,14.共享单车入住泉州一周年以来,因其“绿色出行,低碳环保”的理念而备受人们的喜爱,值此周年之际,某机构为了了解共享单车使用者的年龄段,使用频率、满意度等三个方面的信息,在全市范围内发放5 000份调查问卷,回收到有效问卷3 125份,现从中随机抽取80份,分别对使用者的年龄段、2635岁使用者的使用频率、2635岁使用者的满意度进行汇总,得到如下三个表格:,表(一),1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,表(二),表(三),1,2,3,4,5,
32、6,7,8,9,10,11,12,13,14,15,16,(1)依据表格完成下列三个统计图形:,解,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,(2)某城区现有常住人口30万,请用样本估计总体的思想,试估计年龄在26岁35岁之间,每月使用共享单车在714次的人数.,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解 由表(一)可知:年龄在26岁35岁之间的有40人,占总抽取人数的一半,用样本估计总体的思想可知,,拓展冲刺练,1,2,3,4,5,6,7,8
33、,9,10,11,12,13,14,15,16,A.nm C.nm D.不能确定,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,16.空气质量指数(简称:AQI)是定量描述空气质量状况的无量纲指数,空气质量按照AQI大小分为六级:0,50)为优,50,100)为良,100,150)为轻度污染,150,200)为中度污染,200,250)为重度污染,250,300)为严重污染.下面记录了北京市22天的空气质量指数,根据图表,下列结论错误的是,1,2,3,4,5,6,7,8,9,10,11
34、,12,13,14,15,16,A.在北京这22天的空气质量中,按平均数来考察,最后4天的空气质量优于最 前面4天的空气质量 B.在北京这22天的空气质量中,有3天达到污染程度 C.在北京这22天的空气质量中,12月29日空气质量最差 D.在北京这22天的空气质量中,达到空气质量优的天数有7天,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,解析 因为9759,5148,3629,6845, 所以在北京这22天的空气质量中,按平均数来考察, 最后4天的空气质量优于最前面4天的空气质量,即选项A正确; AQI不低于100的数据有3个:143,225,145, 所以在北京这22天的空气质量中,有3天达到污染程度, 即选项B正确; 因为12月29日的AQI为225,为重度污染, 该天的空气质量最差,即选项C正确; AQI在0,50)的数据有6个:36,47,49,48,29,45, 即达到空气质量优的天数有6天,所以选项D错.,