二、频数 (频率)直方图
(一) 直方图的作法
为研究一批产品的质量情况,需要研究它的某个质量特性 (这里为了叙述简单起见,仅讨论一个质量特性,有必要时也可以同时讨论多个质量特性)X的变化规律。为此,从这批产品(总体)中抽取一个样本 (设样本量为n),对每个样本产品进行该特性的测量 (观测)后得到一组样本观测值,记为 ,这便是我们通常说的数据。
为了研究数据的变化规律,需要对数据进行一定的加工整理。直方图是为研究数据变化规律而对数据进行加工整理的一种基本方法。下面用一个例子来说明直方图的概念及其作法。
[例1.3-3] 食品厂用自动装罐机生产罐头食品,从一批罐头中随机抽取100个进行称量,获得罐头的净重数据如下:
342352346344343339336342347340
340350347336341349346348342346
347346346345344350348352340356
339348338342347347344343349341
348341340347342337344340344346
342344345338351348345339343345
346344344344343345345350353345
352350345343347354350343350344
351348352344345349332343340346
342335349348344347341346341342
为了解这组数据的分布规律,对数据作如下整理:
(1)找出这组数据中的最大值 ,及最小值 ,计算它们的差R= - ,R称为极差,也就是这组数据的取值范围。在本例中 =356, , =332,从而R=356-332=24。
(2)根据数据个数,即样本量n,决定分组数k及组距h。
一批数据究竟分多少组,通常根据n的多少而定,不过这也不是绝对的,表1.3-2是可以参考的分组数。
表1.3-2 直方图分组组数选用表
样本量推荐组数
50~100
101~250
250以上6~10
7~12
10~20
选择k的原则是要能显示出数据中所隐藏的规律,组数不能过多,但也不能太少。
每一组的区间长度,称为组距。组距可以相等,也可以不相等。组距相等的情况用得比较多,不过也有不少情形在对应于数据最大及最小的一个或两个组,使用与其他组不相等的组距。对于完全相等的组距,通常取组距h为接近R/k的某个整数值。
在本例中,n=100,取k=9,R/k=24/9=2.7,故取组距h=3。
(3)确定组限(即每个区间的端点)及组中值。为了避免一个数据可能同时属于两个组,因此通常将各组的区间确定为左开右闭的:
通常要求 , 。在等距分组时 ,而每一组的组中值 。
在本例中取 =331.5,则每组的组限及组中值见表1.3-3。
(4)计算落在每组的数据的频数及频率
确定分组后,统计每组的频数,即落在组中的数据个数 以及频率 ,列出每组的频数、频率表,见表1.3-3。
(5)作频数频率直方图
在横轴上标上每个组的组限,以每一组的区间为底,以频数(频率)为高画一个矩形,所得的图形称为频数 (频率)直方图,如图1.3-4。在本例中频数直方图及频率直方图的形状是完全一致的,这是因为分组是等距的。该图特点是:中间高,两边低,左右基本对称。这说明:这个样本可能取自某正态总体。
在分组不完全等距的情形,在作频率直方图时,应当用每个组的频率与组距的比值 为高作矩形,此时以每个矩形的面积表示频率。
读书人建筑频道reader8.com/exam/zaojia/