頻率分佈 - Frequency distributions
當我們處理大數據時, 一個普遍的做法是, 把資料或數據依據種類, 間距或類別群組資料. 譬如, 1983 年美國有線電視系統訂閱人數彙總如下表:
Number of subscribers | Cable television systems |
less than 1000 | 2444 |
1000~3499 | 1573 |
3500~9999 | 958 |
10000~19999 | 369 |
20000~49999 | 239 |
50000 or more | 57 |
Total | 56400 |
像這樣的表格我們稱它為一個頻率分佈或次數分佈 (a frequency distribution or a distribution). 它顯示了有線電視系統是如何在這 6個分類中分佈. 當數據依據其大小來分群組時, 我們稱這個像這樣的表格為一個數量分佈 (a numerical distribution or quantitative distribution).
在上述的例子中, 每一個分類 (class) 涵蓋了一個大範圍的數字, 但是也有可能每一個分類只涵蓋一個數字. 譬如, 一個針對 200人的研究, 問他們在最近的12個月裡, 參觀當地動物園的次數.
Numbers of visits to local zoo | Number of persons |
0 | 90 |
1 | 72 |
2 | 26 |
3 | 8 |
4 | 3 |
5 | 0 |
6 | 1 |
Total | 200 |
假如我們把數據資料分組至非數字類別, 呈現的表格我們稱為一個類別分佈 (a categorical distribution or a qualitative distribution). 譬如一個包含了2439個旅客問卷, 顯示有關於某條航線班機的舒適度如下:
Nature of complaint | Numbers of complaints |
Inadequate leg room | 719 |
Uncomfortable seats | 914 |
Narrow aisles | 146 |
Insufficient carry-on facilities | 218 |
Insufficient restrooms | 58 |
Miscellaneous other complaints | 384 |
Total | 2439 |
頻率分佈以一個相對簡明扼要的形式呈現數據資料, 給我們一個整體的圖像. 但是若沒有參考原始資料, 我們無法判斷許多事物 (失去部分資訊). 例如, 上述有線電視的例子, 我們無法僅依頻率分佈表格得知最小的有線電視系統訂閱人數, 也無法得知前10大有線電視系統平均訂閱人數.
然而頻率分佈以一個更容易閱讀的方式呈現數據資料, 失去部分資訊的代價, 通常還是值得的.
建構一個頻率分佈包含了 3個必要的步驟:
(1). 選擇群組 (區間或是分類, 分組) .
(2). 排序資料數據或是整理 (tallying) 資料進上述的分組.
(3). 計數每一個分組的數目.
因為步驟 (2) 與 (3) 是純技術性問題, 我們在這裡只專注於步驟 (1), 也就是, 選擇適當的分類. 就一個數字分佈而言, 這包含了
I. 決定使用多少個群組 (區間或是分類) ?
II. 以及每一分類從多少開始?
上述兩個問題都是任意地, 但是通常我們會遵循幾個法則:
我們很少使用少於 6個或多於 15個分類; 確實的分類數目應視每一個個案觀察或測量的數目而定.
我們總是確定每一個觀察到或測量到的樣本進入一個分類 (分組) 並且只有這個分類 (分組).
我們盡可能地讓所有分類涵蓋數據的全部.
Example: Construct a distribution of the following amounts of sulfur oxides (in tons) emitted by an industrial plant on 80 days:
15.8 26.4 17.3 11.2 23.9 24.8 18.7 13.9 9.0 13.2 22.7 9.8 6.2 14.7 17.5 26.1 12.8 28.6 17.6 23.7 26.8 22.7 18.0 20.5 11.0 20.9 15.5 19.4 16.7 10.7 19.1 15.2 22.9 26.6 20.4 21.4 19.2 21.6 16.9 19.0 18.5 23.0 24.6 20.1 16.2 18.0 7.7 13.5 23.5 14.5 14.4 29.6 19.4 17.0 20.8 24.3 22.5 24.6 18.4 18.1 8.3 21.9 12.3 22.3 13.3 11.8 19.3 20.0 25.7 31.8 25.9 10.5 15.9 27.5 18.1 17.9 9.4 24.1 20.1 28.5
Solution:
Tons of sulfur oxides | Tally | Frequency |
5.0 - 8.9 | 3 | |
9.0 - 12.9 |
|
10 |
13.0 - 16.9 | 14 | |
17.0 - 20.9 | 25 | |
21.0 - 24.9 | 17 | |
25.0 - 28.9 | 9 | |
29.0 - 32.9 | 2 | |
Total | 80 | |
上述表格分別落入每一個分組最右邊欄位的數字, 我們稱做分組頻率 (class frequency). 任一特定的分組最大值與最小值我們稱為組限 (class limits) . 其中 5.0, 9.0, 13.0, ..., 29.0 稱為下組限 (lower class limits) ; 8.9, 12.9, 16.9, ..., 稱為上組限 (upper class limits).
上述範例中, 我們分組以最接近 0.1噸為原則, 因此 5.0實際上包含了一切從 4.95至 5.05, 8.9包含了一切從 8.85至 8.95. 分組 5.0 - 8.9 包含了一切從 4.95到 8.95, 分組 9.0 - 12.9 包含了一切從 8.95到 12.95, ..., 分組 29.0 - 32.9 包含了一切從 28.95到 32.95. 這些 4.95, 8.95, 12.95, ..., 32.95, 我們稱為組界 (class boundaries or real class limits).
為了避免分組在連續數字上的間隙, 通常每一個分組包含了上組限這個值, 但不包含下組限這個值; 雖然 8.95同時是第 1組的上組限與第 2組的下組限, 但是我們將 8.95分至第 2組. 每一個分組的組中點, 也就是 (上組限 + 下組限) / 2, 我們稱為組標或組值 (class marks). 上組限 - 下組限即為組距 (class intervals).
有時分組在連續數字上的間隙是無法避免的, 上述範例中單位是 0.1噸, 但如果單位是人, 分組的組限最好是正整數, 畢竟世界上應該沒有半人 (0.5人) ?
Example: Find the class marks and the class interval of the distribution of the sulfur oxides emission data.
Solution:
The class marks are (5.0 + 8.9) / 2 = 6.95, (9.0 + 12.9) / 2 = 10.95, (13.0 + 16.9) / 2 = 14.95, (17.0 + 20.9) / 2 = 18.95, (21.0 + 24.9) / 2 = 22.95, (25.0 + 28.9) / 2 = 26.95, (29.0 + 32.9) / 2 = 30.95. The class interval = 8.95 - 4.95 = 4.
通常有兩種方式修改頻率分佈使其符合特殊需求. 其中一個方式是將頻率轉換成百分比. 百分比分佈常用於比較 2個或多個分佈, 例如比較不同工業區 sulfur oxides 的排放.
Example: Convert the distribution of the sulfur oxides emission data into a percentage distribution.
Solution:
Tons of sulfur oxides | Percentage |
5.0 - 8.9 | 3.75 |
9.0 - 12.9 | 12.50 |
13.0 - 16.9 | 17.50 |
17.0 - 20.9 | 31.25 |
21.0 - 24.9 | 21.25 |
25.0 - 28.9 | 11.25 |
29.0 - 32.9 | 2.50 |
100.00 | |
另一個方式是, 將頻率分佈修改為累積分佈 (累積頻率分佈, cumulative distribution).
Example: Convert the distribution of the sulfur oxides emission data into a "less than" cumulative distribution.
Solution:
Tons of sulfur oxides | Cumulative frequency |
Less than 5.0 | 0 |
Less than 9.0 | 3 |
Less than 13.0 | 13 |
Less than 17.0 | 27 |
Less than 21.0 | 52 |
Less than 25.0 | 69 |
Less than 29.0 | 78 |
Less than 33.0 | 80 |
Graphocal presentations
我們建構一個頻率分佈 (次數分佈) 的目的在於濃縮大筆的資料, 並且以一個容易摘要的形式呈現. 但通常最容易摘要的形式是圖形. 一張圖可能勝過一千個文字. 以頻率分佈來說, 我們最常見到的是頻率分佈直方圖 (histogram). 通常 Y軸 (縱座標) 是頻率 (次數) , X軸 (橫坐標) 是分組. 如下圖所示:
值得注意的是直方圖內的矩形與矩形之間通常不會有間隙. 試想上圖最後兩組合併為一組, 這合併後最後一組的組距, 與其它分組的組距並不相同, 矩形與矩形無間隙, 讓我們一眼得知, 每一個分組組距的相對大小.
頻率分佈條形圖, 如下圖所示, 通常我們將分組顯示於下方, 長條矩形的上方印出頻率數值. 通常長條矩形之間有間隙.
頻率分佈折線圖, 通常 Y軸 (縱座標) 是頻率 (次數) , X軸 (橫坐標) 是分組的組中點. 如下圖所示:
累積頻率分佈通常我們會以折線圖呈現. Y軸 (縱座標) 是累積頻率, X軸 (橫坐標) 是分組的組中點.
Less than
百分比分佈我們通長以圓形圖呈現. . 如下圖所示:
莖葉圖 - Stem-and-leaf displays
到限在為止, 我們都將焦點專注於相對來說較大筆數據的分組, 目的是為了將這大筆數據轉成 一個易於管理的形式. 因此這伴隨著犧牲部分資訊的流失. 既要以一個容易摘要的形式呈現, 又要無損於資訊的流失, 一個替代的方法變是莖葉圖. 為了說明莖葉圖讓我們考慮下面20個學生歷史測驗的分數:
69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77
將上述數據分組, 我們得到下表:
Score | Tally | Frequency |
50 - 59 | 3 | |
60 - 69 |
|
8 |
70 - 79 | 5 | |
80 - 89 | 3 | |
90 - 99 | 1 | |
Total | 20 | |
值得注意的是上表中, 中間這一欄的劃記 (tally) , 如同直方圖一般, 摘要了全體. 它告訴了我們有多少頻率落入了每一個分組. 但它無法告訴我們落入第 1個分組的分數是 52, 57, 55. 為了保留這些資訊, 我們將上表中的劃記改為相對應分數的最後一位數字, 得到:
上圖可以改寫如下: 這裡的 * 是 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 的替代符號 (placeholder).
或者只是
上述這 3種形式都可以稱做莖葉圖, 每一行是莖, 右邊每一個 digit 是葉. 基本上, 莖葉圖呈現了與劃記相同的全體摘要, 同時又保留了原始數據. 例如, 莖是
12* | 3 5 2 0 8
相對應的數據便是 123, 125, 122, 120, 128.
3** | 17 03 55 89
相對應的數據便是 317, 303, 355, 389.
Email: jasonc@mail2000.com.tw . 請尊重原創, 使用圖文時載明出處. 謝謝.
-
(Finished)
留言列表