close

頻率分佈 - Frequency distributions

 

當我們處理大數據時, 一個普遍的做法是, 把資料或數據依據種類, 間距或類別群組資料. 譬如, 1983 年美國有線電視系統訂閱人數彙總如下表: 

 

Number of subscribers Cable television systems
less than 1000 2444
1000~3499 1573
3500~9999 958
10000~19999 369
20000~49999 239
50000 or more 57
Total 56400

 

像這樣的表格我們稱它為一個頻率分佈次數分佈 (a frequency distribution or a distribution). 它顯示了有線電視系統是如何在這 6個分類中分佈. 當數據依據其大小來分群組時, 我們稱這個像這樣的表格為一個數量分佈 (a numerical distribution or quantitative distribution)

 

在上述的例子中, 每一個分類 (class) 涵蓋了一個大範圍的數字, 但是也有可能每一個分類只涵蓋一個數字. 譬如, 一個針對 200人的研究, 問他們在最近的12個月裡, 參觀當地動物園的次數. 

 

Numbers of visits to local zoo Number of persons
0 90
1 72
2 26
3 8
4 3
5 0
6 1
Total 200

 

假如我們把數據資料分組至非數字類別, 呈現的表格我們稱為一個類別分佈 (a categorical distribution or a qualitative distribution). 譬如一個包含了2439個旅客問卷, 顯示有關於某條航線班機的舒適度如下: 

 

Nature of complaint Numbers of complaints
Inadequate leg room 719
Uncomfortable seats 914
Narrow aisles 146
Insufficient carry-on facilities 218
Insufficient restrooms 58
Miscellaneous other complaints 384
Total 2439

 

頻率分佈以一個相對簡明扼要的形式呈現數據資料, 給我們一個整體的圖像. 但是若沒有參考原始資料, 我們無法判斷許多事物 (失去部分資訊). 例如, 上述有線電視的例子, 我們無法僅依頻率分佈表格得知最小的有線電視系統訂閱人數, 也無法得知前10大有線電視系統平均訂閱人數. 

 

然而頻率分佈以一個更容易閱讀的方式呈現數據資料, 失去部分資訊的代價, 通常還是值得的. 

 

建構一個頻率分佈包含了 3個必要的步驟: 
(1). 選擇群組 (區間或是分類, 分組) . 
(2). 排序資料數據或是整理 (tallying) 資料進上述的分組. 
(3). 計數每一個分組的數目. 

 

因為步驟 (2) 與 (3) 是純技術性問題, 我們在這裡只專注於步驟 (1), 也就是, 選擇適當的分類. 就一個數字分佈而言, 這包含了
I. 決定使用多少個群組 (區間或是分類) ?
II. 以及每一分類從多少開始? 

上述兩個問題都是任意地, 但是通常我們會遵循幾個法則: 

 

我們很少使用少於 6個或多於 15個分類; 確實的分類數目應視每一個個案觀察或測量的數目而定. 

 

我們總是確定每一個觀察到或測量到的樣本進入一個分類 (分組) 並且只有這個分類 (分組). 

 

我們盡可能地讓所有分類涵蓋數據的全部. 

 

Example Construct a distribution of the following amounts of sulfur oxides (in tons) emitted by an industrial plant on 80 days: 

15.8    26.4    17.3    11.2    23.9    24.8    18.7    13.9    9.0     13.2
22.7    9.8      6.2    14.7    17.5    26.1    12.8    28.6    17.6    23.7
26.8    22.7    18.0    20.5    11.0    20.9    15.5    19.4    16.7    10.7
19.1    15.2    22.9    26.6    20.4    21.4    19.2    21.6    16.9    19.0
18.5    23.0    24.6    20.1    16.2    18.0    7.7     13.5    23.5    14.5
14.4    29.6    19.4    17.0    20.8    24.3    22.5    24.6    18.4    18.1
8.3     21.9    12.3    22.3    13.3    11.8    19.3    20.0    25.7    31.8
25.9    10.5    15.9    27.5    18.1    17.9    9.4     24.1    20.1    28.5

 

Solution: 

 

Tons of sulfur oxides Tally Frequency

5.0 - 8.9 3
9.0 - 12.9

10
13.0 - 16.9 14
17.0 - 20.9 25
21.0 - 24.9 17
25.0 - 28.9 9
29.0 - 32.9 2

Total 80

 

上述表格分別落入每一個分組最右邊欄位的數字, 我們稱做分組頻率 (class frequency). 任一特定的分組最大值與最小值我們稱為組限 (class limits) . 其中 5.0, 9.0, 13.0, ..., 29.0 稱為下組限 (lower class limits) ; 8.9, 12.9, 16.9, ..., 稱為上組限 (upper class limits)

 

上述範例中, 我們分組以最接近 0.1噸為原則, 因此 5.0實際上包含了一切從 4.95至 5.05, 8.9包含了一切從 8.85至 8.95. 分組 5.0 - 8.9 包含了一切從 4.95到 8.95, 分組 9.0 - 12.9 包含了一切從 8.95到 12.95, ..., 分組 29.0 - 32.9 包含了一切從 28.95到 32.95. 這些 4.95, 8.95, 12.95, ..., 32.95, 我們稱為組界 (class boundaries or real class limits).

 

為了避免分組在連續數字上的間隙, 通常每一個分組包含了上組限這個值, 但不包含下組限這個值; 雖然 8.95同時是第 1組的上組限與第 2組的下組限, 但是我們將 8.95分至第 2組. 每一個分組的組中點, 也就是 (上組限 + 下組限) / 2, 我們稱為組標或組值 (class marks). 上組限 - 下組限即為組距 (class intervals)

 

有時分組在連續數字上的間隙是無法避免的, 上述範例中單位是 0.1噸, 但如果單位是人, 分組的組限最好是正整數, 畢竟世界上應該沒有半人 (0.5人) ? 

 

Example:  Find the class marks and the class interval of the distribution of the sulfur oxides emission data. 


Solution: 

The class marks are 
(5.0 + 8.9) / 2 = 6.95, 
(9.0 + 12.9) / 2 = 10.95,
(13.0 + 16.9) / 2 = 14.95,
(17.0 + 20.9) / 2 = 18.95,
(21.0 + 24.9) / 2 = 22.95,
(25.0 + 28.9) / 2 = 26.95,
(29.0 + 32.9) / 2 = 30.95. 

The class interval = 8.95 - 4.95 = 4. 

 

通常有兩種方式修改頻率分佈使其符合特殊需求. 其中一個方式是將頻率轉換成百分比. 百分比分佈常用於比較 2個或多個分佈, 例如比較不同工業區 sulfur oxides 的排放. 

 

Example:  Convert the distribution of the sulfur oxides emission data into a percentage distribution. 

 

Solution: 

Tons of sulfur oxides Percentage

5.0 - 8.9 3.75
9.0 - 12.9 12.50
13.0 - 16.9 17.50
17.0 - 20.9 31.25
21.0 - 24.9 21.25
25.0 - 28.9 11.25
29.0 - 32.9 2.50

  100.00

 

另一個方式是, 將頻率分佈修改為累積分佈 (累積頻率分佈, cumulative distribution)

 

Example:  Convert the distribution of the sulfur oxides emission data into a "less than" cumulative distribution. 
 

Solution: 

Tons of sulfur oxides Cumulative frequency

Less than 5.0 0
Less than 9.0 3
Less than 13.0 13
Less than 17.0 27
Less than 21.0 52
Less than 25.0 69
Less than 29.0  78
Less than 33.0 80

 

 

Graphocal presentations

 

我們建構一個頻率分佈 (次數分佈) 的目的在於濃縮大筆的資料, 並且以一個容易摘要的形式呈現. 但通常最容易摘要的形式是圖形. 一張圖可能勝過一千個文字. 以頻率分佈來說, 我們最常見到的是頻率分佈直方圖 (histogram). 通常 Y軸 (縱座標) 是頻率 (次數) , X軸 (橫坐標) 是分組. 如下圖所示: 

值得注意的是直方圖內的矩形與矩形之間通常不會有間隙. 試想上圖最後兩組合併為一組, 這合併後最後一組的組距, 與其它分組的組距並不相同, 矩形與矩形無間隙, 讓我們一眼得知, 每一個分組組距的相對大小. 

 

頻率分佈條形圖, 如下圖所示, 通常我們將分組顯示於下方, 長條矩形的上方印出頻率數值. 通常長條矩形之間有間隙. 

 

頻率分佈折線圖, 通常 Y軸 (縱座標) 是頻率 (次數) , X軸 (橫坐標) 是分組的組中點. 如下圖所示: 

 

累積頻率分佈通常我們會以折線圖呈現. Y軸 (縱座標) 是累積頻率, X軸 (橫坐標) 是分組的組中點. 

Less than

 

百分比分佈我們通長以圓形圖呈現. . 如下圖所示: 

 

 

莖葉圖 - Stem-and-leaf displays

 

到限在為止, 我們都將焦點專注於相對來說較大筆數據的分組, 目的是為了將這大筆數據轉成 一個易於管理的形式. 因此這伴隨著犧牲部分資訊的流失. 既要以一個容易摘要的形式呈現, 又要無損於資訊的流失, 一個替代的方法變是莖葉圖. 為了說明莖葉圖讓我們考慮下面20個學生歷史測驗的分數: 

 

69 84 52 93 61 74 79 65 88 63
57 64 67 72 74 55 82 61 68 77

 

將上述數據分組, 我們得到下表: 

Score Tally Frequency

50 - 59 3
60 - 69

8
70 - 79 5
80 - 89 3
90 - 99

1

Total 20

 

值得注意的是上表中, 中間這一欄的劃記 (tally) , 如同直方圖一般, 摘要了全體. 它告訴了我們有多少頻率落入了每一個分組. 但它無法告訴我們落入第 1個分組的分數是 52, 57, 55. 為了保留這些資訊, 我們將上表中的劃記改為相對應分數的最後一位數字, 得到: 

 

上圖可以改寫如下: 這裡的 * 是 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 的替代符號 (placeholder). 

或者只是

上述這 3種形式都可以稱做莖葉圖, 每一行是莖, 右邊每一個 digit 是葉. 基本上, 莖葉圖呈現了與劃記相同的全體摘要, 同時又保留了原始數據. 例如, 莖是

 

12* |  3  5  2  0  8

 

相對應的數據便是 123, 125, 122, 120, 128. 

 

3** |  17  03  55  89

 

相對應的數據便是 317, 303, 355, 389. 

 

 

 

 

 

 

z.png
Email: jasonc@mail2000.com.tw . 請尊重原創, 使用圖文時載明出處. 謝謝. 

 

(Finished)


 

 

 

 

 

 

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Lexra 的頭像
    Lexra

    Lexra Pixnet

    Lexra 發表在 痞客邦 留言(0) 人氣()