close

 

 

通常當我們描述一些數據, 我們常常, 依據實際的情況, 說這些數據太多或是太少. 以統計的口吻來描述這些數據 (figures) 可以非常地簡要, 也可以非常多地闡述. 有時我們以資料原始的形式呈現, 讓數據自己說話; 有時我們以分組頻率分配的方式呈現. 但大多數時候我們是資料集中趨勢的呈現. 

 

譬如, 我們經常必須以一個單一的數字來代表全體. 或是我們只關心最前面 25% 的資料, 要以一個數字來描述. 統計學上描述像這些特性的方法, 我們稱為位置量數 (measures of location), 由其是中心位置量數 (measures of centrial location). 位置量數主要的意義在於資料集中趨勢的呈現. 

 

母體與樣本 - Populations and samples

 

在進一步的討論之前, 讓我們區分母體與樣本的不同:

 

假設一個集合包含了一個特定現象之所有可能的 (所有假設可能的) 觀察結果, 我們
稱這個集合是母體 (population). 假設另一集合只包含了一部分前述特定現象之所
有可能性, 我們稱這個集合是樣本 (sample). 

 

平均數 - The mean

 

最常見的中心位置量數是平均數 (mean), 也就是統計學者所稱的算術平均數 (arithmetic mean). 算術平均數的定義如下: 

 

n 個數的平均數是它們的總和除以 n. 

 

平均數是用於反映現象總體的一般水平, 或分佈的集中趨勢. 

 

Example: Given that the 89th through 93rd Congresses of the United States enacted 1283, 1002, 941, 768, and 295 measures (bills, Acts, or resolutions), find the mean. 
 

Solution: 

        1283 + 1002 + 941 + 768 + 295
mean = ______________________________________
                     5

     = 857.8

 

樣本的大小是指這個樣本集合的數量, 我們用 n 表示. 裡面的成員我們用 x1, x2, x3, ..., xn 表示, 因此樣本平均數 (sample mean) 表示如下: 

 

                         _
樣本平均數 (sample mean), x

_    x1 + x2 + ... + xn
x = ________________________ 
             n
     ∑ x
  = ______ 
      n

由上式可得
                _
∑ x 不能超過 n * x

 

Example: If the mean annual salary paid to the three top executives of a firm is $156000, can one of them receive an annual salary of 500000? 

 

Solution: 

since n = 3, and 
_
x = 156000, we get

∑ x = 3 * 156000 = 468000, 

and it's impossible for any of the executives to receive more than that. 

 

Example: If nine high school juniors averaged 41 on the verbal part of the PSAT/NMSQT test, at most how many of them can have scored 65 or more?

 

Solution: 

since n = 9, and 
_
x = 41, we get

∑ x = 9 * 41 = 369; 

and since 65 goes into 369 five times (369 = 5 * 65 + 44), it follows that 
at most five of nine high school juniors can have scored 65 or more. 

 

母體平均數 (population mean) 我們用 μ 表示, 母體大小我們用 N 表示. 裡面的成員我們用 x1, x2, x3, ..., xn 表示, 因此母體平均數表示如下: 

 

母體平均數 (population mean), μ

     x1 + x2 + ... + xN
μ = ________________________  
              N

     ∑ x
  = _______ 
      N

 

平均數基本特性: 

1. 對於任意一個可計算數字的集合平均數永遠存在. 

2. 這數字集合有一個平均數, 並且只有一個平均數. 這個平均數是為一的. 

3. 平均數考慮到這數字集合的每一個成員. 

4. 樣本各觀測值與樣本平均數之差的和為零, 即離均差之和等於零.

    n       _
    ∑ (xi - x) = 0
   i=1

5. 樣本各觀測值與樣本平均數之差的平方和為最小, 即離均差平方和為最小.

   常數 a ≠ x,

    n       _       n
    ∑ (xi - x )2 <  ∑  (xi - a)2   
   i=1             i=1

 

在實際應用上, 母體平均數可能很難得知其確切數值. 譬如我們可能想知道全國勞動人口平均可支配所得, 除非進行普查, 否則很難得知其確切數值. 通常我們以樣本平均數來估計母體平均數. 只要抽樣得當, 在大數法則下, 樣本平均數會接近母體平均數. 

 

然而少數時候樣本的集合裡包含了一個 (極少數) 非常小或者是非常大的數值, 這時是否把這一個 (極少數) 非常小或者是非常大的數值排除於樣本集合之外, 便成為很大的問號. 這些極端的數值可能單純是機率的因數, 更可能的原因是不適當的抽樣方式造成的. 

 

Example: 4個學生參加地質探勘夏令營, 他們的年齡分別是 18, 15, 17, 15, 地質探勘夏令營有一領隊帶領這 4個學生. 領隊的年齡是 65. 請找出這 5人年齡的平均數. 

 

Solution: 

_
x = (18 + 15 + 17 + 15 + 65) / 5 = 26. 

 

上述範例中, 如果我們只看平均數, 會以為參加地質探勘夏令營的人是一群大學已畢業的年輕人. 事實上, 他們是一群高中生. 平均數的缺點是容易受到極端值 (extreme value) 的影響. 為了避免受到極端值的誤導, 我們之後會討論到中位數 (median) 這個中心位置量數. 

 

 

加權平均數 - The weighted mean

 

當我們計算平均時, 如果我們忽略了這樣一個事實, 即參照所描述的現象, 數量並不是同樣重要, 那麼我們可能會犯一個嚴重的錯誤. 請考慮以下資訊, 它描述加州城市於 1980年自有住宅率: 

 

  Percent owner occupied

Los Angles 40.3
Sacramento 56.4
San Jose 62.1

 

這 3個城市自有住宅率的平均數是 (40.3 + 56.4 + 62.1) / 3 = 52.9. 但是我們不能說這 52.9是這 3個城市的平均自有住宅率, 為什麼? 因為這 3個城市的規模有著顯著的差異 (上數 3者, 數量並不是同樣重要) . 因此給予上述 3者適當的權重 (weights) 是必要的. 之後計算出來的平均數便是加權平均數 (weighted mean)

 

通常來說一個數字集合 x1, x2, x3, ..., x, 它們相對應的權重是 w1, w2, w3, ..., wn , 則        
                _
加權平均數 xw 表示如下: 

_     w1*x1 + w2*x2 + ... + wn*xn     ∑ w*x                
xw = __________________________________ = _________ 
         w1 + w2 + ... + wn            ∑ w 

 

Example: Given that there were 1135 thousand housing unit in Los Angles, 113 thousand in Sacramento, and 210 thousand in San Jose, use this figures and percentages in the text above to determinate the average owner occupancy rate for the three cities. 
 

Solution: 

  Percent owner occupied Housing unit

Los Angles 40.3 1135
Sacramento 56.4 113
San Jose 62.1 210

 

_     1135*40.3 + 113*56.4 + 210*62.1
xw = ________________________________________ 
            1135 + 113 + 210     

   = 44.7

 

上述這個加權平均數公式的特殊應用是總平均數 (grand mean). 假設 k 個集合的資料, 它們的平均數分別為
_   _    _        _                                                                                          
x1, x2, x3, ..., xk, 相對應 n1, n2, n3, ..., nk 個量測值或觀察值,
                =
則總平均數 x , 我們表示如下:                                            

 

         _        _                _
=    n1*x1 + n2*x2 + ... + nk*xk               
x = ____________________________
        n1 + n2 + ... + nk 
           _
     ∑ n * x
  = __________
       ∑ n

 

Example: In a psychology class there 9 freshmen, 14 sophomores, 22 juniors, and 5 seniors. If the freshmen averaged 68 in the final examination, the sophomores averaged 75, the juniors averaged 83, and the seniors averaged 81, what is the mean grade for the entire class? 

 

Solution: 

=    9 * 68 + 14 * 75 + 22 * 83 + 5 * 81               
x = _____________________________________
             9 + 14 + 22 + 5

  = 77.86

 

中位數 - The median

 

為了避免資料受非常小或者是非常大的數值影響, 我們有時使用其他的中心位置量數表示中心位置, 中位數就是其中之一. 為了取得中位數, 我們必須依據資料數字的大小排序, 它的定義如下: 

 

假設實驗或觀察的樣本個數是 n. 當 n是奇數時, 實驗或觀察樣本的中位數是它們的中間項; 
當 n是偶數時, 中位數是它們的中間倆項目的平均數. 

中位數的位置位於第 (n + 1) / 2 個項目. 

 

Example: In some areas persons cited for certain minor traffic violations can attend a class on defensive driving instead of paying a fine. If twelve such classes were attended by 40, 32, 37, 30, 24, 40, 38, 35, 40, 28, 32, and 37 persons, find the median attendance
 

Solution: 

Arranging these figures according to size, we get
  24  28  30  32  32  35  37  37  38  40  40  40

the median is (35 + 37) / 2 = 36. 

 

Example: Seven students taking a course in French literature and read 16, 10, 14, 13, 20, 11, and 17 of the books that were assigned. Find the median. 
 

Solution: 

Arranging these figures (數據) according to size, we get
  10  11  13  14  16  17  20

the median is 14. 

 

Example: The following are the numbers of passengers on 50 runs of a ferryboat: 61, 52, 65, 84, 35, 57, 58, 95, 82 ,64, 50, 53, 103, 40, 62, 77, 78, 66, 60, 41, 58, 92, 51, 65, 71, 75, 89, 37, 54, 67, 59, 79, 80, 73, 49, 71, 97, 62, 68, 53, 43, 80, 75, 70, 45, 91, 50, 64, 56, and 86. Construct a stem-and-leaf display with with one-digit leaves and use it to find the median. 


Solution: 

First constructing the stem-and-leaf display, we get



Since the median position is (50 + 1) / 2 = 25.5 and nineteen of the values 
fall on the first 3 stems, we must find the mean of the 6th and 7th values on 
the fourth steam. Arranging the leaves on the fourth stem according to size, 
we get 0, 1, 2, 2, 4, 4, 5, 5, 6, 7, and 8, so that the 6th and 7th leaves are 
5 and 5, and the median is (64 + 65) /2 = 64.5. 

 

其他分位數 - Other fractiles

 

分位數 (fractiles) 根據其將數列等分的形式不同可以分為中位數, 四分位數 (quartiles), 十分位數 (deciles), 百分位數 (percentiles) 等等. 四分位數作為分位數的一種形式, 在統計中有著十分重要的意義和作用. 我們經常會將數據劃分為 4個部分, 每一個部分大約包含有1/4即25%的數據項. 這種劃分的臨界點即為四分位數. 它們定義如下:

 

Q1 = 第1四分位數, 即第25百分位數;
Q2 = 第2四分位數, 即第50百分位數;
Q3 = 第3四分位數, 即第75百分位數. 

 

1. 超過Q1的值超過了它的三倍. 
2. 小於 Q1, 介於 Q1~Q2, 介於 Q2~Q3, 大於 Q3, 有同樣多筆數據. 
3. 半數的資料落於 Q1與 Q3之間.

 

假設集合 A的數目是 n; n ≧ 4. 則集合 A的四分位數 Q1, Q2, Q3 的位置分別為: 
Q1 位置 = 1 * (n + 1) / 4 
Q2 位置 = 2 * (n + 1) / 4 
Q3 位置 = 3 * (n + 1) / 4 

 

Example: 某車間某月份的工人生產某產品的數量分別為 72, 74, 75, 78, 79, 82, 85, 86, 90, 93, 94公斤, 則三個四分位數的位置分別為何? 

 

Solution: 

Q1 = 75公斤
Q2 = 82公斤
Q3 = 90公斤

 

Example: 某車間某月份的工人生產某產品的數量分別為 72, 74, 75, 77, 78, 79, 82, 85, 86, 90, 93, 94公斤,則三個四分位數的位置分別為何? 

 

Solution: 

Q1 位置 = 1 * (n + 1) / 4 = 3.25,             3~4之間
Q2 位置 = 2 * (n + 1) / 4 = 6.5,              6~7之間
Q3 位置 = 3 * (n + 1) / 4  = 9.75,            9~10之間

因此

Q1 = (75 + 77) / 2 = 76,
Q2 = (79 + 82) / 2 = 80.5,
Q3 = (86 + 90) / 2 = 88.

 

 

眾數 - The mode

 

我們要介紹的最後一個中心位置量數是眾數 (mode). 眾數是指一組數據中出現次數最多的那個數據. 

 

Example: A sample of the records of a motor vehicle bureau shows that 18 drivers in a certain age group received 3, 2, 0, 0, 2, 3, 3, 1, 0, 1, 0, 3,4,0,3,2,3, and 0 traffic tickets during the last 3 years. Find the mode. 

 

Solution: 

As can be seen, the number 4 occurs once, the number 1 occurs twice, the number 
two occurs three times, and the number 0 and 3 each occurs six times. So there 
are two modes 0 and 3. 

 

 

分組資料 - Grouped data

 

如同我們在頻率分佈那兒所討論的, 資料分組伴隨著部分資訊的遺失. 每一個項目在分組中失去它的特性; 我們只知道多少項目在每一個分組中; 因此我們必須滿足於近似值. 我們通常用一個分組的組中點 (class mark) 來代表該分組的平均值. 

 

假設有一個 k 個分組的頻率分佈, 每一分組的組中點 (class mark) 分別為 x1 , x2 , ..., xk , 其相對應的頻率是 f1 , f2 , ..., fk . 則這頻率分佈的總和大約是:                 

x1 * f1 + x2 * f2 + ... + xk * fk = ∑ (x * f)      

 

因此這頻率分佈的平均數表示如下: 

 

_    ∑ (x * f)     ∑ (x * f)
x = ___________ = ____________
         n            ∑ f

 

Example:  Calculate the mean of a distribution of the following amounts of sulfur oxides (in tons) emitted by an industrial plant on 80 days: 

Tons of sulfur oxides Tally Frequency

5.0 - 8.9 3
9.0 - 12.9

10
13.0 - 16.9 14
17.0 - 20.9 25
21.0 - 24.9 17
25.0 - 28.9 9
29.0 - 32.9 2

Total 80

 

 

Solution: 

class mark
x
Frequency
f
x * f

6.95 3 20.85
10.95 10 109.50
14.95 14 209.30
18.95 25 473.75
22.95 17 390.15
26.95 9 242.55
30.95 2 61.90

  80 1508.00

 

 

_    1508.00
x = _________ = 18.85
       80

我們依據頻率分佈那兒所討論的範例與本範例來校驗分組誤差. 未分組資料的平均數是 18.896, 
分組資料的平均數是 18.85. 誤差只有 0.046, 可以說是非常小. 

 

Example:  If we do not have a calculator with a memory so that we can accumulate products to determine ∑ x * f , the calculation of the mean of a distribution can usually be simplified by replacing the class mark with consecutive integers. This process is referred to as coding; when the class intervals are all equal, and only then, we assign the value 0 to a class mark near the middle of the distribution and code the class marks ... -3, -2, -1, 0, 1, 2, .... Denoting the coded class marks by letter u, we then use th formula 

_          ∑ u * f
x = x0 *  _________ * c
              n

where x0 is the class mark in the original scale to which we assign 0 in the new scale, c is the class interval, n is the sum of the products obtained by multiplying each frequency. the results should always be idenyical with the one obtained without coding. Use the coding to rework the proceeding example. 

 

Solution: 

new class mark
u
Frequency
f
u * f

-3 3 -9
-2 10 -20
-1 14 -14
0 25 0
1 17 17
2 9 18
3 2 6

  80 -2

 

x, we choose 18.95.  
∑ u * f = -2
n = 80
c = 4

_               -2
x = 18.95 + ____ * 4 = 18.85.
             80

 

Example:  Find the median of the distribution of the sulfur oxides emission data. 

 

Solution: 

n/2= 40. Starting at the bottom of the distribution, we find that 3+10+14=27 
of the values fall into the first three classes, and that 3+10+14+25=52 of the 
values fall into the four classes. Therefore, we must count 40-27=13 values 
beyond the 27 which fall into the first three classes, and on assumption that 
the 25 values in the fourth class are spresd evenly throughout that class, we 
can do this by adding 13/25 of class interval of 4 to 16.95, the lower boundary 
of the fourth class. 

~
x = 16.95 + 13/25 * 4 = 19.03

for the median of the distribution. 

 

Example:  Use this alternate approach to find the median of the distribution of the sulfur oxides emission data. 

 

Solution: 

Since 2+9+17=28 of the values fall above 20.95, we need 40-28=12 of the 25 
values which fall into the next class to reach the median, and we write

~
x = 20.95 - 12/25 * 4 = 19.03

This result is, of course, the same. 

如上圖中位數在分組資料上的直方圖意義在於, 在中位數左方直方圖的面積, 等於
在中位數右方直方圖的面積, 等於全部直方圖面積的一半. 

 

 

假設有一個 k 個分組的頻率分佈, 每個分組組距均相同, 每一分組的的頻率分別為 f1 , f2 , ..., fk , 並且中位數落於第 j 個分組, L, U 是這個分組的組下限與組上限, n 是這個頻率分佈的頻率總和, c 是分組組距, 則中位數計算如下: 

 

~        (n / 2) - (f1 + f2 + ... + fj-1) 
x = L + _______________________________________ * c
                      fj

 

~        (n / 2) - (fj+1 + ... + fk)  
x = U - __________________________________ * c
                     fj 

 

我們也可以應用上述的方法在其他分位數上. 

 

四分位數: Q1, Q2, Q3
十分位數: D1, D2, D3, D4, D5, D6, D7, D8, D9
百分位數: P1, P2, ...P99

 

Example:  Find the Q1 and Q3 for the distribution of the sulfur oxides emission data. 

 

Solution: 

To find Q1, we must count 80/4=20 of the items starting at the bottom of the 
distribution. Since there are 3+10=13 values in the first two classes, we must 
count 20-13=7 of the 14 values in the third class to reach Q1, and we get

Q1 = 12.95 + 7/14 * 4 = 14.95. 

To find Q3, we must count 20 of the items starting at the other end of the 
distribution. Since there are 2+9=11 of the values fall into the two classes at 
the top of the distribution, we must count 20-11=9 of the 17 values in the next 
class to reach Q3, and we get

Q1 = 24.95 - 9/17 *4 = 22.83.

 

Example:  Find the D8 and P2 for the distribution of the sulfur oxides emission data. 

 

Solution: 

Counting 80*0.20=16 of the items starting with the largest values, we get

D8 = 24.95 - 5/17 * 4 = 23.77.

Counting 80*0.02=1.6 of the items starting with the largest values, we get

P2 = 4.95 + 1.6/3 * 4 = 7.08.

 

 

 

 

 

z.png
Email: jasonc@mail2000.com.tw . 請尊重原創, 使用圖文時載明出處. 謝謝. 

 

(Finished)


 

 

 

 

 

 

 

 

 

arrow
arrow
    全站熱搜
    創作者介紹
    創作者 Lexra 的頭像
    Lexra

    Lexra Pixnet

    Lexra 發表在 痞客邦 留言(0) 人氣()