某廠商委託民調機構在甲、乙兩地調查聽過某項產品的居民佔當地居民之百分比 (以下簡稱為「知名度」)。結果如下:在 95% 信心水準之下,該產品在甲、乙兩地的知名度之信賴區間分別為 [ 0.50 , 0.58 ] 、 [ 0.08 , 0.16 ] 。試問下列哪些選項是正確的?
(1) 甲地本次的參訪者中, 54% 的人聽過該產品
(2) 此次民調在乙地的參訪人數少於在甲地的參訪人數
(3) 此次調查結果可解讀為:甲地全體居民中有一半以上的人聽過該產品的機率大於 95%
(4) 若在乙地以同樣方式進行多次民調,所得知名度有 95% 的機會落在區間 [ 0.08 , 0.16 ]
(5) 經密集廣告宣傳後,在乙地再次進行民調,並增加參訪人數達原人數的四倍,則在 95% 信心水準之下該產品的知名度之信賴區間寬度會減半 (即 0.04 )

==============================

這是今年大學學測數學科多選題第 9 題
考的是「信賴區間」這個新編入高中教材的觀念
雖然它出現在今年的考試題目中 這是大家預料中的事 而且相信一定會出現
可是這題的難度 可說是遠遠超出大家的預期 - 太難啦!!
我自己只對一個選項... 而且還搞不清楚自己是錯在哪裡...
今天趁著蔡蓉青老師 (我大學時的統計學老師) 難得七點多還在研究室 趕快去問個清楚
下面是我今天跟老師討論後的一些結論


選項(1) 「甲地本次的參訪者中,54% 的人聽過該產品」

首先 考題有提供 95% 信心水準下之信賴區間的公式:
其中的 \hat{p} 是「這次調查」所得的知名度, n 是「這次調查」所調查的人數

為什麼要強調「這次調查」這四個字呢?
首先 我們不可能去問全部的人你知不知道這個東西 這樣費時又費力
因此 我們利用抽樣調查的方式 從全部的人中挑一部分的人出來接受調查
所以挑出來的人數 就是這裡的 n 即「這次調查」所調查的人數 而不是全部
在詢問過這 n 個人之後 我們可以計算出這 n 個人有聽過這個產品的比例 \hat{p}
但注意到 \hat{p} 是這 n 個人有聽過這個產品的比例 並不是所有人
很明顯的 「只問 n 個人所得到的比例」 幾乎不會跟 「問所有人所得到的比例」 一樣
因此 我在這裡強調 \hat{p} 是「這次調查」所得的知名度 並非是真正的狀況

這個問題問的就是 在甲地這 n 個人中有聽過該產品的比例 也就是 \hat{p}
因此從公式可以知道 \hat{p} = 0.50 和 0.58 的中間值 = 0.54
故這個選項是正確的

這麼簡單的題目 我是錯在哪裡呢?
我錯在我眼殘 沒有看到「本次的參訪者」這五個字
所以我以為題目是問 甲地「所有人」聽過這個產品的比例
如果是所有人的話 答案就是不知道 除非你把所有人都叫來問過才會知道


選項(2) 「此次民調在乙地的參訪人數少於在甲地的參訪人數」

簡單講 就是把兩地的 n 求出來比大小就是了

不過可以不用這麼麻煩 因為兩地信賴區間的寬度一樣 都是 0.08
也就是說兩者根號內部的值一樣 即 (0.54)(0.46) / 甲地人數 = (0.12)(0.88) / 乙地人數
稍微計算一下就可以知道 甲地人數是比較多的

那我是錯在哪裡?
我錯在有一個印象是 「當人數越多時 信賴區間會越窄」
因此我看到兩者的信賴區間是一樣的時候 很自然的以為兩者的人數一樣
「當人數越多時 信賴區間會越窄」這句話沒錯 錯是錯在這指的是對同一個調查而言
甲地和乙地的知名度是兩個完全不同的東西 怎麼可以用上面的理由來套


選項(3) 「此次調查結果可解讀為:甲地全體居民中有一半以上的人聽過該產品的機率大於 95%」

這個選項是錯的!
錯在哪裡? 錯在「甲地全體居民中有一半以上的人聽過該產品的『機率』」 錯在『機率』這個詞

在和老師討論的過程中 我用了三個階段來理解這個錯誤

第一個階段 我是用下面這個例子來理解的
「在還沒有擲骰子前 擲出 5 點的機率為 1/6;
 但擲了骰子之後 就沒有機率可言 因為不是 100% (出現 5 點) 就是 0% (出現其他點)」
差別在於 前者是「臆測」 後者是「事實」
就很像我們在算期望值一樣 算出來大樂透的期望值是 28 塊多
但實際上會拿到的 不是「高額獎金」 就是「一毛都沒有」
「28 元」只是個臆測

同樣的 甲地的人
如果不是 「超過一半的人聽過該產品 (100%)」 就是 「少於一半的人聽過該產品 (0%)」
這是一個「事實」
只是我們不可能真的把甲地的人通通找來問 因此我們無法得知這個「事實」到底是 100% 還是 0%

第二個階段 我是用 「隨機變數」 這個統計學上的名詞來理解的
一樣用擲骰子的例子來解釋這個名詞
在還沒有擲骰子之前 對於等一下可能會擲出的數字 可以看成是一個變數 X
也就是說 X 可能是 1, 2, 3, 4, 5, 6
我們無法預測 X 會是多少 所以把 X 稱為「隨機變數」
但我們知道 這六個數字出現的機率都是 1/6 因此就會出現這個隨機變數的「機率分佈」

再舉個例子 例如我從全臺灣 18 歲男生中挑一個男生出來 他的身高為 X
則這個 X 也是一個隨機變數 (因為 X 可能的值太多了)
而我們把每一個可能身高的機率找出來 也就形成身高的機率分佈
我們常說的「常態分佈」指的就是某個隨機變數 X 的一種機率分佈
其他常見的還有 uniform, Poison... 等等

但是 一但我真的把骰子給骰出去 骰出 5 點, X 就等於 5, 骰出 3 點, X 就等於 3
他不再是一個變動的數 - 你總不能睜眼看著擲出的 5 點說 你剛剛擲出的點數有可能是 3 點喔
一樣地 當我真的抓一個男生出來 量出他的身高是 180 公分 那我們上面所假設的 X 就是 180
這個 X 就不再是「隨機變數」 而是一個「常數」
既然 X 不是「隨機變數」 當然就不會有「機率分佈」
因此我們不會去討論 X 的機率 因為根本沒有機率可以討論

同樣的 「甲地居民知道這個東西的比例」是一個「常數」
有 60% 的人知道這個東西 那我們的 X 就是 60%
只有 10% 的人知道 X 就是 10% 這是不會變的
既然是一個常數 當然就沒有機率分佈 也就不能去討論知道比例超過 50% 的機率為何

第三個階段 這是跟老師另外扯到的 所是所謂的「信心」
印象中 在看大考中心給的釋疑中 他說如果把原敘述改成
「甲地全體居民中有一半以上的人聽過該產品的『信心』為 95%」 這就對了

什麼是「信心」啊????

我用比較白話的方式來說
所謂的「95% 信心水準下之信賴區間」
意思是 當我用同樣的抽樣方式 對甲地的居民 做同樣的調查
每一次的調查 我都會得到一個屬於那次的知名度 \hat{p} 然後計算出一個這次的信賴區間
因為是隨機抽樣 所以每次得到的知名度應該不太可能會相同 因此每個信賴區間也都不太一樣
但我們可以確信
「大約有 95% 的信賴區間會包含真正的知名度 p」
也就是說 如果我做了 100 次這樣的調查 可能有些會涵蓋到真正的值 可能有些會偏掉
但是有涵蓋到真正知名度的信賴區間個數 他的期望值是 95 個
(我自己的解釋是 這樣做所得到的信賴區間 會有 95% 的機率涵蓋到真正的知名度)
(但老師用的詞很精準 因此有點害怕沒把意思寫完整 所以上面寫起來一整個給他有點囉唆 ^^|||)

不過 就如同第二個階段所講的 上面這些過程都是在還沒有去做調查之前所可以討論的
一但真的做了調查 真的把信賴區間「算」出來 例如這一題的 [ 0.50 , 0.58 ]
那真正的知名度 p 不是落在 0.50 與 0.58 之間 就是根本不在這個區間內
又是一個 100% 與 0% 的關係 所以根本沒有機率可言

但是 我們所找出來的 [ 0.50 , 0.58 ] 是用上面的想法所找出來的
因此 他會給我們一種「感覺」 就是真正知名度 p 會在這裡面的可能性很高
我對他的「信心」有 95% 之高

這樣講有點玄 如果是這樣說應該就會比較有感覺
如果現在你手上有兩個信賴區間
一個是 90% 信心水準下之信賴區間 一個是 95% 信心水準下之信賴區間
雖然可能兩者都包含到真正知名度 p 也可能只有一個 或更慘兩個都沒有包含到
但當你要從中選一個跟你的客戶講說這個商品在甲地的知名度時
95% 給你的「信心」會比 90 % 的還要多 因為你相信 95% 出錯的機會是比較小的
(雖然有可能他是剛好那 100 個中不包含 p 的那 5 個)

當然啦 不是因為他叫「95% 信心水準下之信賴區間」所以我們才說他的信心是 95%
正確的狀況是應該要反過來 因為有 95% 的信心他會包含正確值 所以才叫這個名稱
不過為什麼有 95% 的信心 這就要扯到很多其他的東西
這些我學過 但不是很熟 而且要扯很久 所以就用上面的方式來解釋吧 ^^


選項(4) 「若在乙地以同樣方式進行多次民調,所得知名度有 95% 的機會落在區間 [ 0.08 , 0.16 ]」

因為這個選項是我唯一答對的 也因此沒有問老師
然後呢 我現在仔細的讀了他的敘述
我反而有點說不出他是錯在哪裡 因為跟我原本認為的東西不太一樣
這個如果有機會問過老師 再來跟大家分享


選項(5) 「經密集廣告宣傳後,在乙地再次進行民調,並增加參訪人數達原人數的四倍,則在 95% 信心水準之下該產品的知名度之信賴區間寬度會減半 (即 0.04 )」

這個選項是錯誤的 而我直接講我是錯在哪裡好了
從公式來看 當人數增加為原本的四倍時 區間看起來好像真的會變成原本的 根號四分之一 也就是一半
但我忘了 上面的 \hat{p} 也會跟著變動
即使他沒有經過密集的廣告 每次民調所得到的結果 (\hat{p}) 也幾乎是不可能一樣
因此 每次所得到的信賴區間大小也幾乎都是不一樣的
但可以肯定的是 如果想要縮小信賴區間的大小 人數增加絕對是一個考慮的方向


簡言之
一個很重要的地方 就是「隨機變數」的觀念
或甚至應該這樣說
「機率論」「統計」(當然包括「信賴區間」)都是建立在「隨機變數」的概念上
但就現今的教材 二下先講了機率 統計(包含信賴區間) 三上才提隨機變數
當然 我們可以這樣說 在二下可以先用很直觀的方式來看機率與統計
(實際上 課本也是這樣編的)
如果這是編課綱的委員原本的期望 那像第三與第四個選項就不應該出現在學測
此外 第一次出現有關「信賴區間」的考題就把大家搞得團團轉
很擔心這個很生活化的觀念 對學生學起來卻變得很沉重
第一次就這麼恐怖了 那之後像指考或往後的考試 會不會更難?
能弄清楚還好 弄不請楚就只能開始咬文嚼字
如果題目這樣說 那就是「機率」的意思 如果這樣說就不是「機率」而是「信心」...
或甚至開始抄大學教科書或研究所考題來唸
那就真的可惜了這原本應該是很有趣的東西了


P.S. 因為統計真的不是我拿手的東西
所以如果您有發現上面所說的東西有錯誤 麻煩請一定要跟我說 我會盡快的做更正
以免錯誤的東西藉由網路到處傳遞 那就尷尬了
感謝

昌小澤 發表在 痞客邦 PIXNET 留言(7) 人氣()


留言列表 (7)

發表留言
  • suki
  • 謝謝你唷~~<br />
    真的分析很細唷~~<br />
    討論與答辯一下~~我會更了解的~~~呵呵
  • 看完上面的文章,果然有蔡老師的風格<br />
    以前我在嘗試瞭解信賴區間的時候<br />
    蔡老師也是提到相同的概念<br />
    <br />
    這五個選項,我覺得第三個選項最有混淆學生的效果<br />
    信賴區間的公式,裡面的p^本身也是隨機變數,有自己的分佈<br />
    所以信賴區間公式本身也可被視為是隨機變數的函數<br />
    <br />
    就像你說的,當民調結果出來p^就是個常數,利用此常數計算此次信賴區間是<br />
    被視為固定區間,至於母體的P到底有沒落在此次信賴區間之內,只有兩種情況<br />
    不是落在區間內,要不就沒有。100%或0%<br />
    <br />
    學生必須要很清楚瞭解「在95%的信心水準下,有多少百分比的正負誤差」這句話<br />
    才能瞭解第三個選項是不能選的<br />
    <br />
    我自己的解讀是<br />
    未調查前的信賴區間的公式是有隨機的意義<br />
    而調查後,經計算得到的信賴區間,是固定不變的一個區間<br />
    在相同的方式,重複多次調查,所得的眾多信賴區間中,約有95%的區間會包含母體P<br />
    所以單一的信賴區間是否能夠包含到母體的P,誰也不能確定,不是有包含,要不就是沒有。<br />
    所以選項三的解讀,並非是「在95%的信心水準下,有多少百分比的正負誤差」的正確解讀
  • 感謝你的分享

    不過不用說學生會混淆 就我自己所聽到的

    不少沒有統計背景 或大學沒有修過統計的老師 在教這邊時就教錯了



    就考試的角度來說 只能說大家都沒有想到會考到這麼難 以為頂多就是公式代一代就好

    但從信賴區間的角度來說 這確是很重要的關鍵 與 觀念

    所以對應到教學 這要怎麼在快要期末考前把這些東西給講清楚 真的是一個很困難的事

    昌小澤 於 2009/04/20 16:44 回覆

  • jimmybow
  • (我自己的解釋是 這樣做所得到的信賴區間 會有 95% 的機率涵蓋到真正的知名度)
    (但老師用的詞很精準 因此有點害怕沒把意思寫完整 所以上面寫起來一整個給他有點囉唆 ^^|||)

    ====>這樣說的確有點不嚴謹,若真的要用機率來解釋的話,應該要說:「這樣多次調查所得到的信賴區間之中,其中的一個信賴區間會涵蓋到真正知名度的''機率''為95%」


    選項(4) 「若在乙地以同樣方式進行多次民調,所得知名度有 95% 的機會落在區間 [ 0.08 , 0.16 ]」

    ====>錯的原因是,我們並不能確定這次調查的信賴區間 [ 0.08 , 0.16 ]的知名度0.12是真正的知名度(事實上根本不可能那麼剛好...),只有在真正的知名度是0.12的時候,才有可能成立。

    為什麼只有在真正的知名度是0.12的時候,才有可能成立呢?

    因為95%的信心水準可以用兩種方式解釋:

    (1)多次調查所得到的信賴區間,大概有95%個會包含到真正的知名度
    (2)多次調查所得到的知名度,大概有95%個會在真正的知名度的信賴區間裡

    (1)和(2)其實是在講同樣的東西QQ,題目要考的觀念就只是這個。
  • 感謝你的補充 或者應該這麼說 終於讓我等到有人補充了 好開心
    但有一個地方我不是很懂 就是在倒數第二行
    "真正的知名度的信賴區間"
    如果有真正的知名度 那怎麼還會有信賴區間呢?
    如果真的有 那這個信賴區間的意義是什麼呢?

    昌小澤 於 2009/10/14 10:09 回覆

  • jimmybow
  • 至於第三個選項,舉一個簡單的例子大家就能夠非常了解了,我覺得其實只是一種文字騙術.....

    -----------------------------------------------------------------------------------
    從前從前,小明遇到了一位瞎子,小明就問他,天空是什麼顏色的阿?
    瞎子心理不知,因為他從沒看過天空,也不知藍色是否啥= =...
    於是他跑去問路人..天空是不是藍色的?

    路人甲:是的..
    路人乙:是阿..
    路人丙:不是...(哈哈..騙你的勒...)
    路人丁:是啦...

    於是他回去告訴小明:

    「天空是藍色的機率有75%」......
    ----------------------------------------------------------------------------
    其實瞎子想要表達的是:「我有75%的信心說天空是藍色的」0.0

    而''機率''是用來對一個未知的變數的預測值,不能使用在固定的事實上^^
  • 當了兵 腦袋瓜好像真的會變頓 看了好多遍才大概知道你想表達的是什麼
    這是個有趣的例子 但有個地方我覺得怪怪的 讓我想想...

    昌小澤 於 2009/10/14 10:13 回覆

  • 仲瑜
  • 學長我來報到了

    跟著進來看熱鬧的!!學到了很多
    馬上就要上這個單元了(抖~~~~)
    希望不會釘在講台上
  • 呵呵 好久不見啦
    前幾個禮拜去附中考試才遇到冠達哩
    什麼時候有空 來辦個家聚吧 XD

    昌小澤 於 2010/06/04 23:54 回覆

  • 汪洋
  • 朝聖推~~我又來複習信賴區間的東西了>"<
  • 阿詹
  • 從汪哥那裏連過來朝聖 XD
【 X 關閉 】

【PIXNET 痞客邦】國外旅遊調查
您是我們挑選到的讀者!

填完問卷將有機會獲得心動好禮哦(注意:關閉此視窗將不再出現)

立即填寫取消