欧美三区四区_av先锋影音资源站_亚洲第一论坛sis_影音先锋2020色资源网_亚洲精品社区_在线免费观看av网站_国产一区二区伦理_亚洲欧美视频一区二区_99视频精品全部免费在线_精精国产xxxx视频在线

用 PHP 使 Web 數據分析進入更高境界_PHP教程

編輯Tag賺U幣
教程Tag:暫無Tag,歡迎添加,賺取U幣!

推薦:vim下高亮顯示php代碼
vim是一款跨平臺編輯器,可以在linux下使用,也可以在windows下使用官方網站www.vim.org 高亮顯示php代碼 進入vim后,在普通模式下輸入如下命令,開啟php代碼高亮顯示 :syntax enable :

設計您的數據分析,做比簡單原始計數更多的事。

對 Web 數據進行有效和多層次的分析是許多面向 Web 企業能夠生存的關鍵因素,數據分析檢驗的設計(和決策)通常是系統管理員和內部應用程序設計人員的工作,而他們可能除了能夠把原始計數制成表格之外,對統計學沒有更多的了解。在本文中,Paul Meagher 向 Web 開發人員傳授了將推論統計學應用到 Web 數據流所需的技能和概念。

動態網站不斷生成大量的數據 — 訪問日志、民意測驗和調查結果、客戶概要信息、訂單及其它,Web 開發人員的工作不僅是創建生成這些數據的應用程序,而且還要開發使這些數據流有意義的應用程序和方法。

通常,對于由管理站點所產生的不斷增長的數據分析需求,Web 開發人員的應對是不夠的。一般而言,除了報告各種描述性統計信息之外,Web 開發人員并沒有其它更好的方法來反映數據流特征。有許多推論統計步驟(根據樣本數據估計總體參數的方法)可以被充分利用,但目前卻沒有應用它們。

例如,Web 訪問統計信息(按當前所編輯的)只不過是以各種方式進行分組的頻率計數。以原始計數和百分比表示民意測驗和調查結果的情況比比皆是。

開發人員用比較淺顯的方法處理數據流的統計分析或許已經足夠了,我們不應期望太多。畢竟,有從事較復雜的數據流分析的專業人士;他們是統計師和受過訓練的分析師。當組織需要的不僅僅是描述性統計時,可以請他們加入。

但另一種應對是承認對推論統計學日益加深的了解正成為 Web 開發人員工作描述的一部分。動態站點正在生成越來越多的數據,事實表明,設法將這些數據變成有用的知識正是 Web 開發人員和系統管理員的責任。

我提倡采取后一種應對;本文旨在幫助 Web 開發人員和系統管理員學習(或重溫,如果知識已遺忘的話)將推論統計學應用到 Web 數據流所需的設計和分析技能。

使 Web 數據與實驗設計相關

將推論統計學應用到 Web 數據流需要的不僅僅是學習作為各種統計檢驗基礎的數學知識。將數據收集過程與實驗設計中的關鍵差別關聯起來的能力同樣很重要:測量尺度是什么?樣本的代表性如何?總體是什么?正在檢驗的假設是什么?

要將推論統計學應用到 Web 數據流,需要先把結果看作是由實驗設計生成的;然后選擇適用于該實驗設計的分析過程。即使您可能認為將 Web 民意測驗和訪問日志數據看作實驗的結果是多此一舉,但這樣做確實很重要。為什么?

1、這將幫助您選擇適當的統計檢驗方法。

2、這將幫助您從收集的數據中得出適當的結論。

在確定要使用哪些適當的統計檢驗時,實驗設計的一個重要方面是選擇數據收集的衡量尺度。

衡量標準的示例

測量尺度只是指定了一個對所感興趣的現象分配符號、字母或數字的步驟。例如,千克尺度允許您給一個物體分配數字,根據測量儀器的標準化的偏移量指示該物體的重量。

有四種重要的衡量標準:

定比尺度(ratio)— 千克尺度是定比尺度的一個示例 ? 分配給物體屬性的符號具有數字意義。您可以對這些符號執行各種運算(如計算比率),而對于通過使用功能不那么強大的衡量標準獲得的數值,您不能使用這些運算。

定距尺度(interval)— 在定距尺度中,任意兩個相鄰測量單位之間的距離(也稱為間距)是相等的,但零點是任意的。定距尺度的示例包括對經度和潮汐高度的度量,以及不同年份始末的度量。定距尺度的值可以加減,但乘除則沒有意義。

定序尺度(rank)— 定序尺度可應用于一組有順序的數據,有順序指的是屬于該尺度的值和觀察值可以按順序排列或附帶有評級尺度。常見的示例包括“好惡”民意測驗,其中將數字分配給各個屬性(從 1 = 非常厭惡到 5 = 非常喜歡)。通常,一組有序數據的類別有自然的順序,但尺度上相鄰點之間的差距不必總是相同的。對于有順序的數據,您可以計數和排序,但不能測量。

定類尺度(nominal)— 衡量標準的定類尺度是衡量標準中最弱的一種形式,主要指將項目分配給組或類別。這種測量不帶數量信息,并且不表示對項目進行排序。對定類尺度數據執行的主要數值運算是每一類別中項目的頻率計數。

下表對比了每種衡量標準的特征:

衡量標準尺度 屬性具有絕對的數字含義嗎? 能執行大多數數學運算嗎?

定比尺度 是。 是。

定距尺度 對于定距尺度是這樣;零點是任意的。 加和減。

定序尺度 不是。 計數和排序。

定類尺度 不是。 只能計數。

在本文中,我將主要討論通過使用測量的定類尺度收集的數據,以及適用于定類數據的推論技術。

使用定類尺度

幾乎所有 Web 用戶 — 設計人員、客戶和系統管理員 — 都熟悉定類尺度。Web 民意測驗和訪問日志類似,因為它們常常使用定類尺度作為衡量標準。在 Web 民意測驗中,用戶常常通過請求人們選擇回答選項(如“您偏愛品牌 A、品牌 B,還是品牌 C?”)來衡量人們的偏好。通過對各類回答的頻率進行計數來匯總數據。

類似的,測量網站流量的常用方法是對一個星期內一天之中的每次點擊或訪問都劃分給這一天,然后對每一天出現的點擊或訪問的數目計數。另外,您可以(也確實可以)通過瀏覽器類型、操作系統類型和訪問者所在的國家或地區 — 以及任何您想得到的分類尺度 — 對點擊計數。

因為 Web 民意測驗和訪問統計信息都需要對數據歸入某一特定性質類別的次數進行計數,所以可以用相似的無參數統計檢驗(允許您根據分布形狀而不是總體參數作出推論的檢驗)來分析它們。

David Sheskin 在他的 Handbook of Parametric and Non-Parametric Statistical Procedures 一書(第 19 頁, 1997)中,是這樣區分參數檢驗和非參數檢驗的:

本書中將過程分類為參數檢驗和非參數檢驗所使用的區別主要基于被分析數據所代表的測量級別。作為通用規則,評估類別/定類尺度數據和順序/等級-順序數據的推論統計檢驗被歸類為非參數檢驗,而那些評估定距尺度數據或定比尺度數據的檢驗則被歸類為參數檢驗。

當作為參數檢驗基礎的某些假設值得懷疑時,非參數檢驗也很有用;當不滿足參數假設時,非參數檢驗在檢測總體差異時有很大的作用。對于 Web 民意測驗的示例,我使用了非參數分析過程,因為 Web 民意測驗通常使用定類尺度來記錄投票者的偏好。

我并不是在建議 Web 民意測驗和 Web 訪問統計信息應該始終使用定類尺度衡量標準,或者說非參數統計檢驗是唯一可用于分析這類數據的方法。不難設想有(譬如)這樣的民意測驗和調查,它們要求用戶對每個選項提供數值評分(從 1 到 100),對此,參數性的統計檢驗就比較合適。

盡管如此,許多 Web 數據流包括編輯類別計數數據,而且通過定義定距尺度(譬如從 17 到 21)并將每個數據點分配給一個定距尺度(如“年輕人”),可以將這些數據(通過使用功能更強大的衡量標準測量)變成定類尺度數據。頻率數據的普遍存在(已經是 Web 開發人員經驗的一部分),使得專注于非參數統計學成為學習如何將推論技術應用到數據流的良好起點。

為了使本文保持合理的篇幅,我將把對 Web 數據流分析的討論局限于 Web 民意測驗。但是請記住,許多 Web 數據流都可以用定類計數數據表示,而我討論的推論技術將使您能做比報告簡單的計數數據更多的事情。

從抽樣開始

假設您在您的站點 www.NovaScotiaBeerDrinkers.com 上進行每周一次的民意測驗,詢問成員對各種主題的意見。您已經創建了一個民意測驗,詢問成員喜愛的啤酒品牌(在加拿大新斯科舍省(Nova Scotia)有三種知名的啤酒品牌:Keiths、Olands 和 Schooner)。為了使調查盡可能范圍廣泛,您在回答中包括“其它”。

您收到 1,000 條回答,請觀察到表 1 中的結果。(本文顯示的結果只作為演示之用,并不基于任何實際調查。)

表 1. 啤酒民意測驗Keiths Olands Schooner 其它

285(28.50%) 250(25.00%) 215(21.50%) 250(25.00%)

這些數據看上去支持這樣的結論:Keiths 是最受新斯科舍省居民歡迎的品牌。根據這些數字,您能得出這一結論嗎?換句話說,您能根據從樣本獲得的結果對新斯科舍省的啤酒消費者總體作出推論嗎?

許多與樣本收集方式有關的因素會使相對受歡迎程度的推論不正確。可能樣本中包含了過多 Keiths 釀酒廠的雇員;可能您沒有完全預防一個人投多次票的情況,而這個人可能使結果出現偏差;或許被挑選出來投票的人與沒有被挑選出來投票的人不同;或許上網的投票人與不上網的投票人不同。

大多數 Web 民意測驗都存在這些解釋上的困難。當您試圖從樣本統計數據得出有關總體參數的結論時,就會出現這些解釋上的困難。從實驗設計觀點看,在收集數據之前首先要問的一個問題是:能否采取步驟幫助確保樣本能夠代表所研究的總體。

如果對所研究的總體得出結論是您做 Web 民意測驗的動機(而不是為站點訪問者提供的消遣),那么您應該實現一些技術,以確保一人一票(所以,他們必須用唯一的標識登錄才能投票),并確保隨機選擇投票者樣本(例如,隨機選擇成員的子集,然后給他們發電子郵件,鼓勵他們投票)。

最終,目標是消除(至少減少)各種偏差,它們可能會削弱對所研究總體得出結論的能力。

檢驗假設

假設新斯科舍省啤酒消費者統計樣本沒有發生偏差,您現在能夠得出 Keiths 是最受歡迎品牌這一結論嗎?

要回答這個問題,請考慮一個相關的問題:如果您要獲得另一個新斯科舍省啤酒消費者的樣本,您希望看到完全相同的結果嗎?實際上,您會希望不同樣本中所觀察到的結果有一定的變化。

考慮這個預期的抽樣可變性,您可能懷疑通過隨機抽樣可變性是否比反映所研究總體中的實際差異能更好地說明觀察到的品牌偏好。在統計學術語中,這個抽樣可變性說明被稱為虛假設(null hypothesis)。(虛假設由符號 Ho 表示)在本例中,用公式將它表示成這樣的語句:在作出回答的所有類別中,各種回答的期望數目相同。

Ho:# Keiths = # Olands = # Schooner = # Other

如果您能夠排除虛假設,那么您在回答 Keiths 是否是最受歡迎品牌這個最初的問題上取得了一些進展。那么,另一個可接受的假設是在所研究的總體中,各種回答所占比例不同。

這個“先檢驗虛假設”邏輯在民意測驗數據分析中的多個階段都適用。排除這一虛假設,這樣數據就不會完全不同,隨后您可以繼續檢驗一個更具體的虛假設,即 Keiths 和 Schooner,或者 Keiths 與其它所有品牌之間沒有差別。

您繼續檢驗虛假設而不是直接評估另一假設,是因為對于在虛假設條件下人們希望觀察到的事物進行統計建模更容易。接下來,我將演示如何對在虛假設下所期望的事物建模,這樣我就可以將觀察結果與在虛假設條件下所期望的結果加以比較。

對虛假設建模:X 平方分布統計

到目前為止,您已經使用一個報告每種回答選項頻率計數(和百分比)的表匯總了 Web 民意測驗的結果。要檢驗虛假設(表單元頻率之間不存在差別),計算每個表單元與您在虛假設條件下所期望值的總體偏差度量要容易得多。

在這個啤酒歡迎度民意測驗的示例中,在虛假設條件下的期望頻率如下:

期望頻率 = 觀察數目 / 回答選項的數目

期望頻率 = 1000 / 4

期望頻率 = 250

要計算每個單元中回答的內容與期望頻率相差多少的總體度量,您可以將所有的差別總計到一個反映觀察頻率與期望頻率相差多少的總體度量中:(285 - 250) (250 - 250) (215 - 250) (250 - 250)。

如果您這么做,您會發現期望頻率是 0,因為平均值的偏差的和永遠是 0。要解決這個問題,應當取所有差值的平方(這就是X 平方分布(Chi Square)中平方的由來)。最后,為了使各樣本(這些樣本具有不同的觀察數)的這個值具有可比性(換句話說,使它標準化),將該值除以期望頻率。因此,X 平方分布統計的公式如下所示(“O”表示“觀察頻率”,“E”等于“期望頻率”):

圖 1. X 平方分布統計的公式

如果計算啤酒歡迎度民意測驗數據的 X 平方分布統計,會得到值 9.80。要檢驗虛假設,需要知道在假設存在隨機抽樣可變性的情況下獲得這么一個極限值的概率。要得出這一概率,需要理解 X 平方分布的抽樣分布是什么樣的。

觀察 X 平方分布的抽樣分布

圖 2. X 平方分布圖

在每幅圖中,橫軸表示所得到的 X 平方分布值大小(圖中所示范圍從 0 到 10)。縱軸顯示各 X 平方分布值的概率(或稱為出現的相對頻率)。

當您研究這些 X 平方分布圖時,請注意,當您在實驗中改變自由度(即 df)時,概率函數的形狀會改變。對于民意測驗數據的示例,自由度是這樣計算的:記下民意測驗中的回答選項(k)的數目,然后用這個值減 1(df = k - 1)。

通常,當您在實驗中增加回答選項的數目時,獲得較大 X 平方分布值的概率會下降。這是因為當增加回答選項時,就增加了方差值的數目 — (觀察值 - 期望值)2 — 您可以求它的總數。因此,當您增加回答選項時,獲得大的 X 平方分布值的統計概率應該增加,而獲得較小 X 平方分布值的概率會減少。這就是為什么 X 平方分布的抽樣分布的形狀隨著 df 值的不同而變化的原因。

此外,要注意到通常人們對 X 平方分布結果的小數點部分不感興趣,而是對位于所獲得的值右邊曲線的總計部分感興趣。該尾數概率告訴您獲取一個象您觀察到的極限值是可能(如一個大的尾數區域)還是不可能(小的尾數區域)。(實際上,我不使用這些圖來計算尾數概率,因為我可以實現數學函數來返回給定 X 平方分布值的尾數概率。我在本文后面討論的 X 平方分布程序中會采用這種做法。)

要進一步了解這些圖是如何派生出來的,可以看看如何模擬與 df = 2(它表示 k = 3)對應的圖的內容。想象把數字 1、2 和 3 放進帽子里,搖一搖,選一個數字,然后記錄所選的數字作為一次嘗試。對這個實驗進行 300 次嘗試,然后計算 1、2 和 3 出現的頻率。

每次您做這個實驗時,都應當期望結果有稍微不同的頻率分布,這一分布反映了抽樣的可變性,同時,這個分布又不會真正偏離可能的概率范圍。

下面的 Multinomial 類實現了這一想法。您可以用以下值初始化該類:要做實驗的次數、每個實驗中所做嘗試的次數,以及每次試驗的選項數目。每個實驗的結果記錄在一個名為 Outcomes 的數組中。

清單 1. Multinomial 類的內容

以下為引用的內容:

<?php

// Multinomial.php

// Copyright 2003, Paul Meagher
// Distributed under LGPL

class Multinomial {

var $NExps;
var $NTrials;
var $NOptions;
var $Outcomes = array();

function Multinomial($NExps, $NTrials, $NOptions) {
$this->NExps = $NExps;
$this->NTrials = $NTrials;
$this->NOptions = $NOptions;
for ($i=0; $i < $this->NExps; $i ) {
$this->Outcomes[$i] = $this->runExperiment();
}
}

function runExperiment() {
$Outcome = array();
for ($i = 0; $i < $this->NExps; $i ){
$choice = rand(1,$this->NOptions);
$Outcome[$choice] ;
}
return $Outcome;
}

}
?>

請注意,runExperiment 方法是該腳本中非常重要的一部分,它保證在每次實驗中所做出的選擇是隨機的,并且跟蹤到目前為止在模擬實驗中做出了哪些選擇。

為了找到 X 平方分布統計的抽樣分布,只需獲取每次實驗的結果,并且計算該結果的 X 平方分布統計。由于隨機抽樣的可變性,因此這個 X 平方分布統計會隨實驗的不同而不同。

下面的腳本將每次實驗獲得的 X 平方分布統計寫到一個輸出文件以便稍后用圖表表示。

清單 2. 將獲得的 X 平方分布統計寫到輸出文件

以下為引用的內容:

<?php

// simulate.php

// Copyright 2003, Paul Meagher
// Distributed under LGPL

// Set time limit to 0 so script doesn't time out
set_time_limit(0);

require_once "../init.php";
require PHP_MATH . "chi/Multinomial.php";
require PHP_MATH . "chi/ChiSquare1D.php";

// Initialization parameters
$NExps = 10000;
$NTrials = 300;
$NOptions = 3;

$multi = new Multinomial($NExps, $NTrials, $NOptions);

$output = fopen("./data.txt","w") OR die("file won't open");
for ($i=0; $i<$NExps; $i ) {
// For each multinomial experiment, do chi square analysis
$chi = new ChiSquare1D($multi->Outcomes[$i]);

// Load obtained chi square value into sampling distribution array
$distribution[$i] = $chi->ChiSqObt;

// Write obtained chi square value to file
fputs($output, $distribution[$i]."n");
}
fclose ($output);

?>


為了使運行該實驗所期望獲得的結果可視化,對我來說,最簡單的方法就是將 data.txt 文件裝入開放源碼統計包 R,運行 histogram 命令,并且在圖形編輯器中編輯該圖表,如下所示:

x = scan("data.txt")
hist(x, 50)

正如您可以看到的,這些 X 平方分布值的直方圖與上面表示的 df = 2 的連續 X 平方分布的分布近似。

圖 3. 與 df=2 的連續分布近似的值

在下面幾節中,我將側重于說明這個模擬實驗中所使用的 X 平方分布軟件的工作原理。通常情況下,X 平方分布軟件將用于分析實際的定類尺度數據(例如 Web 民意測驗結果、每周的流量報告或者客戶品牌偏好報告),而不是您使用的模擬數據。您可能還會對該軟件生成的其它輸出 — 例如匯總表和尾數概率 — 感興趣。

X 平方分布的實例變量

我開發的基于 php 的 X 平方分布軟件包由用于分析頻率數據的類構成,頻率數據是按照一維或兩維(ChiSquare1D.php 和 ChiSquare2D.php)進行分類的。我的討論將僅局限于說明 ChiSquare1D.php 類的工作原理,以及說明如何將其應用于一維 Web 民意測驗數據。

在繼續之前,應當說明:按照兩維對數據進行分類(例如,按照性別對啤酒偏好進行分類),允許您通過查找列聯表單元中的系統關系或條件概率開始說明您的結果。盡管下面的許多討論將有助于您理解 ChiSquare2D.php 軟件的工作原理,但本文未討論的其它實驗、分析和可視化問題也是使用這個類之前必須處理的。

清單 3 研究了 ChiSquare1D.php 類的片段,它由以下部分構成:

1、一個被包含的文件

2、類實例變量

清單 3、帶有被包含的文件和實例變量的 X 平方分布類的片段

以下為引用的內容:

<?php

// ChiSquare1D.php

// Copyright 2003, Paul Meagher
// Distributed under LGPL

require_once PHP_MATH . "dist/Distribution.php";

class ChiSquare1D {

var $Total;
var $ObsFreq = array(); // Observed frequencies
var $ExpFreq = array(); // Expected frequencies
var $ExpProb = array(); // Expected probabilities
var $NumCells;
var $ChiSqObt;
var $DF;
var $Alpha;
var $ChiSqProb;
var $ChiSqCrit;

}

?>

清單 3 中這個腳本的頂部包含了一個名為 Distribution.php 的文件。所包含的路徑合并了在 init.php 文件中設置的 PHP_MATH 常量,假定 init.php 文件已包含在調用腳本中。

所包含的文件 Distribution.php 包含了為幾個常用的抽樣分布(T 分布、F 分布和 X 平方分布)生成抽樣分布統計信息的方法。
ChiSquare1D.php 類必須能夠訪問 Distribution.php 中的 X 平方分布方法,以計算所得到的 X 平方分布值的尾數概率。

這個類中的實例變量列表值得注意,因為它們定義了由分析過程生成的結果對象。這個結果對象包含了有關檢驗的所有重要詳細信息,包括三個重要的 X 平方分布統計 — ChiSqObt、ChiSqProb 和 ChiSqCrit。關于如何計算每個實例變量的詳細信息,可以查閱該類的構造函數方法,所有這些值都源自那里。

構造函數:X 平方分布檢驗的主干

清單 4 給出了 X 平方分布的構造函數代碼,它構成了 X 平方分布檢驗的主干。

清單 4、 X 平方分布的構造函數

以下為引用的內容:

<?php

class ChiSquare1D {

function ChiSquare1D($ObsFreq, $Alpha=0.05, $ExpProb=FALSE) {
$this->ObsFreq = $ObsFreq;
$this->ExpProb = $ExpProb;
$this->Alpha = $Alpha;
$this->NumCells = count($this->ObsFreq);
$this->DF = $this->NumCells - 1;
$this->Total = $this->getTotal();
$this->ExpFreq = $this->getExpFreq();
$this->ChiSqObt = $this->getChiSqObt();
$this->ChiSqCrit = $this->getChiSqCrit();
$this->ChiSqProb = $this->getChiSqProb();
return true;
}

}

?>

構造函數方法中值得注意的四個方面是:

1、構造函數接受一個由觀察到的頻率組成的數組、alpha 概率斷開點(cutoff score)和一個可選的期望概率的數組。

2、前六行涉及了相對簡單的賦值和被記錄的計算值,以便于完整的結果對象可用于調用腳本。

3、最后四行執行大量的獲取 X 平方分布統計的工作,這些統計是您最感興趣的。

4、該類只實現 X 平方分布檢驗邏輯。沒有與該類相關聯的輸出方法。

您可以研究本文的代碼下載中包含的類方法,以了解關于如何計算每個結果對象值的更多信息(請參閱參考資料)。

處理輸出問題

清單 5 中的代碼展示了使用 ChiSquare1D.php 類執行 X 平方分布分析是多么容易。它還演示了輸出問題的處理。

該腳本調用一個名為 ChiSquare1D_HTML.php 的包裝器腳本。這個包裝器腳本的目的是使 X 平方分布過程的邏輯與它的表示方面相分離。

_HTML 后綴表明輸出針對的是標準的 Web 瀏覽器或其它顯示 HTML 的設備。

包裝器腳本的另一個目的是用便于理解數據的方式組織輸出。為了達到這個目的,該類包含了兩個用于顯示 X 平方分布分析結果的方法。

showTableSummary 方法顯示了在代碼后面展示的第一個輸出表(表 2),而 showChiSquareStats 顯示了第二個輸出表(表 3)。

清單 5、利用包裝器腳本組織數據

以下為引用的內容:

<?php

// beer_poll_analysis.php

require_once "../init.php";

require_once PHP_MATH . "chi/ChiSquare1D_HTML.php";

$Headings = array("Keiths", "Olands", "Schooner", "Other");

$ObsFreq = array(285, 250, 215, 250);
$Alpha = 0.05;
$Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha);

$Chi->showTableSummary($Headings);
echo "<br><br>";
$Chi->showChiSquareStats();

?>

該腳本生成了下列輸出:

表 2、運行包裝器腳本而獲得的期望頻率和方差

Keiths Olands Schooner 其它 合計

觀察值 285 250 215 250 1000

期望值 250 250 250 250 1000

方差 4.90 0.00 4.90 0.00 9.80

表 3、運行包裝器腳本獲得的各種 X 平方分布統計信息統計

DF 獲得值 概率 臨界值

X 平方分布 3 9.80 0.02 7.81

表 2 顯示了期望頻率以及每個單元的方差度量 (O - E)2 / E。方差值的和等于獲得的 X 平方分布(9.80)值,這個值顯示在匯總表的右下單元中。

表 3 報告了各種 X 平方分布統計信息。它包括了分析中使用的自由度,并再次報告了獲得的 X 平方分布值。獲得的 X 平方分布值被重新表示成尾數概率值 — 在本例中是 0.02。這意味著,在虛假設條件下,觀察到 X 平方分布極限值 9.80 的概率是 2%(這是一個相當低的概率)。

如果您決定排除虛假設 — 結果可以按照零分布的隨機抽樣可變性獲得,那么大多數統計師都不會有爭議。您的民意測驗結果更有可能反映了新斯科舍省的啤酒消費者總體對于啤酒品牌偏好的真正差別。

為了確認這一結論,可以用獲得的 X 平方分布值與臨界值進行比較。

為什么臨界值很重要呢?臨界值建立在為該分析設置的某一重要級別(即 alpha 斷開級別)之上。alpha 斷開值按照慣例被設置為 0.05(上述分析使用的就是該值)。該設置用于查找 X 平方分布的抽樣分布中包含尾數區域等于 alpha 斷開值(0.05)的位置(或臨界值)。

在本文中,獲得的 X 平方分布值大于臨界值。這意味著超出了保持虛假設說明的閾值。另一種假設 — 對象總體中存在著比例差異 — 在統計上可能更正確。

在數據流的自動化分析中,alpha 斷開設置可以為知識-發現算法(例如 X 平方分布自動交互檢測(Chi Square Automatic Interaction Detection,CHIAD))設置輸出過濾,這樣的算法自身在發現真正有用的模式方面無法為人們詳細的指導。

重新進行民意測驗

單向 X 平方分布檢驗的另一個有趣應用是重新進行民意測驗,以了解人們的回答是否已發生變化。

假定過一段時間后,您打算對新斯科舍省的啤酒消費者進行另一次 Web 民意測驗。您再次詢問他們喜愛的啤酒品牌,現在觀察到下列結果:

表 4、新的啤酒民意測驗

Keiths Olands Schooner 其它

385 (27.50%) 350 (25.00%) 315 (22.50%) 350 (25.00%)

舊的數據如下所示:

表 1、舊的啤酒民意測驗(再一次顯示)

Keiths Olands Schooner 其它

285 (28.50%) 250 (25.00%) 215 (21.50%) 250 (25.00%)


民意測驗結果之間的明顯區別在于,第一次民意測驗有 1,000 個調查對象,而第二次有 1,400 個調查對象。這些額外調查對象的主要影響是,使得每個回答情形的頻率計數增加了 100 點。

當準備好對新的民意測驗進行分析時,可以利用缺省的方法 — 計算期望頻率來分析數據,也可以利用每個結果的期望概率(基于前一次民意測驗所觀察到的比例)來初始化分析。在第二種情形中,您將以前獲得的比例裝入期望概率數組($ExpProb),并使用它們來計算每個回答選項的期望頻率值。

清單 6 顯示了用于檢測偏好變化的啤酒民意測驗分析代碼:


清單 6. 檢測偏好的變化

以下為引用的內容:

<?php

// beer_repoll_analysis.php

require_once "../init.php";

require PHP_MATH . "chi/ChiSquare1D_HTML.php";

$Headings = array("Keiths", "Olands", "Schooner", "Other");

$ObsFreq = array(385, 350, 315, 350);
$Alpha = 0.05;
$ExpProb = array(.285, .250, .215, .250);

$Chi = new ChiSquare1D_HTML($ObsFreq, $Alpha, $ExpProb);

$Chi->showTableSummary($Headings);
echo "<br><br>";
$Chi->showChiSquareStats();

?>

表 5 和 6 顯示了 beer_repoll_analysis.php 腳本生成的 HTML 輸出:

表 5、運行 beer_repoll_analysis.php 而獲得的期望頻率和方差

Keiths Olands Schooner 其它 合計

觀察值 385 350 315 350 1400

期望值 399 350 301 350 1400

方差 0.49 0.00 0.65 0.00 1.14

表 6、運行 beer_repoll_analysis.php 所獲得的各種 X 平方分布統計信息統計

DF 獲得值 概率 臨界值

X 平方分布 3 1.14 0.77 7.81

表 6 表明,在虛假設條件下,獲得 X 平方分布值 1.14 的概率是 77%。我們不能排除這樣的虛假設,即自從上一次民意測驗以來,新斯科舍省啤酒消費者偏好已經發生了變化。觀察頻率和期望頻率之間的任何差異都可以解釋為新斯科舍省相同啤酒消費者的期望抽樣可變性。考慮到最初民意測驗結果的轉換只是通過向前面每個民意測驗結果添加常數 100 完成的,那么這種零發現也不應當有什么令人吃驚的地方了。

但是,您可以設想結果已經發生了變化,并且設想這些結果可能暗示著另一種品牌的啤酒正在變得更加流行(請注意表 5 中每列底部報告的方差大小)。您可以進一步設想這一發現對所討論的釀酒廠的財務方面有顯著的含義,因為酒吧老板往往會采購酒吧里最暢銷的啤酒。

這些結果將受到釀酒廠老板極其詳細的檢查,他們會對分析過程和實驗方法的適合性提出疑問;特別地,他們會對樣本的代表性提出疑問。如果您打算進行一次 Web 實驗,該實驗可能具有重要的實際含義,那么,對于用來收集數據的實驗方法和用來從數據得出推論的分析技術,您需要給予同等的關注。

因此,本文不僅為您奠定了一個良好的基礎,以便于可以加強您對 Web 數據的有效理解,它還提供了一些建議,這些建議是有關如何保護您的統計檢驗選擇的,并且使得從數據獲得的結論更具合理性。

應用學到的知識

在本文中,您已經了解了如何將推論統計學應用于普遍存在的用于匯總 Web 數據流的頻率數據,側重于 Web 民意測驗數據的分析。但是,所討論的簡單的單向 X 平方分布分析過程也能夠有效地應用于其它類型的數據流(訪問日志、調查結果、客戶概要信息和客戶訂單),以便將原始數據轉換成有用的知識。

在將推論統計學應用于 Web 數據時,我還介紹了希望將數據流視作 Web 實驗的結果,以便于在作推論時提高引用實驗設計考慮事項的可能性。通常由于您對于數據采集的過程缺乏足夠的控制,因此您不能做出推論。但是,如果在將實驗的設計原則應用于 Web 數據收集過程時您更加主動(例如,在您的 Web 民意測驗過程中隨機選擇投票者),那么可以改變這種情形。

最后,我演示了如何模擬不同自由度的 X 平方分布的抽樣分布,而不只是僅說明其來源。在這樣做的過程中,對于測量類別的期望頻率小于 5(換而言之,即小 N 實驗)— 我還演示了一種變通方法(使用小 $NTrials 值模擬實驗的抽樣分布)來禁止使用 X 平方分布檢驗。因此,我不只是使用研究過程中的 df 來計算樣本結果的概率,對于數量較小的嘗試,可能還需要使用 $NTrials 值作為參數來求得所觀察 X 平方分布結果的概率。

考慮您可能會如何分析小 N 實驗是值得的,因為您通常可能希望在數據采集完成之前分析您的數據 — 當每次觀察的代價都很昂貴時,當觀察需要花費很長時間才能獲得時,或者只是因為您很好奇。在嘗試這一級別的 Web 數據分析時,最好謹記下面這兩個問題:

*您是否有理由在小 N 條件下進行推論?

*模擬有助于您決定在這些環境下獲得什么推論嗎?

分享:AJAX在PHP中的簡單使用
AJAX無疑是2005年炒的最熱的Web開發技術之一,當然,這個功勞離不開Google。我只是一個普通開發者,使用AJAX的地方不是特別多,我就簡單的把我使用的心得說一下。(本文假設用戶已經具有JavaScr

來源:模板無憂//所屬分類:PHP教程/更新時間:2008-08-22
相關PHP教程
欧美一区二区三区免费大片| 亚洲茄子视频| 中文字幕在线观看一区| 色妞在线综合亚洲欧美| 激情图片qvod| 国产第100页| 国语产色综合| 亚洲欧美另类在线| 91av在线免费观看视频| www.久久av.com| 亚洲风情第一页| 蜜臀av一区二区三区| 日韩精品一区国产麻豆| 午夜久久久久久久久| 欧美激情一区二区三区在线| 国产一区二区三区精品久久久 | 国产精品亚洲综合天堂夜夜| 中文字幕1区2区| 日韩中文影院| 国产精品456| 国产亚洲精品高潮| av免费观看大全| 中文字幕理论片| 在线亚洲免费| 欧美一区二区黄| 日韩.欧美.亚洲| 久久久久亚洲av无码专区| 欧美色图在线播放| 精品成人av一区| 91九色偷拍| 18啪啪污污免费网站| 亚州精品视频| 亚洲国产欧美在线| 91精品在线播放| 免费视频91蜜桃| 少妇一区二区三区| 亚洲香肠在线观看| 亚洲精品免费一区二区三区| 久久精品视频18| 日韩av中文字幕一区| 一区二区三区四区不卡在线| 国产日韩在线免费| 在线观看国产精品一区| 亚洲精品亚洲人成在线观看| 亚洲一区二区在线播放相泽| 亚洲最大的av网站| 多男操一女视频| 色135综合网| 在线国产亚洲欧美| 日韩黄色影视| 日韩久久中文字幕| 日韩欧美不卡在线| 国产老头老太做爰视频| 欧美视频网址| 色婷婷综合久久久| 精品免费国产| 亚洲欧美在线观看视频| 狠狠色丁香久久综合频道| 欧美精品乱码久久久久久| 视频一区视频二区视频| 波多野结衣高清视频| 久久精品免费| 一本色道久久综合亚洲精品小说| 亚洲人精品午夜射精日韩 | 成人免费看片载| av综合网址| 亚洲国产精品欧美一二99| 成人动漫视频在线观看免费| 久草免费在线视频观看| 日韩视频一区| 亚洲黄色av女优在线观看 | 粉嫩av一区二区夜夜嗨| 不卡av免费在线观看| 久久人人看视频| 国产成人无码一区二区在线观看| 羞羞答答一区二区| 欧美在线观看禁18| 在线丝袜欧美日韩制服| 国产xxxx在线观看| caoporm超碰国产精品| 欧美亚洲激情视频| 免费在线观看a视频| 国产精品久久天天影视| 日韩精品中文字幕在线不卡尤物| 全黄性性激高免费视频| 欧美二三四区| 中文字幕在线不卡一区| 99中文视频在线| 国产精品一区二区6| 日韩成人一级大片| 不卡伊人av在线播放| 涩视频在线观看| 欧美理论电影大全| 欧美一区二区精美| 日韩激情免费视频| 精品视频91| 天天综合色天天| 亚洲精品一区二| 丰满人妻一区二区三区无码av| 91捆绑美女网站| 91久久精品美女| 国产精品第9页| 经典三级在线一区| 91av成人在线| 秋霞欧美一区二区三区视频免费| 在线日韩视频| 中文字幕亚洲欧美| 国产精品无码永久免费不卡| 永久91嫩草亚洲精品人人| 亚洲精品成人av| 91网址在线观看精品| 亚洲尤物av| 日韩小视频在线观看专区| 无码人妻丰满熟妇区五十路百度| 精品一区二区三区四区五区| 懂色av中文一区二区三区天美 | 91激情在线观看| 91欧美一区二区| 亚洲自拍在线观看| 日本中文字幕在线观看视频| 国产**成人网毛片九色| 国产主播喷水一区二区| 国产suv精品一区二区33| 成人免费毛片嘿嘿连载视频| 国产精品丝袜白浆摸在线| 成人精品免费在线观看| 国产精选一区二区三区| 国产精品女主播| 国产精品21p| www.99精品| 97久久精品午夜一区二区| 亚洲精品一区二区二区| 26uuu久久综合| 国产91aaa| 国产免费不卡av| 亚洲欧美在线观看| 亚洲精品中文字幕乱码三区不卡| 一区二区三区四区日本视频| 亚洲一级二级三级在线免费观看| 黄色免费高清视频| 亚洲老司机网| 欧美吻胸吃奶大尺度电影| 欧美视频免费播放| 亚洲精华一区二区三区| 亚洲激情国产精品| 日韩少妇一区二区| 在线欧美不卡| 97精品国产91久久久久久| 久久久久久久九九九九| 国产福利精品导航| 91福利视频导航| 精品国产一级片| 亚洲影视在线播放| 国产xxxx振车| 欧美人妖视频| 日韩av在线网址| 网站免费在线观看| 国产九九精品| 日本欧美一级片| 久久久久久无码精品大片| 久久久久国产一区二区三区四区| 欧美大香线蕉线伊人久久国产精品 | 国产精品传媒| 亚洲精品按摩视频| 人妻丰满熟妇aⅴ无码| 乱码第一页成人| 国产精品欧美日韩久久| 一区二区三区精彩视频| 亚洲精品国产无天堂网2021 | 久久不射网站| 国产精品久久久久久久久久久不卡 | 日韩精品色哟哟| 国产精品影片在线观看| 国产理论片在线观看| 亚洲午夜影视影院在线观看| 日韩欧美视频网站| 欧美另类69xxxxx| 久青草国产97香蕉在线视频| 久久久久无码国产精品| 91蝌蚪porny| 亚洲一区三区| 操欧美女人视频| 国产午夜精品麻豆| 北条麻妃在线观看视频| 国产98色在线|日韩| 免费久久99精品国产自| 日韩黄色三级| 精品国产乱码久久久久久牛牛| 日本一级片在线播放| 日韩制服丝袜av| 亚洲aaaaaa| 天堂在线视频免费| 欧美日韩亚洲综合在线 欧美亚洲特黄一级| 91精品999| 国产午夜精品一区二区三区欧美| 国产精品99免视看9| 精品国产无码一区二区| 在线看日韩精品电影| 亚洲色图欧美自拍| 模特精品在线| 亚洲综合最新在线| 成人黄色在线| 欧美精品一区二区久久婷婷| 人妻熟人中文字幕一区二区| 成人av在线观| 亚洲一卡二卡区| 婷婷精品在线| 欧美激情精品久久久久久免费印度 | 国产日韩精品suv| 日韩成人精品一区二区三区| 色婷婷综合久久久中文字幕| 污视频在线观看免费网站| 免费永久网站黄欧美| 99国产超薄丝袜足j在线观看| 日韩精品一区二区三区| 日韩欧美激情四射| 亚洲天堂精品一区| 久久久久久毛片| youjizz.com在线观看| 欧美www视频在线观看| 欧美综合在线观看| 丰满人妻一区二区三区免费视频| 777午夜精品视频在线播放| 精品人伦一区二区三电影| 成人黄色a**站在线观看| 做爰高潮hd色即是空| 欧洲乱码伦视频免费| 91精品国产91久久| 欧美 日韩 国产 精品| 日韩一区二区三| 北条麻妃在线观看视频| 国产精品国产三级国产aⅴ无密码| 9久久9毛片又大又硬又粗| 好吊一区二区三区| 97久草视频| 欧美a在线观看| xxxx欧美18另类的高清| 中文字幕一区二区人妻痴汉电车| 91久久一区二区| 老熟妇一区二区| 国产亚洲一区二区三区| 91黄色小网站| 久久电影一区| 欧美日韩亚洲免费| 九九久久精品| 日韩美女主播视频| 精品成人免费一区二区在线播放| 精品亚洲国产视频| 超碰超碰超碰超碰| 色国产精品一区在线观看| 少妇大叫太粗太大爽一区二区| 91亚洲精品久久久蜜桃| 日韩精品视频一区二区在线观看| 国产一区二区三区久久| 精品日韩欧美| 怕怕欧美视频免费大全| 国产精品video| 成人18视频在线观看| 色天天综合狠狠色| 国产三区在线播放| 欧美大片在线观看一区二区| 国产在线拍揄自揄拍无码视频| 亚洲亚洲人成综合网络| 一区二区三区免费在线观看视频 | 欧美激情手机在线视频 | 亚洲精品中文字幕有码专区| 日日夜夜操视频| 欧美日韩一区二区欧美激情| 日本爱爱小视频| 亚洲二区在线视频| 男女做爰猛烈刺激| |精品福利一区二区三区| 91成人在线观看喷潮蘑菇| 91在线播放网址| 在线免费视频a| 国产一区在线观看麻豆| 女人帮男人橹视频播放| 男女精品视频| 手机成人av在线| 最新成人av网站| 人偷久久久久久久偷女厕| 91免费精品| 国产精品福利视频| 国产一区二区三区电影在线观看 | 波多野结衣亚洲一区二区| 亚洲国产精品久久久久婷婷884 | 国产成人av无码精品| 亚洲国产成人自拍| 欧美图片自拍偷拍| 国产三级精品三级| 女教师高潮黄又色视频| 久久网站最新地址| 国产在线视频三区| 久久精品欧美一区二区三区麻豆| 亚洲色图偷拍视频| 91蝌蚪porny成人天涯| 小明看看成人免费视频| 99久久精品免费观看| 三级视频中文字幕| 97se亚洲国产综合自在线不卡| 狠狠操狠狠干视频| 久久免费午夜影院| 日本人dh亚洲人ⅹxx| 欧美国产精品中文字幕| 东京热av一区| 最近日韩中文字幕| 熟女丰满老熟女熟妇| 有码一区二区三区| 日本成人午夜影院| 亚洲第一福利一区| 天天操天天操天天操天天操天天操| 黑人巨大精品欧美一区二区三区 | 天天干天天操天天拍| 偷窥少妇高潮呻吟av久久免费| 一区二区三区在线播放视频| 黑人巨大精品欧美一区二区免费| 国产精品九九九九九九| 欧美日韩日日夜夜| 日本中文字幕久久| 亚洲娇小xxxx欧美娇小| 超碰在线人人干| 久久精品国产2020观看福利| 日本综合字幕| 777777777亚洲妇女| 成人激情自拍| 欧美色区777第一页| 清纯唯美一区二区三区| 国产精品久久久乱弄| 日韩福利影院| 日韩精品91亚洲二区在线观看 | 污污网站免费观看| 久久精品亚洲乱码伦伦中文| 中文字幕一区三区久久女搜查官| 亚洲综合一二三区| 我家有个日本女人| 制服视频三区第一页精品| 亚洲综合精品国产一区二区三区| 国产一区二区久久精品| 欧美精品日日操| 欧美亚洲另类在线| 久9久9色综合| 欧美 日韩 国产在线| 老牛国产精品一区的观看方式| 国产精品宾馆在线精品酒店| 成人18视频日本| 李丽珍裸体午夜理伦片| 天天综合网天天综合色| 日韩av在线播| 精品一区电影国产| 男人最爱成人网| 国产精品成人免费电影| 郴州新闻综合频道在线直播| 亚洲 国产 欧美一区| 久久精品国产第一区二区三区| 五月婷婷六月丁香激情| 中文字幕欧美一| 日韩女优一区二区| 精品国产91洋老外米糕| 免费a视频在线观看| 欧美一级成年大片在线观看| 国产午夜一区| 一区二区三区四区国产| 国内国产精品久久| 最新中文字幕日本| 福利二区91精品bt7086| 中文字幕福利视频| 九色91av视频| 欧美日韩大片免费观看| 欧美日韩无遮挡| 韩国毛片一区二区三区| 亚洲精品无码一区二区| 色一情一伦一子一伦一区| 中文字幕在线网址| 欧美激情一区二区久久久| 欧美调教在线| 天堂精品视频| 国产成人av影院| 日本xxxxxxxxx18| 欧美一区二区三区精品| 神马午夜电影一区二区三区在线观看| 日本中文字幕久久看| 午夜影院欧美| 国产精品无码一区二区在线| 国产精品美女久久久久av爽李琼 | 韩国亚洲精品| 久久久久久久少妇| 一区二区三区四区中文字幕| 国产成人免费观看视频 | 国产999在线观看| 99久久国产综合精品成人影院| 国产精品无码免费专区午夜| 久久久久国产精品人| 婷婷久久综合网| 亚洲欧美精品一区| 亚洲1区在线观看| 日韩精品久久一区二区三区| 国产激情精品久久久第一区二区| www.超碰97| 欧美一区二区三区在线观看| 欧美电影免费看|