實驗員需要掌握的統(tǒng)計知識

2022-10-13 16:31:16 admin

歡用平均數(shù)去分析一個事物的結果，但是這往往是粗糙的，不準確的。如果學了統(tǒng)計學，那么我們就能以更多更科學的角度看待數(shù)據(jù)。

大部分的數(shù)據(jù)分析，都會用到統(tǒng)計方面的以下知識，可以重點學習：

基本的統(tǒng)計量：均值、中位數(shù)、眾數(shù)、方差、標準差、百分位數(shù)等
概率分布：幾何分布、二項分布、泊松分布、正態(tài)分布等
總體和樣本：了解基本概念，抽樣的概念
置信區(qū)間與假設檢驗：如何進行驗證分析
相關性與回歸分析：一般數(shù)據(jù)分析的基本模型

通過基本的統(tǒng)計量，你可以進行更多元化的可視化，以實現(xiàn)更加精細化的數(shù)據(jù)分析。這個時候也需要你去了解更多的Excel函數(shù)來實現(xiàn)基本的計算，或者python、R里面一些對應的可視化方法。

有了總體和樣本的概念，你就知道在面對大規(guī)模數(shù)據(jù)的時候，怎樣去進行抽樣分析。

你也可以應用假設檢驗的方法，對一些感性的假設做出更加精確地檢驗。

利用回歸分析的方法，你可以對未來的一些數(shù)據(jù)、缺失的數(shù)據(jù)做基本的預測。

了解統(tǒng)計學的原理之后，你不一定能夠通過工具實現(xiàn)，那么你需要去對應的找網上找相關的實現(xiàn)方法，也可以看書。先推薦一本非常簡單的：吳喜之-《統(tǒng)計學·從數(shù)據(jù)到結論》。

另外，如何精力允許，請掌握一些主流算法的原理，比如線性回歸、邏輯回歸、決策樹、神經網絡、關聯(lián)分析、聚類、協(xié)同過濾、隨機森林。再深入一點，還可以掌握文本分析、深度學習、圖像識別等相關的算法。關于這些算法，不僅需要了解其原理，你最好可以流暢地闡述出來，還需要你知曉其在各行業(yè)的一些應用場景。如果現(xiàn)階段不是工作剛需，可不作為重點。

本文算是一個知識點匯總，不做細致展開，讓大家了解統(tǒng)計學有哪幾大塊，每一類分別用于什么樣的分析場景。后面幾篇會以實際案例的方式，細致講講描述性統(tǒng)計、概率分布等。

知識點匯總：

1.集中趨勢

2.變異性

3.歸一化

4.正態(tài)分布

5.抽樣分布

6.估計

7.假設檢驗

8.T檢驗

一、集中趨勢

1.眾數(shù)

出現(xiàn)頻率最高的數(shù)；

2.中位數(shù)

把樣本值排序，分布在最中間的值；

樣本總數(shù)為奇數(shù)時，中位數(shù)為第(n+1)/2個值；

樣本總數(shù)為偶數(shù)時，中位數(shù)是第n/2個，第(n/2)+1個值的平均數(shù)；

3.平均數(shù)

所有數(shù)的總和除以樣本數(shù)量；

現(xiàn)在大家接觸最多的概念應該是平均數(shù)，但有時候，平均數(shù)會因為某些極值的出現(xiàn)收到很大影響。舉個小例子，你們班有20人，大家收入差不多，19人都是5000左右，但是有1個同學創(chuàng)業(yè)成功了，年入1個億，這時候統(tǒng)計你們班同學收入的“平均數(shù)”就是500萬了，這也很好的解釋了，每年各地的平均收入數(shù)據(jù)出爐，小伙伴們直呼給祖國拖后腿了，那是因為大家收入被平均了，此時，“中位數(shù)”更能合理的反映真實的情況；

二、變異性

1.四分位數(shù)

上面說到了“中位數(shù)”，把樣本分成了2部分，再找個這2部分各自的“中位數(shù)”，也就把樣本分為了4個部分，其中1/4處的值記為Q1，2/4處的值記為Q2，3/4處的值記為Q3

2.四分位距 IQR=Q3-Q1

3.異常值

小于Q1-1.5(IQR)或者大于Q3+1.5(IQR);

對于異常值，我們在數(shù)據(jù)處理的環(huán)節(jié)就要剔除；

4.方差

5.平方偏差

方差的算術平方根

6.貝塞爾矯正：修正樣本方差

實際在計算方差時，分母要用n-1，而不是樣本數(shù)量n。原因在于，比如在高斯分布中，我們抽取一部分的樣本，用樣本的方差表示滿足高斯分布的大樣本數(shù)據(jù)集的方差。由于樣本主要是落在x=u中心值附近，那么樣本如果用如下公式算方差，那么預測方差一定小于大數(shù)據(jù)集的方差（因為高斯分布的邊沿抽取的數(shù)據(jù)也很少）。為了能彌補這方面的缺陷，那么我們把公式的n改為n-1，以此來提高方差的數(shù)值，這種方法叫貝塞爾矯正系數(shù)。

三、歸一化

1.標準分數(shù)

一個給定分數(shù) 距離平均數(shù) 多少個標準差？

標準分數(shù)是一種可以看出某分數(shù)在分布中相對位置的方法。

標準分數(shù)能夠真實的反映一個分數(shù)距離平均數(shù)的相對標準距離。

四、正態(tài)分布

1.定義：隨機變量X服從一個數(shù)學期望為μ，方差為σ⊃2;的正態(tài)分布，記為N(μ,σ⊃2;)

隨機取一個樣本，有68.3%的概率位于距離均值μ有1個標準差σ內；

有95.4%的概率位于距離均值μ有2個標準差σ內；

有99.7%的概率位于距離均值μ有3個標準差σ內；

五、抽樣分布

1.中心極限定理

設從均值為μ，方差為σ⊃2;的任意一個總體中抽取樣本量為n的樣本，當n充分大時，樣本均值的抽樣分布近似服從均值為μ、方差為σ⊃2;/n的正態(tài)分布

2.抽樣分布

設總體共有N個元素，從中隨機抽取一個容量為n的樣本，在重置抽樣時，共有N·n種抽法，即可以組成N·n不同的樣本，在不重復抽樣時，共有N·n個可能的樣本。每一個樣本都可以計算出一個均值，這些所有可能的抽樣均值形成的分布就是樣本均值的分布。但現(xiàn)實中不可能將所有的樣本都抽取出來，因此，樣本均值的概率分布實際上是一種理論分布。數(shù)理統(tǒng)計學的相關定理已經證明：在重置抽樣時，樣本均值的方差為總體方差的1/n。

舉個例子：

48盆MM豆，計算出每盆有幾個藍色的MM豆，48個數(shù)據(jù)構成了總體樣本。然后隨機選擇五盆，計算五盆中含有藍色MM豆的平均數(shù)，然后反復進行了50次。這就是n為5的樣本均值抽樣。

六、估計

1. 誤差界限

2. 置信度

We are some % sure the true population parameter falls within a specific range

我們有百分之多少確信總體中的值落在一個特定范圍內；

一般情況下，取95%的置信度就可以；

3. 置信區(qū)間

七、假設檢驗

1.問題：什么是顯著性水平？

顯著性水平是估計總體參數(shù)落在某一區(qū)間內，可能犯錯誤的概率，也就是Type I Error

A Type II Error is when you fail to reject the null when it is actually false.

2. 如何選擇備選檢驗和零假設？

一個研究者想證明自己的研究結論是正確的，備擇假設的方向就要與想要證明其正確性的方向一致；

同時將研究者想收集證據(jù)證明其不正確的假設作為原假設H0

八、T檢驗

1. 主要用于樣本含量較小（例如n<30），總體標準差σ未知的正態(tài)分布。

流程如下：

是用t分布理論來推論差異發(fā)生的概率，從而比較兩個平均數(shù)的差異是否顯著；

一般檢驗水準α取0.05即可；

計算檢驗統(tǒng)計量的方法根據(jù)樣本形式不同;

2. 獨立樣本T檢驗：

現(xiàn)在要分析男生和女生的身高是否相同兩者的主要區(qū)別在于數(shù)據(jù)的來源和要分析的問題。

問題：為什么T檢驗查表時候要n-1?

樣本均值替代總體均值損失了一個自由度

3. 配對樣本t檢驗

分析人的早晨和晚上的身高是否不同，于是找來一撥人測他們早上和晚上的身高，這里每個人就有兩個值，這里出現(xiàn)了配對

樣本誤差（Standard Error）

4. Pooled variance 合并方差

當樣本平均數(shù)不一樣，但實際上認為他們的方差是一樣的時候，需要合并方差

不要被公式嚇到，他的本質是兩個樣本方差加權平均

5. Cohen’s d

效應量(effect size):提示組間真正的差異占統(tǒng)計學差異的比例，值越大，組間差異越可靠。

詳細介紹

產品中心

新聞中心

聯(lián)系我們

深圳市光明新區(qū)光明街道新地中央B座1118D
18925982037
HWZC2018@163.com
http://www.bj0559.com.cn

吉泽明步高清无码中文-吉川爱美与黑人解禁-激性欧美激情在线aa-激情综合站-亚洲男人的天堂成人-亚洲男女在线

實驗員需要掌握的統(tǒng)計知識

熱文排行

產品中心

新聞中心

聯(lián)系我們