電子地磅計量測試中異常數(shù)據(jù)剔除方法的探討
由于電子地磅計量測試工作屬于一項精細工作,它要求得到的各項數(shù)據(jù)要盡可能準確,因此在通過計量測量得到大量數(shù)據(jù)后,還應科學,合理的整理數(shù)據(jù)。為盡可能準確、高效地剔除異常數(shù)據(jù),保證測得數(shù)據(jù)的有效性,本文在闡述了電子地磅計量測試工作意義的基礎上,分析了計量儀器產(chǎn)生誤差的原因,研究了測量數(shù)據(jù)異常值判斷準則,并結合本人實際工作經(jīng)驗,總結了剔除方法在應用中應注意的事項,以供同行參考。
一、電子地磅計量測試工作的意義
對日常各類生產(chǎn)實踐而言,基于使用各種數(shù)據(jù)的需要,應評估檢測儀器,可借助評估結果來對檢測儀器的狀態(tài)能否滿足正常使用要求進行判定,檢測數(shù)據(jù)非常重要,只有參照數(shù)據(jù),才能判定生產(chǎn)工藝穩(wěn)定與否,各環(huán)節(jié)產(chǎn)成品與成品參數(shù)符合使用需要與否。通過計量測試工作,可對生產(chǎn)工藝的改進與變革進行指導,促進產(chǎn)品質(zhì)量的不斷提高,若計量測試不準確、不科學,得到的數(shù)據(jù)就很難令人信服,那么想借助數(shù)據(jù)控制工藝過程、評定產(chǎn)品質(zhì)量,持續(xù)改善產(chǎn)品質(zhì)量就很難實現(xiàn)。
二、電子地磅計量儀器產(chǎn)生誤差的原因
從統(tǒng)計學的角度來看,我們通常會把一組重復測量數(shù)據(jù)中,明顯與其它數(shù)據(jù)有差異的數(shù)據(jù)稱為可疑數(shù)據(jù),與組內(nèi)其它數(shù)據(jù)差異非常明顯是這種數(shù)據(jù)的主要特點,這一特點也就是我們通常所說的數(shù)據(jù)發(fā)生了變異,那么實際這種變異究竟合理與否,要想得出結論,必須得借助進一步判斷。
計量儀器具有一定的高精密性,有嚴格的外界環(huán)境要求。若外界環(huán)境變化劇烈,實際計量儀器的測試很可能會有嚴重偏差出現(xiàn),造成檢測儀器的結果誤差較大。一般情況下,下列原因通常會造成計量儀器產(chǎn)生誤差:
1.有機械或外界震動沖擊檢測儀器。
2.電網(wǎng)供電電壓發(fā)生變化或存在電磁干擾使檢測儀器的正常工作受到影響。
3.檢測人員工作素質(zhì)不高,工作技能不達標。工作疏忽、缺乏足夠的工作經(jīng)驗,不正當操作。
4.測量儀器自身存在故障,如部分零件存在松動,內(nèi)部有損壞的電子元件等。
異常值通常偏差正常合理值較大,若在計算中或判定過程中應用了異常值,通常會嚴重干擾計算結果,對人們正確決策的做出造成影響。因此我們必須盡力把異常值剔除,若在剔除過程中應用的剔除方法不正確,異常值造成的影響不但會很難消除,有時還會誤以為測量重復性較好,影響到數(shù)據(jù)判斷的真實性,只有正確剔除異常數(shù)據(jù),最終的測量才能與人們的使用需求相符。
三、異常值判斷準則
在計量實踐中,下列幾種準則是我們常用來判斷異常值的準則:1)3∑準則;2)格拉布斯準則;3)肖維勒準則;4)t 檢驗法。
雖然以上幾種準這的實際內(nèi)容存在差異,但置信概率在這幾種準則中都要用到,置信概率主要指隨機變量在置信區(qū)間內(nèi)所落的概率,我們用 X 表示置信區(qū)間內(nèi)測量數(shù)據(jù)的實際取值范圍,則以上幾種準則可進行如下表示:
1)3∑準則:
|Xd-X|>3σ
這個式子的含義是可疑數(shù)據(jù)與整組數(shù)據(jù)算數(shù)平均值的差的絕對值比 3 倍的標準偏差大,則應舍棄此數(shù)值。我們可把測得數(shù)據(jù)代入上式,若符合上式,我們可判定這個值屬于異常值,應剔除該值。
2)肖維勒準則:|Xd-X|>w·nσ在使用這個公式時,若獨立測量得到的數(shù)據(jù),帶入上式后,上式成立,則我們可判斷異常值為 Xd,我們應把 Xd 剔除。
3)格布拉斯準則:
|Xd-X|≥G(α,n)s
式中,測量數(shù)據(jù)用 Xd 表示,s 為貝塞爾公式計算的標準差,至于后面的 G(α,n)查表可得到。
4)t 檢驗法。這種檢驗法主要是把可疑數(shù)值 Xi 外的數(shù)值來作為一個數(shù)據(jù)集合總體,我們可把這個數(shù)據(jù)集總體假定為正態(tài)分布,雖然這只是假定了一個數(shù)據(jù)分布,到底是正態(tài)分布與否,還需進行進一步判定,但在具體應用時,對于樣本實際符合正態(tài)分布與否通常都不進行深入判定,而將樣本近似看做是正態(tài)分布,可把可疑數(shù)值 Xi 看作樣本總容量為 1 的一個特殊替,在比較兩個總體時,若兩者在一個總體中包涵,那么顯著差異不應在兩者間存在,統(tǒng)計量 k 便可由此計算出來:
在上式中,我們用X表示樣本數(shù)據(jù)算術平均值;s 表示樣本數(shù)據(jù)標準差。用計算所得的 k 值,比較查 t 分布表所得值,若比較結果比顯著性水平 a 下的 t 檢驗值大,則 Xi 的出現(xiàn)可說明只是一個小概率事件,可把它看作是一個異常值,進而剔除這個值。
四、實例判定
下面我們就結合一個實例來判定一下以上異常值的判斷準則:
如:等精度測量某測量量,得到了下列測量數(shù)據(jù):10.002,10.204,0.218,10.228,10.230,10.312,10.320,10.342,10.346,可用以上方法進行判斷并把異常值剔除,置信概率可取為 95%,也就是 α=0.05。
我們懷疑異常值為 10.346。
通過計算可得:這十個數(shù)的平均值為 10.2317,X1 的平均值為 10.2231,
δ=0.0912,s=0.0888。
綜合計算異常值為 10.346,應把 10.346 剔除。
五、結語
在實際應用中,為確保測試精度的足夠,避免誤判現(xiàn)象的出現(xiàn),可對以上判定準則的兩種或三種進行綜合,同時判斷,如果應用的這幾種判定方法,出現(xiàn)一致的結論,則應把可疑數(shù)據(jù)剔除,這樣可使判斷的可靠性得到大幅提升,而若應用這幾種方法后出現(xiàn)了不一致的判定結果,則對應剔除的數(shù)據(jù)必須進行慎重考慮,再次進行驗證,對于這種情況,筆者建議保留處理數(shù)據(jù)。這有這樣才能準確、高效地剔除異常數(shù)據(jù),保證測得數(shù)據(jù)的有效性。