身高2m,體重2kg,這樣的資料“看上去很好”?

2019-09-19 01:18:16

導讀:資料探勘演算法通常用於為其他目的收集的資料,或者在收集時未明確其目的。因此,資料探勘常常不能“在資料來源頭控制質量”。相比之下,統計學的實驗設計或調查中,其資料質量往往都達到了一定的要求。由於無法避免資料質量問題,因此資料探勘著眼於兩個方面:


(1)資料質量問題的檢測和糾正;

(2)使用可以容忍低質量資料的演算法。第一步的檢測和糾正,通常稱作資料清理(data cleaning)。


本文討論資料質量。儘管也討論某些與應用有關的問題,但是關注的焦點是測量和資料收集問題。


作者:陳封能(Pang-Ning Tan)、邁克爾·斯坦巴赫(Michael Steinbach)等

如需轉載請聯絡大資料(ID:hzdashuju)



01 測量和資料收集問題


期望資料完美是不現實的。人類的錯誤、測量裝置的限制或資料收集過程中的漏洞都可能導致問題。資料的值乃至整個資料物件都可能會丟失。在有些情況下,可能有不真實或重複的物件,即對應於單個“實際”物件出現了多個數據物件。


例如,對於一個最近住過兩個不同地方的人,可能有兩個不同的記錄。即使所有的資料都不缺,並且“看上去很好”,也可能存在不一致,如一個人身高2m,但體重只有2kg。


下面我們關注資料測量和收集方面的資料質量問題。我們先定義測量誤差和資料收集錯誤,然後考慮涉及測量誤差的各種問題:噪聲、偽像、偏置、精度和準確率。最後討論同時涉及測量和資料收集的資料質量問題:離群點、遺漏和不一致的值、重複資料。


1. 測量誤差和資料收集錯誤


術語測量誤差(measurement error)是指測量過程中產生的問題。一個常見的問題是:在某種程度上,記錄的值與實際值不同。對於連續屬性,測量值與實際值的差稱為誤差(error)。


術語資料收集錯誤(data collection error)是指諸如遺漏資料物件或屬性值,或者不當地包含了其他資料物件等錯誤。例如,一種特定種類動物研究可能包含了相關種類的其他動物,它們只是表面上與要研究的種類相似。測量誤差和資料收集錯誤可能是系統的也可能是隨機的。


我們只考慮一般的錯誤型別。在特定的領域中,總有某些型別的錯誤是常見的,並且通常存在很好的技術,能檢測並糾正這些錯誤。例如,人工輸入資料時,鍵盤錄入錯誤是常見的,因此許多資料輸入程式具有檢測技術,並通過人工干預糾正這類錯誤。


2. 噪聲和偽像


噪聲是測量誤差的隨機部分。這通常涉及值被扭曲或加入了謬誤物件。圖2.5顯示了被隨機噪聲干擾前後的時間序列。如果在時間序列上新增更多的噪聲,形狀將會消失。圖2.6顯示了三組新增一些噪聲點(用“+”表示)前後的資料點集。注意,有些噪聲點與非噪聲點混在一起。


▲圖2.5 時間序列中的噪聲


▲圖2.6 空間中的噪聲


術語“噪聲”通常用於包含時間或空間分量的資料。在這些情況下,常常可以使用訊號或影象處理技術降低噪聲,從而幫助發現可能“淹沒在噪聲中”的模式(訊號)。儘管如此,完全消除噪聲通常是困難的,而許多資料探勘工作都關注設計魯棒演算法(robust algorithm),即在噪聲干擾下也能產生可以接受的結果。


資料錯誤可能是更確定性現象的結果,如一組照片在同一地方出現條紋。資料的這種確定性失真常稱作偽像(artifact)。


3. 精度、偏置和準確率


在統計學和實驗科學中,測量過程和結果資料是用精度和偏置度量的。我們給出標準的定義,隨後簡略加以討論。對於下面的定義,我們假定對相同的基本量進行重複測量。


  • 精度(precision):(同一個量的)重複測量值之間的接近程度。

  • 偏置(bias):測量值與被測量之間的系統的變化。


精度通常用值集合的標準差度量,而偏置用值集合的均值與測出的已知值之間的差度量。只有那些通過外部手段能夠得到測量值的物件,偏置才是可確定的。


假定我們有1g質量的標準實驗室重量,並且想評估實驗室的新天平的精度和偏置。我們稱重5次,得到下列值:{1.015,0.990,1.013,1.001,0.986}。這些值的均值是1.001,因此偏置是0.001。用標準差度量,精度是0.013。


通常使用更一般的術語準確率表示資料測量誤差的程度。


  • 準確率(accuracy):被測量的測量值與實際值之間的接近度。


準確率依賴於精度和偏置,但是沒有用這兩個量表達準確率的公式。


準確率的一個重要方面是有效數字(significant digit)的使用。其目標是僅使用資料精度所能確定的數字位數表示測量或計算結果。


例如,物件的長度用最小刻度為毫米的米尺測量,則我們只能記錄最接近毫米的長度資料,這種測量的精度為±0.5mm。這裡不再詳細地討論有效數字,因為大部分讀者應當在先前的課程中接觸過,並且在理工科和統計學教材中討論得相當深入。


諸如有效數字、精度、偏置和準確率問題常常被忽視,但是對於資料探勘、統計學和自然科學,它們都非常重要。通常,資料集並不包含資料精度資訊,用於分析的程式返回的結果也沒有這方面的資訊。45但是,缺乏對資料和結果準確率的理解,分析者將可能出現嚴重的資料分析錯誤。


4. 離群點


離群點(outlier)是在某種意義上具有不同於資料集中其他大部分資料物件的特徵的資料物件,或是相對於該屬性的典型值來說不尋常的屬性值。我們也稱其為異常(anomalous)物件或異常值。有許多定義離群點的方法,並且統計學和資料探勘界已經提出了很多不同的定義。


此外,區別噪聲和離群點這兩個概念是非常重要的。與噪聲不同,離群點可以是合法的資料物件或值。例如,在欺詐和網路入侵檢測中,目標就是在大量的正常物件或事件中找到異常物件或事件。



5. 遺漏值


一個物件遺漏一個或多個屬性值的情況並不少見。有時可能會出現資訊收集不全的情況,例如有的人拒絕透露年齡或體重。


還有些情況下,某些屬性並不能用於所有物件,例如表格常常有條件選擇部分,僅當填表人以特定的方式回答前面的問題時,條件選擇部分才需要填寫,但為簡單起見儲存了表格的所有欄位。無論何種情況,在資料分析時都應當考慮遺漏值。


有許多處理遺漏值的策略(和這些策略的變種),每種策略適用於特定的情況。這些策略在下面列出,同時我們指出它們的優缺點。


  • 刪除資料物件或屬性

    一種簡單而有效的策略是刪除具有遺漏值的資料物件。然而,即使不完整的資料物件也包含一些有用的資訊,並且,如果許多物件都有遺漏值,則很難甚至不可能進行可靠的分析。

    儘管如此,如果某個資料集只有少量的物件具有遺漏值,則忽略它們可能是合算的。一種與之相關的策略是刪除具有遺漏值的屬性。然而,做這件事要小心,46因為被刪除的屬性可能對分析是至關重要的。


  • 估計遺漏值

    有時,遺漏值可以可靠地估計。例如,在考慮以大致平滑的方式變化的、具有少量但分散的遺漏值的時間序列時,遺漏值可以使用其他值來估計(插值)。另舉一例,考慮一個具有許多相似資料點的資料集,與具有遺漏值的點鄰近的點的屬性值常常可以用來估計遺漏的值。

    如果屬性是連續的,則可以使用最近鄰的平均屬性值;如果屬性是分類的,則可以取最近鄰中最常出現的屬性值。為了更具體地解釋,考慮地面站記錄的降水量,對於未設地面站的區域,降水量可以使用鄰近地面站的觀測值估計。


  • 在分析時忽略遺漏值

    許多資料探勘方法都可以修改,以忽略遺漏值。例如,假定正在對資料物件聚類,需要計算各對資料物件間的相似性。如果某對資料物件的一個物件或兩個物件的某些屬性有遺漏值,則可以僅使用沒有遺漏值的屬性來計算相似性。

    當然,這種相似性只是近似的,但是除非整個屬性數目很少,或者遺漏值的數量很大,否則這種誤差影響不大。同樣,許多分類方法都可以修改,以便於處理遺漏值。


6. 不一致的值


資料可能包含不一致的值。比如地址欄位列出了郵政編碼和城市名,但是有的郵政編碼區域並不包含在對應的城市中。這可能是人工輸入該資訊時顛倒了兩個數字,或許是在掃描手寫體時錯讀了一個數字。無論導致不一致值的原因是什麼,重要的是能檢測出來,並且如果可能的話,糾正這種錯誤。


有些不一致型別容易檢測,例如人的身高不應當是負的。另一些情況下,可能需要查閱外部資訊源,例如當保險公司處理賠償要求時,它將對照顧客資料庫核對賠償單上的姓名與地址。


檢測到不一致後,有時可以對資料進行更正。產品程式碼可能有“校驗”數字,或者可以通過一個備案的已知產品程式碼列表複核產品程式碼,如果發現它不正確但接近一個已知程式碼,則糾正它。糾正不一致需要額外的或冗餘的資訊。


  • 例:不一致的海洋表面溫度


該例解釋實際的時間序列資料中的不一致性。這些資料是在海洋的不同點測量的海洋表面溫度(SST)。最初人們利用船或浮標使用海洋測量方法收集SST資料,而最近開始使用衛星來收集這些資料。為了建立長期的資料集,需要使用這兩種資料來源。


然而,由於資料來自不同的資料來源,兩部分資料存在微妙的不同。這種差異顯示在圖2.7中,該圖顯示了各年度之間SST值的相關性。如果某兩個年度的SST值是正相關的,則對應於這兩年的位置為白色,否則為黑色。(季節性的變化從資料中刪除,否則所有的年都是高度相關的。)資料彙集在一起的地方(1983年)有一個明顯的變化。


在1958~1982年和1983~1999年兩組中,每組內的年相互之間趨向於正相關,但與另一組的年負相關。這並不意味著該資料不能用,但是分析者應當考慮這種差異對資料探勘分析的潛在影響。


▲圖2.7 年對之間SST資料的相關性。白色區域表示正相關,黑色區域表示負相關


7. 重複資料


資料集可以包含重複或幾乎重複的資料物件。許多人都收到過重複的郵件,因為它們以稍微不相同的名字多次出現在資料庫中。為了檢測並刪除這種重複,必須處理兩個主要問題。


首先,如果兩個物件實際代表同一個物件,則對應的屬性值必然不同,必須解決這些不一致的值;其次,需要避免意外地將兩個相似但並非重複的資料物件(如兩個人具有相同姓名)合併在一起。術語去重複(deduplication)通常用來表示處理這些問題的過程。


在某些情況下,兩個或多個物件在資料庫的屬性度量上是相同的,但是仍然代表不同的物件。這種重複是合法的。但是,如果某些演算法設計中沒有專門考慮這些屬性可能相同的物件,就還是會導致問題。



02 關於應用的問題


資料質量問題也可以從應用角度考慮,表達為“資料是高質量的,如果它適合預期的應用”。特別是對工商界,資料質量的這種提議非常有用。類似的觀點也出現在統計學和實驗科學中,那裡強調精心設計實驗來收集與特定假設相關的資料。與測量和資料收集一樣,許多資料質量問題與特定的應用和領域有關。我們這裡仍然只考慮一些一般性問題。


1. 時效性


有些資料在收集後就開始老化。比如說,如果資料提供正在發生的現象或過程的快照,如顧客的購買行為或Web瀏覽模式,則快照只代表有限時間內的真實情況。如果資料已經過時,則基於它的模型和模式也已經過時。


2. 相關性


可用的資料必須包含應用所需要的資訊。考慮構造一個模型,預測交通事故發生率。如果忽略了駕駛員的年齡和性別資訊,那麼除非這些資訊可以間接地通過其他屬性得到,否則模型的準確率可能是有限的。


確保資料集中的物件相關不太容易。一個常見問題是抽樣偏置(sampling bias),指樣本包含的不同型別的物件與它們在總體中的出現情況不成比例。例如調查資料只反映對調查做出響應的那些人的意見。由於資料分析的結果只能反映現有的資料,抽樣偏置通常會導致不正確的分析。


3. 關於資料的知識


理想情況下,資料集附有描述資料的文件。文件的質量好壞決定它是支援還是干擾其後的分析。例如,如果文件標明若干屬性是強相關的,則說明這些屬性可能提供了高度冗餘的資訊,我們通常只保留一個屬性。(考慮銷售稅和銷售價格。)


然而,如果文件很糟糕,例如,沒有告訴我們某特定欄位上的遺漏值用-9999表示,則我們的資料分析就可能出問題。其他應該說明的重要特性是資料精度、特徵的型別(標稱的、序數的、區間的、比率的)、測量的刻度(如長度用米還是英尺)和資料的來源。


關於作者:陳封能(Pang-Ning Tan) ,密歇根州立大學電腦科學與工程系教授,主要研究方向是資料探勘、資料庫系統、網路空間安全、網路分析等。


本文摘編自資料探勘導論》(原書第2版),經出版方授權釋出。


延伸閱讀《資料探勘導論原書第2版)
點選上圖瞭解及購買
轉載請聯絡微信:DoctorData


推薦語:本書為斯坦福大學、密歇根州立大學、明尼蘇達大學、得克薩斯大學等知名高校的資料探勘課程教材。從演算法的角度介紹資料探勘所使用的主要原理與技術。所涵蓋的主題包括:資料預處理、預測建模、關聯分析、聚類分析、異常檢測和避免錯誤發現。通過介紹每個主題的基本概念和演算法,為讀者提供將資料探勘應用於實際問題所需的必要背景以及方法。


延伸閱讀《計算機時代的統計推斷
點選上圖瞭解及購買
轉載請聯絡微信:DoctorData


推薦語:統計推斷入門經典,斯坦福大學知名教授Trevor Hastie全新力作。本書以豐富的案例介紹了計算機時代下的統計推斷的發展脈絡,從理論的角度剖析統計推斷的各類演算法、證據等,揭示統計推斷如何推動當今大資料、資料科學、機器學習等領域的快速發展並引領資料分析的變革,最後展望了統計學和資料科學的未來方向。


長按二維碼或點選閱讀原文

發現更多好書




「大資料」內容合夥人之「鑑書小分隊」上線啦!


最近,你都在讀什麼書?有哪些心得體會想要跟大家分享?


資料叔最近搞了個大事——聯合優質圖書出版商機械工業出版社華章公司發起鑑書活動。


簡單說就是:你可以免費讀新書,你可以免費讀新書的同時,順手碼一篇讀書筆記就行。詳情請在大資料公眾號後臺對話方塊回覆合夥人檢視。



有話要說👇


Q: 獲得高質量的資料,你會用哪些方法?

歡迎留言與大家分享


猜你想看👇


  • 資料分析必備:掌握這個R語言基礎包1%的功能,你就很牛了

  • 包教包會,7段程式碼帶你玩轉Python條件語句

  • 學霸們在假期裡“偷著學”,看的是這些書

  • 從圖靈機、圖靈測試到人工智慧:什麼決定了AI能否取代人類?


更多精彩👇


在公眾號對話方塊輸入以下關鍵詞

檢視更多優質內容!


PPT | 報告 | 讀書 | 書單 | 乾貨 

大資料 | 揭祕 | Python | 視覺化

AI | 人工智慧 | 5G | 區塊鏈

機器學習 | 深度學習 | 神經網路

合夥人 1024 | 段子 | 數學 | 高考


據統計,99%的大咖都完成了這個神操作

👇



覺得不錯,請把這篇文章分享給你的朋友

轉載 / 投稿請聯絡:baiyu@hzbook.com

更多精彩,請在後臺點選“歷史文章”檢視

點選閱讀原文,瞭解更多

已同步到看一看
在看



熱點新聞