CIO分享:什么時(shí)候數(shù)據(jù)太干凈而無(wú)法用于企業(yè)AI?
數(shù)據(jù)質(zhì)量對(duì)于AI項(xiàng)目的成功至關(guān)重要,但你需要保留原始數(shù)據(jù)的豐富性、多樣性和完整性,以免破壞結(jié)果。
數(shù)據(jù)管理曾經(jīng)是數(shù)據(jù)倉(cāng)庫(kù)團(tuán)隊(duì)的職責(zé),如今已經(jīng)越來(lái)越多地成了高管層的優(yōu)先事項(xiàng),數(shù)據(jù)質(zhì)量被視為客戶體驗(yàn)和業(yè)務(wù)績(jī)效的關(guān)鍵。但除了數(shù)據(jù)孤島和合規(guī)性問(wèn)題外,數(shù)據(jù)質(zhì)量差也阻礙了企業(yè)AI項(xiàng)目的發(fā)展。雖然大多數(shù)高管普遍信任他們的數(shù)據(jù),但他們也表示,只有不到三分之二的數(shù)據(jù)是可用的。
AI編碼助手開(kāi)發(fā)商Tabnine的聯(lián)合創(chuàng)始人、首席技術(shù)官Eran Yahav表示,對(duì)于許多組織而言,為AI準(zhǔn)備數(shù)據(jù)是他們第一次以跨領(lǐng)域的方式查看數(shù)據(jù),從而發(fā)現(xiàn)系統(tǒng)之間的差異。
解決這個(gè)問(wèn)題可能意味著要從基本的數(shù)據(jù)清潔度開(kāi)始,例如確保數(shù)據(jù)庫(kù)中有正確的字段以滿足不同團(tuán)隊(duì)的需求,或者整理用于AI的數(shù)據(jù)以反映出你想要的結(jié)果。我們正試圖讓AI擁有與企業(yè)中最好員工相同的知識(shí),這就需要進(jìn)行整理和清理,以確保清潔度和一致性,還需要反饋循環(huán)。”
有些組織會(huì)使用自己的代碼庫(kù)來(lái)教授AI編碼助手最佳實(shí)踐,他們需要?jiǎng)h除不希望重復(fù)的遺留代碼,而且大型數(shù)據(jù)集并不總是比小型數(shù)據(jù)集更好。Yahava說(shuō):“有客戶通過(guò)復(fù)制現(xiàn)有項(xiàng)目并對(duì)其進(jìn)行修改來(lái)創(chuàng)建新項(xiàng)目,他們有上百份相同內(nèi)容的副本,只有細(xì)微的差異,而且無(wú)法區(qū)分它是否重要,因?yàn)槎佳蜎](méi)在各種重復(fù)中了。”
良好的數(shù)據(jù)治理始終涉及到處理數(shù)據(jù)集中的錯(cuò)誤和不一致,以及通過(guò)刪除重復(fù)項(xiàng)、更正拼寫(xiě)錯(cuò)誤、標(biāo)準(zhǔn)化和驗(yàn)證數(shù)據(jù)格式及類型、擴(kuò)充不完整信息或檢測(cè)數(shù)據(jù)中不尋常和不可能的變化,以索引和分類結(jié)構(gòu)化數(shù)據(jù),這一點(diǎn)仍然是很重要的,但并不總是與AI處理的非結(jié)構(gòu)化和半結(jié)構(gòu)化數(shù)據(jù)相關(guān),這些數(shù)據(jù)也會(huì)有越來(lái)越多的變化。AI的數(shù)據(jù)質(zhì)量需要涵蓋偏見(jiàn)檢測(cè)、侵權(quán)預(yù)防、模型特征數(shù)據(jù)中的傾斜檢測(cè)和噪聲檢測(cè)等。
常見(jiàn)的數(shù)據(jù)管理實(shí)踐對(duì)于AI來(lái)說(shuō)太慢、太結(jié)構(gòu)化、太死板,因?yàn)閿?shù)據(jù)清理需要針對(duì)具體情況并根據(jù)特定用例進(jìn)行量身定制。對(duì)于AI來(lái)說(shuō),沒(méi)有通用的標(biāo)準(zhǔn)來(lái)判斷數(shù)據(jù)是否“足夠干凈”。
即使是對(duì)于更傳統(tǒng)的機(jī)器學(xué)習(xí)來(lái)說(shuō),為商業(yè)智能和金融帶來(lái)回報(bào)的大規(guī)模數(shù)據(jù)清理工作也很少能夠滿足數(shù)據(jù)科學(xué)團(tuán)隊(duì)的需求,這些團(tuán)隊(duì)可能已經(jīng)針對(duì)AI進(jìn)行他們自己的數(shù)據(jù)工程,并且在此過(guò)程中創(chuàng)建了更多不受管控的數(shù)據(jù)孤島,Domino Data Lab的AI戰(zhàn)略負(fù)責(zé)人Kjell Carlsson這樣說(shuō)道。
數(shù)據(jù)清理不足會(huì)導(dǎo)致明顯的問(wèn)題,但背景是關(guān)鍵。谷歌建議使用膠水制作披薩食譜,因?yàn)檫@讓美食攝影師可以把融化的馬蘇里拉奶酪看起來(lái)更誘人,這可能會(huì)被從通用大型語(yǔ)言模型中剔除出去,但正是你在訓(xùn)練AI提供攝影技巧時(shí)想要包含的那種數(shù)據(jù)。相反,如果在訓(xùn)練集中保留了明顯諷刺性網(wǎng)站的內(nèi)容來(lái)源,谷歌搜索中發(fā)現(xiàn)的其他一些不恰當(dāng)?shù)慕ㄗh可能就會(huì)被避過(guò)。
Carlsson說(shuō):“數(shù)據(jù)質(zhì)量極其重要,但會(huì)導(dǎo)致非常循序漸進(jìn)的思維,從而讓你誤入歧途。最好的情況下,它最終會(huì)浪費(fèi)大量的時(shí)間和精力。最壞的情況下,它會(huì)進(jìn)入并從你的數(shù)據(jù)中刪除信號(hào),實(shí)際上與你所需要達(dá)到的目的是背道而馳的?!?/p>
相對(duì)來(lái)看
不同的領(lǐng)域和應(yīng)用需要不同級(jí)別的數(shù)據(jù)清理。你不能將數(shù)據(jù)清理視為一種適合所有用途的萬(wàn)能數(shù)據(jù),傳統(tǒng)的“單一版本事實(shí)”一直是商業(yè)智能的目標(biāo),但實(shí)際上是一個(gè)有偏見(jiàn)的數(shù)據(jù)集?!皼](méi)有‘干凈的數(shù)據(jù)’這種東西,”Carlsson說(shuō)。“它總是和你使用它的目的有關(guān),在所有這些不同的用例中,干凈的數(shù)據(jù)是非常不同的?!?/p>
你可能會(huì)把員工記錄的數(shù)據(jù)質(zhì)量用于處理薪資和公司內(nèi)部新聞郵件活動(dòng),以此為例。日立公司全資子公司Pentaho產(chǎn)品管理高級(jí)總監(jiān)Kunju Kashalikar表示:“應(yīng)該以不同的方式看待這些問(wèn)題,根據(jù)不同的情況確定質(zhì)量?!?/p>
Carlsson補(bǔ)充說(shuō),AI需要更靈活、協(xié)作、迭代和定制化的數(shù)據(jù)清理,以適應(yīng)數(shù)據(jù)的使用方式。“最棒的是,我們現(xiàn)在是以很多以前沒(méi)有過(guò)的方式使用數(shù)據(jù),但的挑戰(zhàn)是,你需要對(duì)每一種數(shù)據(jù)采用不同的清潔方式?!庇袝r(shí)這意味著在清理方面做更多的工作,有時(shí)則意味著做更少的工作。
Carlsson警告說(shuō),如果組織在開(kāi)始理解和構(gòu)建AI用例之前,就試圖為AI準(zhǔn)備好數(shù)據(jù),那么可能會(huì)損害自身利益。因此,在開(kāi)始為企業(yè)AI進(jìn)行大規(guī)模數(shù)據(jù)清理之前,請(qǐng)考慮把數(shù)據(jù)清理得太干凈帶來(lái)的弊端。
收益遞減
軟件開(kāi)發(fā)商Cohesity的EMEA首席技術(shù)官M(fèi)ark Molyneux表示,CIO會(huì)問(wèn)如何清理數(shù)據(jù),但他們應(yīng)該問(wèn)要清理到什么程度?!袄碚撋希憧赡苡肋h(yuǎn)都在清理數(shù)據(jù),這取決于數(shù)據(jù)的大小?!?/p>
Syniti EMEA董事總經(jīng)理Chris Gorton就是一個(gè)典型的例子,他在職業(yè)生涯早期花了大量時(shí)間為一家自動(dòng)售貨機(jī)公司清理客戶地址,結(jié)果卻發(fā)現(xiàn),他們真正需要的是發(fā)送發(fā)票的電子郵件地址,或者是維修設(shè)備的具體位置。
他警告說(shuō),很多組織都在囤積沒(méi)有運(yùn)營(yíng)價(jià)值的大型數(shù)據(jù)集,在開(kāi)始大規(guī)模且昂貴的數(shù)據(jù)清理計(jì)劃之前,確定更清潔的數(shù)據(jù)會(huì)給你帶來(lái)什么價(jià)值,這一點(diǎn)非常重要?!叭绻悴荒苊枋瞿阈枰臄?shù)據(jù)活動(dòng),或者是結(jié)果如何關(guān)聯(lián)業(yè)務(wù)中的某些價(jià)值相,那么可能就是不需要做的,”Gorton說(shuō)。
特別是從清理舊數(shù)據(jù)的角度來(lái)看,80/20規(guī)則可能不值得你付出努力。無(wú)論你把數(shù)據(jù)用于什么用途,這都適用。如果檢測(cè)和刪除數(shù)據(jù)集中錯(cuò)誤電話號(hào)碼的成本,高于撥打那么多浪費(fèi)的電話或發(fā)送那么多無(wú)法送達(dá)短信的成本,那么提前修復(fù)這些數(shù)字就是沒(méi)有投資回報(bào)的。
Kashalikar說(shuō):“很多組織花費(fèi)大量時(shí)間丟棄或改進(jìn)郵政編碼,但對(duì)于大多數(shù)數(shù)據(jù)科學(xué)而言,郵政編碼中的子部分并不重要,我們正在查看一個(gè)大致的地理區(qū)域,了解潛在的趨勢(shì)。這就是浪費(fèi)太多東西的一個(gè)典型例子。”
哥倫比亞大學(xué)衛(wèi)生政策和管理兼職教授Howard Friedman說(shuō),要了解你是否從數(shù)據(jù)清理中獲得了價(jià)值,首先就要定義什么是成功,以及了解模型的要點(diǎn)。從基本數(shù)據(jù)分類和標(biāo)準(zhǔn)質(zhì)量檢查開(kāi)始,包括缺失數(shù)據(jù)、范圍檢查、分布和相關(guān)性。并非所有列都是相同的,因此你需要優(yōu)先清理對(duì)模型和業(yè)務(wù)成果很重要的數(shù)據(jù)特征。不要清理數(shù)據(jù),而要對(duì)基本操作實(shí)施自動(dòng)化,尋找解釋缺失數(shù)據(jù)的模式,考慮轉(zhuǎn)換特征,因?yàn)榭s放可能會(huì)壓縮值或增加方差。
但在你追求更先進(jìn)的數(shù)據(jù)質(zhì)量改進(jìn)方法之前,先評(píng)估增量模型改進(jìn)是什么?!叭绻抑换藥讉€(gè)小時(shí)的努力和幾千美元的投資就能獲得90%的模型價(jià)值,而不是必須花費(fèi)25萬(wàn)美元才能獲得完美的數(shù)據(jù),結(jié)果會(huì)怎樣?”Friedman問(wèn)道。對(duì)于模型的小幅改進(jìn)來(lái)說(shuō),只有10%的改善可能是不值得的。
“把它看作一個(gè)商業(yè)問(wèn)題,我把時(shí)間和金錢投資放在哪里,我期望得到什么回報(bào),”他說(shuō)。
調(diào)查現(xiàn)有項(xiàng)目,看看數(shù)據(jù)質(zhì)量問(wèn)題實(shí)際上有什么影響。除了投資清理低質(zhì)量數(shù)據(jù)集之外,你可能還有其他來(lái)源可以使用,這可能是你購(gòu)買的數(shù)據(jù)或你構(gòu)建的黃金數(shù)據(jù)集。“如果你的數(shù)據(jù)清理預(yù)算有限,那就值得花這筆錢來(lái)創(chuàng)建一個(gè)由人類策劃的高質(zhì)量輸入和黃金標(biāo)準(zhǔn)輸出數(shù)據(jù)集,”斯坦福大學(xué)醫(yī)學(xué)院生物醫(yī)學(xué)數(shù)據(jù)Knight-Hennessy學(xué)者Akshay Swaminathan說(shuō)?!霸谏墒紸I的世界中,準(zhǔn)確性這個(gè)概念要模糊得多?!彪S著技術(shù)的進(jìn)步,一個(gè)黃金問(wèn)題數(shù)據(jù)集與黃金標(biāo)準(zhǔn)答案相結(jié)合,可以幫助你快速對(duì)新模型進(jìn)行基準(zhǔn)測(cè)試。
機(jī)會(huì)成本
過(guò)多的數(shù)據(jù)清理不僅會(huì)浪費(fèi)時(shí)間和金錢,甚至可能會(huì)刪除有用的數(shù)據(jù)——即使這些數(shù)據(jù)看起來(lái)是不完整的。
Kashalikar說(shuō):“如果你最初有一百萬(wàn)條記錄,而你得到了50萬(wàn)條質(zhì)量最好的記錄,你真正想知道的是,在缺失的50萬(wàn)條記錄中,有多少條質(zhì)量足夠好而你沒(méi)有得到。如果你有25萬(wàn)條記錄,質(zhì)量足夠好但不夠完美,那么,你要么刪掉四分之一的潛在數(shù)據(jù),要么浪費(fèi)時(shí)間去清理四分之一的記錄——而這并不是必須的?!?/p>
同樣重要的是,不要過(guò)度清理數(shù)據(jù),以免失去其獨(dú)特性,這也稱為過(guò)度規(guī)范化。數(shù)據(jù)集的過(guò)度標(biāo)準(zhǔn)化或同質(zhì)化,會(huì)消除有價(jià)值的變化和細(xì)微差別,而這些變化和細(xì)微差別是AI模型的重要特征,這么做會(huì)降低其泛化能力。例如,在不考慮區(qū)域差異的情況下,地址拼寫(xiě)的規(guī)范化可能會(huì)抹去重要的人口統(tǒng)計(jì)洞察。
丟失異常值與過(guò)度規(guī)范化的問(wèn)題類似,但針對(duì)的是單個(gè)數(shù)據(jù)點(diǎn),而不是整個(gè)數(shù)據(jù)集。積極移除異常值和極端情況可以消除重要的邊緣情況,正如Swaminathan所說(shuō),“一個(gè)人的垃圾是另一個(gè)人的寶藏?!?/p>
數(shù)據(jù)集中一些不可能的數(shù)值很容易被安全地修復(fù),例如價(jià)格不太可能為負(fù)數(shù),或者人類年齡超過(guò)200歲,但手動(dòng)數(shù)據(jù)收集或設(shè)計(jì)不良的數(shù)據(jù)庫(kù)可能會(huì)出現(xiàn)錯(cuò)誤。Yahav說(shuō):“也許數(shù)據(jù)是在醫(yī)院緊急情況下輸入的,然后更改了身高和體重?!崩纾幚淼囊粋€(gè)產(chǎn)品數(shù)據(jù)庫(kù)沒(méi)有產(chǎn)品序列號(hào)字段,因此工作人員將其放在了重量字段中?!巴蝗婚g,玩具店里的產(chǎn)品重達(dá)五噸?!?/p>
但一些異常值或看似“臟”的數(shù)據(jù)點(diǎn)卻是真正的信號(hào),而不是錯(cuò)誤,可能表明有一些領(lǐng)域是值得探索的,Yahav說(shuō):“有人因?yàn)橄掠甓诮煌ㄖ谢宋鍌€(gè)小時(shí)?這是交通信息的一個(gè)有趣的異常值?!?/p>
如果你正在訓(xùn)練一個(gè)模型來(lái)去除醫(yī)療數(shù)據(jù)中的身份信息,那么它需要對(duì)異常值(如唯一名稱、地址的變體格式和識(shí)別號(hào))具有魯棒性,以便正確檢測(cè)到這些異常值,這就意味著你需要在訓(xùn)練集中包含這些異常值。特別是在處理代碼不太可能更新的遺留系統(tǒng)時(shí),你的數(shù)據(jù)管道需要驗(yàn)證和清理已知問(wèn)題。但Yahav認(rèn)為,其中一些需要人類判斷來(lái)區(qū)分真正的錯(cuò)誤,而不是用于泛化的、有意義的信號(hào)。
增加偏見(jiàn)
過(guò)度激進(jìn)的清理會(huì)刪除未通過(guò)驗(yàn)證的記錄,從而導(dǎo)致數(shù)據(jù)集出現(xiàn)偏見(jiàn),因?yàn)槟銜?huì)丟失具有特定特征的記錄。Kashalikar警告說(shuō),刪除沒(méi)有中間名首字母的記錄會(huì)導(dǎo)致刪除來(lái)自印度次大陸某些地區(qū)的人員。同樣,刪除不常見(jiàn)的姓名或堅(jiān)持所有姓名都超過(guò)兩個(gè)字母,可能會(huì)導(dǎo)致模型出現(xiàn)偏差,從而針對(duì)不同人群有不佳表現(xiàn)。
“創(chuàng)建模型的數(shù)據(jù)科學(xué)家可能不了解沒(méi)有數(shù)據(jù)意味著什么業(yè)務(wù)影響,”他指出。讓那些了解問(wèn)題背景的人參與數(shù)據(jù)清理決策,這一點(diǎn)非常重要。
去除背景
如果清理數(shù)據(jù)集過(guò)于徹底,你可能會(huì)刪除對(duì)整體情況至關(guān)重要的背景信息。一些網(wǎng)絡(luò)釣魚(yú)消息故意包含錯(cuò)誤的拼寫(xiě)和語(yǔ)法,以選擇不太謹(jǐn)慎和不太了解情況的受害者,而虛假鏈接將包含接近真實(shí)域名的URL。清理這些數(shù)據(jù)(或清理沮喪客戶消息中的語(yǔ)言)會(huì)消除有關(guān)如何應(yīng)對(duì)問(wèn)題的寶貴線索。而且大型語(yǔ)言模型使用數(shù)據(jù)的方式與更傳統(tǒng)的機(jī)器學(xué)期是不同的,數(shù)據(jù)的語(yǔ)義可能至關(guān)重要。
醫(yī)學(xué)轉(zhuǎn)錄模型的干凈數(shù)據(jù)集顯然不應(yīng)包括YouTube視頻中要求用戶“喜歡和訂閱”的常用短語(yǔ),因?yàn)橄馩penAI Whisper這樣的通用模型在處理亂碼音頻時(shí)經(jīng)常會(huì)產(chǎn)生這些短語(yǔ)的幻覺(jué),使其不適合醫(yī)學(xué)轉(zhuǎn)錄,但這些數(shù)據(jù)對(duì)于創(chuàng)建轉(zhuǎn)錄視頻的模型又是至關(guān)重要的。
Carlsson指出,標(biāo)準(zhǔn)數(shù)據(jù)清理還會(huì)消除停頓、嘆息、猶豫和說(shuō)話者不愿意說(shuō)完的單詞,但這些線索在試圖預(yù)測(cè)購(gòu)買意愿或意圖時(shí)是很有用處的?!叭绻幸粋€(gè)模型可以檢測(cè)客戶的興趣,告訴客戶代表你應(yīng)該停止強(qiáng)行推銷,因?yàn)檫@個(gè)人顯然不感興趣,那將是很有用處的,”他說(shuō)。這就是為什么在清理數(shù)據(jù)之前知道要用數(shù)據(jù)做什么是如此重要。
忽略現(xiàn)實(shí)世界的混亂
傳統(tǒng)機(jī)器學(xué)習(xí)在處理混亂數(shù)據(jù)時(shí)很脆弱,因此很容易將其刪除。但是,數(shù)據(jù)過(guò)于統(tǒng)一可能會(huì)導(dǎo)致模型在干凈的結(jié)構(gòu)化數(shù)據(jù)(如訓(xùn)練集)上表現(xiàn)良好,但在處理現(xiàn)實(shí)世界的混亂數(shù)據(jù)時(shí)卻舉步維艱,導(dǎo)致在生產(chǎn)環(huán)境中表現(xiàn)不佳。
Swaminathan解釋說(shuō),大型語(yǔ)言模型之所以能通過(guò)律師資格考試或醫(yī)學(xué)委員會(huì),因?yàn)檫@些考試太過(guò)干凈了,無(wú)法作為有用的基準(zhǔn)。“它為你提供了一個(gè)病人的簡(jiǎn)介,里面已經(jīng)包含了所有相關(guān)信息,它告訴你,病人會(huì)告訴你他們的生命體征、影像和實(shí)驗(yàn)室結(jié)果。在現(xiàn)實(shí)世界中,醫(yī)生需要分別獲取所有這些信息?!蓖瑯拥?,如果你正在創(chuàng)建一個(gè)客戶支持的黃金數(shù)據(jù)集,那么要避免讓客戶的要求太過(guò)干凈和信息豐富。
Friedman承認(rèn),這里存在一個(gè)明顯的矛盾。“你訓(xùn)練的數(shù)據(jù)集越臟,模型就越難學(xué)習(xí),越難取得成功。但與此同時(shí),為了讓它在現(xiàn)實(shí)世界中充分發(fā)揮作用,它需要能夠在那些更臟的環(huán)境中運(yùn)行?!?/p>
大型語(yǔ)言模型尤其需要能夠?qū)﹀e(cuò)誤的輸入做出反應(yīng)。刪除口語(yǔ)、拼寫(xiě)錯(cuò)誤或區(qū)域語(yǔ)言差異,可能會(huì)給模型處理現(xiàn)實(shí)世界語(yǔ)言使用的能力造成阻礙?!傲私馊绾螒?yīng)對(duì)臟數(shù)據(jù)以及理想的干凈數(shù)據(jù)——從干凈數(shù)據(jù)開(kāi)始是件好事,但最終它必須是穩(wěn)健的,”Friedman補(bǔ)充說(shuō)。
缺失趨勢(shì)
以同樣的方式清理新舊數(shù)據(jù)可能會(huì)導(dǎo)致其他問(wèn)題。新的傳感器可能更精確、更準(zhǔn)確,客戶支持請(qǐng)求將涉及產(chǎn)品的較新版本,或者你要從他們的在線足跡中獲得有關(guān)潛在新客戶的更多元數(shù)據(jù)。無(wú)論數(shù)據(jù)源是什么,都可能有新的信息需要捕獲,或者數(shù)據(jù)中的特征可能會(huì)隨著時(shí)間的推移而發(fā)生變化。例如,在印度,離婚最近才得到官方承認(rèn)。你不能將其添加到舊記錄中,但為了保持一致性,你也不應(yīng)該將其從新記錄中刪除。因此,請(qǐng)注意數(shù)據(jù)清理不會(huì)掩蓋新舊數(shù)據(jù)之間的差異,從而導(dǎo)致模型無(wú)法考慮不斷變化的趨勢(shì)。
“即使對(duì)于相同的用例,基礎(chǔ)數(shù)據(jù)也會(huì)隨著時(shí)間的推移而發(fā)生變化,”Swaminathan警告說(shuō)?!袄纾覀?cè)?024年10月為回答客戶問(wèn)題而制定的黃金基準(zhǔn),可能會(huì)在三個(gè)月后因自然災(zāi)害而過(guò)時(shí),突然出現(xiàn)衛(wèi)生紙短缺的情況。即使是同一家公司為同一個(gè)客戶執(zhí)行同一個(gè)任務(wù),基準(zhǔn)也會(huì)隨著時(shí)間的推移而過(guò)時(shí)?!?/p>
隨著趨勢(shì)的變化,你也可能會(huì)丟失數(shù)據(jù)中的信號(hào)。當(dāng)客戶的聯(lián)系電話從固定電話轉(zhuǎn)移到手機(jī)時(shí),組織就無(wú)法從號(hào)碼中提取客戶位置?!叭绻闶褂脜^(qū)號(hào)來(lái)驗(yàn)證位置,就會(huì)丟失大量的記錄,”Kashalikar補(bǔ)充說(shuō)。與你合作的兩家公司也可能會(huì)合并,因此決定是將兩家公司視為同一實(shí)體,還是將其分開(kāi)保存在你公司的黃金主記錄中,這要取決于具體的情況。
即使沒(méi)有重大變化,基礎(chǔ)數(shù)據(jù)本身也可能已經(jīng)發(fā)生變化。Friedman說(shuō):“感興趣的結(jié)果變量與你的特征之間的關(guān)系可能已經(jīng)發(fā)生改變,你不能簡(jiǎn)單地鎖定目標(biāo),說(shuō)‘這個(gè)數(shù)據(jù)集是絕對(duì)完美的’,然后把它從架子上拿下來(lái),一年后再用來(lái)解決問(wèn)題?!?/p>
為了避免所有這些問(wèn)題,你需要讓具有專業(yè)知識(shí)的人參與進(jìn)來(lái),區(qū)分真正的錯(cuò)誤和有意義的信號(hào),記錄你對(duì)數(shù)據(jù)清理做出的決定及其原因,定期審查數(shù)據(jù)清理對(duì)模型性能和業(yè)務(wù)成果的影響。
不要前期先進(jìn)行大量數(shù)據(jù)清理、然后才開(kāi)始開(kāi)發(fā),而是要采取迭代的方法,進(jìn)行逐步的數(shù)據(jù)清理和快速實(shí)驗(yàn)。
Yahav說(shuō):“我們已經(jīng)看到成功的方法就是逐步加入數(shù)據(jù),人們很容易說(shuō)讓我們把所有東西都連接起來(lái),相信這會(huì)起作用的。但當(dāng)它給你帶來(lái)沖擊的時(shí)候,你都不知道哪里出了問(wèn)題,不得不斷開(kāi)連接?!?/p>
因此,你可以從少量的最近數(shù)據(jù)或你信任的數(shù)據(jù)開(kāi)始,看看運(yùn)作情況,然后從那里構(gòu)建更多的來(lái)源或數(shù)據(jù)量,看看在哪里出了問(wèn)題?!八罱K會(huì)停下來(lái),因?yàn)槟阃浟艘恍〇|西會(huì)進(jìn)入主管道,而有些事情會(huì)讓你大吃一驚,你希望這個(gè)過(guò)程足夠漸進(jìn),這樣你才能了解是什么原因造成的。”