機(jī)器學(xué)習(xí)PAI實(shí)踐三:霧霾成因分析
一、背景
如果要人們評選當(dāng)今最受關(guān)注話題的top10榜單,霧霾一定能夠入選。如今走在北京街頭,隨處可見帶著厚厚口罩的人在埋頭前行,霧霾天氣不光影響了人們的出行和娛樂,對于人們的健康也有很大危害。本文通過爬取并分析北京一年來的真實(shí)天氣數(shù)據(jù),挖掘出二氧化氮是跟霧霾天氣(這里指的是PM2.5)相關(guān)性***的污染物,從而為您揭秘形成霧霾的罪魁禍?zhǔn)住?/p>
登陸阿里云機(jī)器學(xué)習(xí)平臺,即可在demo頁選擇實(shí)驗(yàn)并且親手實(shí)現(xiàn)整個(gè)機(jī)器學(xué)習(xí)的預(yù)測分析,完全零門檻。
二、數(shù)據(jù)集介紹
數(shù)據(jù)源:采集了2016全年的北京天氣指標(biāo)。
采集的是從2016年1月1號以來每個(gè)小時(shí)的空氣指標(biāo),。具體字段如下表:
三、數(shù)據(jù)探索流程
阿里云機(jī)器學(xué)習(xí)平臺采用拖拉算法組件拼接實(shí)驗(yàn)的操作方式,先來看下整個(gè)實(shí)驗(yàn)流程:
我們把整個(gè)實(shí)驗(yàn)拆解成四個(gè)部分,分別是數(shù)據(jù)導(dǎo)入及預(yù)處理、統(tǒng)計(jì)分析、隨機(jī)森林預(yù)測及分析、邏輯回歸預(yù)測及分析。下面我們分別介紹一下這四個(gè)模塊的邏輯。
1.數(shù)據(jù)導(dǎo)入及預(yù)處理
(1)數(shù)據(jù)導(dǎo)入
在“數(shù)據(jù)源”中選擇“新建表”,可以把本地txt文件上傳。
數(shù)據(jù)導(dǎo)入后查看:
(2)數(shù)據(jù)預(yù)處理
通過類型轉(zhuǎn)換把string型的數(shù)據(jù)轉(zhuǎn)double。把pm2這一列作為目標(biāo)列,數(shù)值超過200的情況作為重度霧霾天氣打標(biāo)為1,低于200標(biāo)為0,實(shí)現(xiàn)的SQL語句如下。
select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};
(3)歸一化
歸一化主要是去除量綱的作用,把不同指標(biāo)的污染物單位統(tǒng)一。
2.統(tǒng)計(jì)分析
我們在統(tǒng)計(jì)分析的模塊用了兩個(gè)組件:
(1)直方圖
通過直方圖可以可視化的查看不同數(shù)據(jù)在不同區(qū)間下的分布。通過這組數(shù)據(jù)的可視化展現(xiàn),我們可以了解到每一個(gè)字段數(shù)據(jù)的分布情況,以PM2.5為例,數(shù)值區(qū)間出現(xiàn)最多的是11.74~15.61,一共出現(xiàn)了430次。
(2)數(shù)據(jù)視圖
通過數(shù)據(jù)視圖可以查看不同指標(biāo)的不同區(qū)間對于結(jié)果的影響。
以no2為例,在112.33~113.9這個(gè)區(qū)間產(chǎn)生了7個(gè)目標(biāo)列為0的目標(biāo),產(chǎn)生了9個(gè)目標(biāo)列為1的目標(biāo)。也就是說當(dāng)no2為112.33~113.9區(qū)間的情況下,出現(xiàn)重度霧霾的天氣的概率是非常大的。熵和基尼系數(shù)是表示這個(gè)特征區(qū)間對于目標(biāo)值的影響,數(shù)值越大影響越大,這個(gè)是從信息量層面的影響。
3.隨機(jī)森林預(yù)測及分析
本案其實(shí)是采用了兩種不同的算法對于結(jié)果進(jìn)行預(yù)測,我們先來看看隨機(jī)森林這一分支。我們通過將數(shù)據(jù)集拆分,百分之八十的數(shù)據(jù)訓(xùn)練模型,百分之二十的數(shù)據(jù)預(yù)測。最終模型的呈現(xiàn)可以可視化的顯示出來,在左邊模型菜單下查看,隨機(jī)森林是樹狀模型。
通過這個(gè)模型預(yù)測結(jié)果的準(zhǔn)確率:
我們看到AUC是0.99,也就是說如果我們有了本文用到的天氣指標(biāo)數(shù)據(jù),就可以預(yù)測天氣是否霧霾,而且準(zhǔn)確率可以達(dá)到百分之九十以上。
4.邏輯回歸預(yù)測及分析
再來看下邏輯回歸這一分支的預(yù)測模型,邏輯回歸是線性模型:
模型預(yù)測準(zhǔn)確率:
邏輯回歸的AUC為0.98,比用隨機(jī)森林計(jì)算得到的結(jié)果略低一點(diǎn)。如果排除調(diào)參對于結(jié)果的影響因素,可以說明針對這個(gè)數(shù)據(jù)集,隨機(jī)森林的訓(xùn)練效果會更好一點(diǎn)。
四、結(jié)果評估
上面介紹了如何通過搭建實(shí)驗(yàn)來搭建針對PM2.5的預(yù)測流程,準(zhǔn)確率達(dá)到百分之九十以上。下面我們來分析一下哪種空氣指標(biāo)對于PM2.5影響***,首先來看下邏輯回歸的生成模型:
因?yàn)榻?jīng)過歸一化計(jì)算的邏輯回歸算法有這樣的特點(diǎn),模型系數(shù)越大表示對于結(jié)果的影響越大,系數(shù)符號為正號表示正相關(guān),負(fù)號表示負(fù)相關(guān)。我們看一下正號系數(shù)里pm10和no2***。pm10和pm2只是顆粒尺寸大小不同,是一個(gè)包含關(guān)系,這里不考慮。剩下的no2(二氧化氮)對于pm2.5的影響***。我們只要查閱一下相關(guān)文檔,了解下哪些因素會造成no2的大量排放即可找出影響pm2.5的主要因素。
End.