成人激色综合天天,中文亚洲av片在线观看,又粗又大又硬毛片免费看,国产aⅴ精品一区二区三区久久,亚洲欧美自偷自拍视频图片

機(jī)器學(xué)習(xí)PAI實(shí)踐三:霧霾成因分析

CIOAge
如果要人們評選當(dāng)今最受關(guān)注話題的top10榜單,霧霾一定能夠入選。如今走在北京街頭,隨處可見帶著厚厚口罩的人在埋頭前行,霧霾天氣不光影響了人們的出行和娛樂,對于人們的健康也有很大危害。本文通過爬取并分析北京一年來的真實(shí)天氣數(shù)據(jù),挖掘出二氧化氮是跟霧霾天氣(這里指的是PM2.5)相關(guān)性最強(qiáng)的污染物,從而為您揭秘形成霧霾的罪魁禍?zhǔn)住?/div>

[[191842]]

一、背景

如果要人們評選當(dāng)今最受關(guān)注話題的top10榜單,霧霾一定能夠入選。如今走在北京街頭,隨處可見帶著厚厚口罩的人在埋頭前行,霧霾天氣不光影響了人們的出行和娛樂,對于人們的健康也有很大危害。本文通過爬取并分析北京一年來的真實(shí)天氣數(shù)據(jù),挖掘出二氧化氮是跟霧霾天氣(這里指的是PM2.5)相關(guān)性***的污染物,從而為您揭秘形成霧霾的罪魁禍?zhǔn)住?/p>

登陸阿里云機(jī)器學(xué)習(xí)平臺,即可在demo頁選擇實(shí)驗(yàn)并且親手實(shí)現(xiàn)整個(gè)機(jī)器學(xué)習(xí)的預(yù)測分析,完全零門檻。

大數(shù)據(jù)

二、數(shù)據(jù)集介紹

數(shù)據(jù)源:采集了2016全年的北京天氣指標(biāo)。

采集的是從2016年1月1號以來每個(gè)小時(shí)的空氣指標(biāo),。具體字段如下表:

三、數(shù)據(jù)探索流程

阿里云機(jī)器學(xué)習(xí)平臺采用拖拉算法組件拼接實(shí)驗(yàn)的操作方式,先來看下整個(gè)實(shí)驗(yàn)流程:

大數(shù)據(jù)

我們把整個(gè)實(shí)驗(yàn)拆解成四個(gè)部分,分別是數(shù)據(jù)導(dǎo)入及預(yù)處理、統(tǒng)計(jì)分析、隨機(jī)森林預(yù)測及分析、邏輯回歸預(yù)測及分析。下面我們分別介紹一下這四個(gè)模塊的邏輯。

1.數(shù)據(jù)導(dǎo)入及預(yù)處理

(1)數(shù)據(jù)導(dǎo)入

在“數(shù)據(jù)源”中選擇“新建表”,可以把本地txt文件上傳。

大數(shù)據(jù)

數(shù)據(jù)導(dǎo)入后查看:

大數(shù)據(jù)

(2)數(shù)據(jù)預(yù)處理

通過類型轉(zhuǎn)換把string型的數(shù)據(jù)轉(zhuǎn)double。把pm2這一列作為目標(biāo)列,數(shù)值超過200的情況作為重度霧霾天氣打標(biāo)為1,低于200標(biāo)為0,實(shí)現(xiàn)的SQL語句如下。

select time,hour,(case when pm2>200 then 1 else 0 end),pm10,so2,co,no2 from ${t1};  

(3)歸一化

歸一化主要是去除量綱的作用,把不同指標(biāo)的污染物單位統(tǒng)一。

大數(shù)據(jù)

2.統(tǒng)計(jì)分析

我們在統(tǒng)計(jì)分析的模塊用了兩個(gè)組件:

(1)直方圖

通過直方圖可以可視化的查看不同數(shù)據(jù)在不同區(qū)間下的分布。通過這組數(shù)據(jù)的可視化展現(xiàn),我們可以了解到每一個(gè)字段數(shù)據(jù)的分布情況,以PM2.5為例,數(shù)值區(qū)間出現(xiàn)最多的是11.74~15.61,一共出現(xiàn)了430次。

大數(shù)據(jù)

(2)數(shù)據(jù)視圖

通過數(shù)據(jù)視圖可以查看不同指標(biāo)的不同區(qū)間對于結(jié)果的影響。

大數(shù)據(jù)

以no2為例,在112.33~113.9這個(gè)區(qū)間產(chǎn)生了7個(gè)目標(biāo)列為0的目標(biāo),產(chǎn)生了9個(gè)目標(biāo)列為1的目標(biāo)。也就是說當(dāng)no2為112.33~113.9區(qū)間的情況下,出現(xiàn)重度霧霾的天氣的概率是非常大的。熵和基尼系數(shù)是表示這個(gè)特征區(qū)間對于目標(biāo)值的影響,數(shù)值越大影響越大,這個(gè)是從信息量層面的影響。

3.隨機(jī)森林預(yù)測及分析

本案其實(shí)是采用了兩種不同的算法對于結(jié)果進(jìn)行預(yù)測,我們先來看看隨機(jī)森林這一分支。我們通過將數(shù)據(jù)集拆分,百分之八十的數(shù)據(jù)訓(xùn)練模型,百分之二十的數(shù)據(jù)預(yù)測。最終模型的呈現(xiàn)可以可視化的顯示出來,在左邊模型菜單下查看,隨機(jī)森林是樹狀模型。

大數(shù)據(jù)

通過這個(gè)模型預(yù)測結(jié)果的準(zhǔn)確率:

大數(shù)據(jù)

我們看到AUC是0.99,也就是說如果我們有了本文用到的天氣指標(biāo)數(shù)據(jù),就可以預(yù)測天氣是否霧霾,而且準(zhǔn)確率可以達(dá)到百分之九十以上。

4.邏輯回歸預(yù)測及分析

再來看下邏輯回歸這一分支的預(yù)測模型,邏輯回歸是線性模型:

大數(shù)據(jù)

模型預(yù)測準(zhǔn)確率:

大數(shù)據(jù)

邏輯回歸的AUC為0.98,比用隨機(jī)森林計(jì)算得到的結(jié)果略低一點(diǎn)。如果排除調(diào)參對于結(jié)果的影響因素,可以說明針對這個(gè)數(shù)據(jù)集,隨機(jī)森林的訓(xùn)練效果會更好一點(diǎn)。

四、結(jié)果評估

上面介紹了如何通過搭建實(shí)驗(yàn)來搭建針對PM2.5的預(yù)測流程,準(zhǔn)確率達(dá)到百分之九十以上。下面我們來分析一下哪種空氣指標(biāo)對于PM2.5影響***,首先來看下邏輯回歸的生成模型:

大數(shù)據(jù)

因?yàn)榻?jīng)過歸一化計(jì)算的邏輯回歸算法有這樣的特點(diǎn),模型系數(shù)越大表示對于結(jié)果的影響越大,系數(shù)符號為正號表示正相關(guān),負(fù)號表示負(fù)相關(guān)。我們看一下正號系數(shù)里pm10和no2***。pm10和pm2只是顆粒尺寸大小不同,是一個(gè)包含關(guān)系,這里不考慮。剩下的no2(二氧化氮)對于pm2.5的影響***。我們只要查閱一下相關(guān)文檔,了解下哪些因素會造成no2的大量排放即可找出影響pm2.5的主要因素。

End.

責(zé)任編輯:吳金澤 來源: 大數(shù)據(jù)
相關(guān)推薦

2015-12-31 15:19:14

霧霾高性能英特爾

2019-01-31 01:31:28

華為

2015-03-11 11:12:08

2015-06-24 11:16:34

數(shù)據(jù)中心霧霾

2015-12-07 10:51:05

數(shù)據(jù)中心霧霾

2014-03-19 10:40:14

大數(shù)據(jù)

2014-02-25 15:44:31

大數(shù)據(jù)

2013-01-24 10:53:40

2015-03-05 13:30:17

2014-10-27 11:01:49

2015-06-24 12:58:04

數(shù)據(jù)中心霧霾

2015-05-19 13:39:34

浪潮

2017-08-02 16:15:12

2018-01-26 07:44:04

數(shù)據(jù)中心機(jī)房霧霾

2016-11-18 12:46:56

有線視頻承載網(wǎng)

2017-06-29 13:29:34

大數(shù)據(jù)PAI機(jī)器學(xué)習(xí)

2015-12-14 15:34:47

微信

2015-03-06 15:52:48

2016-01-06 09:55:53

數(shù)據(jù)中心選址霧霾

2017-03-17 18:02:53

互聯(lián)網(wǎng)

51CTO技術(shù)棧公眾號