九九99久久精品午夜剧场免费,久久av一区二区三区下,99视频全部免费,亚洲第一中文字幕,日韩国产亚洲一区二区在线观看,精品无码一区二区三区在线视频,日本丰满妇人成熟免费中文字幕,亚洲乱码国产乱码精品精大量
電話010-88998848 郵箱admin@transbit.cn

北京市場調(diào)查-市場調(diào)研公司-滿意度調(diào)查 華夏經(jīng)緯北京

行業(yè)動態(tài)

當(dāng)前位置:首頁 > 新聞中心 > 行業(yè)動態(tài) > 正文

重讀《大數(shù)據(jù)時代》:關(guān)于大數(shù)據(jù)的再認(rèn)識

時間:2018-09-26 14:39 閱讀:1208 整理:市場調(diào)研公司

《大數(shù)據(jù)時代:生活、工作與思維的大變革》是被譽為“大數(shù)據(jù)時代的預(yù)言家”的牛津大學(xué)教授維克托.邁克-舍恩伯格所寫的一本經(jīng)典大數(shù)據(jù)書籍,2013年筆者首讀此書,豁然開朗,其中很多的觀點振聾發(fā)聵,如果你還沒讀過此書,建議你可以讀一下。

一晃三年過去,筆者對于大數(shù)據(jù)也有了一些新的認(rèn)識, 無論是所謂的大數(shù)據(jù)帶來了思維方式上的變革,還是技術(shù)上的革命,或者商業(yè)模式或管理模式的改變,但從本質(zhì)的角度講,大數(shù)據(jù)還沒有達(dá)到所謂的高度,即大數(shù)據(jù)時代,其與信息時代的計算機、集成電路、光纖通信,互聯(lián)網(wǎng)相比,目前還無法媲美,衡量大數(shù)據(jù)成功的標(biāo)志,是是否推動了國家的人均信息消費水平達(dá)到一個新的高度(此句摘自李國杰院士)。

對于《大數(shù)據(jù)時代》此書提的很多觀點應(yīng)該用辯證的方法來看待,以下筆者就一些認(rèn)識上的一些爭議給出自己的理解,注意,后面有彩蛋,一定要看完哦:

“不是隨機樣本,而是全體數(shù)據(jù)”,實際大多并不是這樣

作者表達(dá)了一個觀點,“當(dāng)數(shù)據(jù)處理技術(shù)已經(jīng)發(fā)生了翻天覆地的變化時,在大數(shù)據(jù)時代進(jìn)行抽樣分析就像在汽車時代騎馬一樣。一切都改變了,我們需要的是所有的數(shù)據(jù),“樣本=總體””。

這種說法表明了一種新的認(rèn)知世界的方式,是一種新的趨勢,努力達(dá)到全量的確可以讓我們抓到了更多的細(xì)節(jié),讓我們擺脫傳統(tǒng)統(tǒng)計分析學(xué)的束縛,就好比以前預(yù)測美國總統(tǒng)大選,采用的是民意抽樣統(tǒng)計,而如今已經(jīng)可以對于社區(qū)用戶所有言論的判斷來更精準(zhǔn)的預(yù)測。

但是,現(xiàn)實世界很殘酷,大多數(shù)領(lǐng)域你其實無法拿到全量的數(shù)據(jù),或者,如果你要拿到全量的數(shù)據(jù),代價極其巨大,因此,大多數(shù)時候,我們用的大數(shù)據(jù)仍是局部的小數(shù)據(jù),沒有所謂“樣本=總體”的條件,傳統(tǒng)的以抽樣來理解這個世界的方式仍然有效,機器學(xué)習(xí)與統(tǒng)計學(xué)作為一種認(rèn)知世界的方法也將持續(xù)有效,前期的AlphaGo與李世石的人機大戰(zhàn)。AlphaGo只能用采樣的方式獲得有限的棋局進(jìn)行深度學(xué)習(xí)就是例證,因為你不可能拿到全部的樣本或者甚至是足夠的樣本,因為這個數(shù)量比全宇宙的原子還多。

當(dāng)然,對于國際象棋和中國象棋上,全量的數(shù)據(jù)已經(jīng)使得傳統(tǒng)勝負(fù)的玄妙缺失了意義,因此,可以這么大膽推測,當(dāng)某個領(lǐng)域具備“樣本=總體”的時候,就是該領(lǐng)域被大數(shù)據(jù)替換的時刻。

“不是精確性,而是混雜性”,沒能力但不能否定精確性的價值

作者表達(dá)了這樣一個觀點,執(zhí)迷于精確性是信息時代和模擬時代的產(chǎn)物。只有5%的數(shù)據(jù)是結(jié)構(gòu)化且能適用于傳統(tǒng)數(shù)據(jù)庫的。如果不接受混亂,剩下95%的非結(jié)構(gòu)化數(shù)據(jù)都無法被利用,只有接受不精確性,我們才能打開一扇從未涉足的世界的窗戶,大數(shù)據(jù)的簡單算法比小數(shù)據(jù)的復(fù)雜算法更有效。

傳統(tǒng)數(shù)據(jù)處理追求“精確度”,這種思維方式適用于掌握“小數(shù)據(jù)量”的情況,因為需要分析的數(shù)據(jù)很少,所以我們必須盡可能精準(zhǔn)地量化我們的記錄。大數(shù)據(jù)紛繁多樣,優(yōu)劣摻雜,分布廣泛。擁有了大數(shù)據(jù), 我們不再需要對一個現(xiàn)象刨根究底,只要掌握大體的發(fā)展方向即可,適當(dāng)忽略微觀層面上的精確度會讓我們在宏觀層面擁有更好的洞察力。

這段話說得沒錯,但我認(rèn)為大數(shù)據(jù)的復(fù)雜算法對于認(rèn)識這個世界更為重要,對于精準(zhǔn)性的把握始終是我們的目標(biāo),只是因為我們現(xiàn)在的算法太弱了,無法駕馭大數(shù)據(jù),才提簡單的算法。

比如,在工業(yè)界一直有個很流行的觀點:在大數(shù)據(jù)條件下,簡單的機器學(xué)習(xí)模型會比復(fù)雜模型更加有效。例如,在很多的大數(shù)據(jù)應(yīng)用中,最簡單的線性模型得到大量使用。而最近深度學(xué)習(xí)的驚人進(jìn)展,促使我們也許到了要重新思考這個觀點的時候。簡而言之,在大數(shù)據(jù)情況下,也許只有比較復(fù)雜的模型,或者說表達(dá)能力強的模型,才能充分發(fā)掘海量數(shù)據(jù)中蘊藏的豐富信息。運用更強大的深度模型,也許我們能從大數(shù)據(jù)中發(fā)掘出更多有價值的信息和知識。

為了理解為什么大數(shù)據(jù)需要深度模型,先舉一個例子。語音識別已經(jīng)是一個大數(shù)據(jù)的機器學(xué)習(xí)問題,在其聲學(xué)建模部分,通常面臨的是十億到千億級別的訓(xùn)練樣本。在Google的一個語音識別實驗中,發(fā)現(xiàn)訓(xùn)練后的DNN對訓(xùn)練樣本和測試樣本的預(yù)測誤差基本相當(dāng)。這是非常違反常識的,因為通常模型在訓(xùn)練樣本上的預(yù)測誤差會顯著小于測試樣本。因此,只有一個解釋,就是由于大數(shù)據(jù)里含有豐富的信息維度,即便是DNN這樣的高容量復(fù)雜模型也是處于欠擬合的狀態(tài),更不必說傳統(tǒng)的GMM聲學(xué)模型了。所以從這個例子中我們看出,大數(shù)據(jù)需要復(fù)雜深度學(xué)習(xí),毫無疑問AlphGo也必定是欠擬合的。

“不是因果關(guān)系,而是相關(guān)關(guān)系”,追求真理是我們永恒的目標(biāo)

作者提出了這樣一個觀點,尋找因果關(guān)系是人類長久以來的習(xí)慣。即使確定因果關(guān)系很困難而且用途不大,人類還是習(xí)慣性地尋找緣由。在大數(shù)據(jù)時代,我們無須再緊盯事物之間的因果關(guān)系,不再把分析建立在早已設(shè)立的假設(shè)的基礎(chǔ)之上。而應(yīng)該尋找事物之間的相關(guān)關(guān)系,讓大數(shù)據(jù)告訴我們“是什么”而不是“為什么”。

一方面,應(yīng)該承認(rèn)基于大數(shù)據(jù)的相關(guān)關(guān)系是我們認(rèn)識世界和改造世界的新的方式,從應(yīng)用科學(xué)的角度講,降低對于因果關(guān)系的追求可以讓大數(shù)據(jù)創(chuàng)造更大的價值。

另一方面,當(dāng)前階段由于我們對于世界的認(rèn)知太少,人類在有限的時間內(nèi)不可能找到“終極真理”,大量的規(guī)律通過大數(shù)據(jù)暴露出了蛛絲馬跡,即所謂的相關(guān)關(guān)系,但其本質(zhì)上仍是因果關(guān)系的體現(xiàn),因此兩者并不沖突。一個解決當(dāng)前問題,是近,一個解決長期問題,是遠(yuǎn),兩者相輔相成,無所謂誰替代誰。從社會角度來講,企業(yè)可以致力于大數(shù)據(jù)相關(guān)關(guān)系來創(chuàng)造更多的商機,而因果關(guān)系仍然是基礎(chǔ)研究需要追求的東西,不能說人類物質(zhì)上滿足了,就不去追求更為本原的東西。

同時,大數(shù)據(jù)方法也可以發(fā)現(xiàn)因果關(guān)系,2014年,美國國防高級研究計劃局啟動其“大機理”項目。目的是發(fā)展可以發(fā)現(xiàn)隱藏在大數(shù)據(jù)中因果模型。典型“大機理”例子就是,1854年的倫敦地圖顯示爆發(fā)霍亂和污染的公共水泵之間的聯(lián)系。該發(fā)現(xiàn)推翻了當(dāng)時認(rèn)為疾病是通過空氣傳播的認(rèn)識。大機理包含在巨大的、零碎的、有時相互矛盾的文獻(xiàn)和數(shù)據(jù)庫中,所以,沒有任何一個人可以理解該如此復(fù)雜的系統(tǒng),所以必須依靠計算機。

DARPA辦公室最初使用“大機理”工具來研究導(dǎo)致細(xì)胞癌變的復(fù)雜分子之間的相互作用。該方法包括使用電腦掃描癌癥類論文,來獲取癌癥路徑的有關(guān)數(shù)據(jù)。獲取的數(shù)據(jù)片段可以組成”前所未有規(guī)模和精度”的完整路徑,以此來確定傳遞路徑如何互動。最后,自動工具可以幫助確定因果關(guān)系,該因果關(guān)系可用來開發(fā)潛在治療癌癥的方法。科恩說:“分子生物學(xué)和癌癥文獻(xiàn)強調(diào)機理,論文描述蛋白質(zhì)如何影響其它蛋白質(zhì)的表達(dá),這些影響如何產(chǎn)生生物效果。電腦應(yīng)該可以被用來分析這些癌癥類論文中的因果關(guān)系。”通過強調(diào)因果模型和解釋,大機理將成為科學(xué)的未來。

“小數(shù)據(jù)的問題,大數(shù)據(jù)就能解決”,大數(shù)據(jù)并沒有解決小數(shù)據(jù)問題

大數(shù)據(jù)體現(xiàn)了4V特征,但我們現(xiàn)在碰到的數(shù)據(jù)仍是主要是小數(shù)據(jù),我們應(yīng)該抱著務(wù)實的態(tài)度去解決小數(shù)據(jù)的問題,小數(shù)據(jù)的問題并不會由于大數(shù)據(jù)的產(chǎn)生而自動解決。

統(tǒng)計學(xué)家們花了200多年,總結(jié)出認(rèn)知數(shù)據(jù)過程中的種種陷阱,這些陷阱并沒有被填平,比如采樣,大數(shù)據(jù)中有大量的小數(shù)據(jù)問題,這些問題不會隨著數(shù)據(jù)量的增大而消失,要注意數(shù)據(jù)(樣本)的偏差,比如Google的流感預(yù)測為什么近3年失敗,因為其隨機性實際不夠,比如媒體對于流感流行的報道會增加與流感相關(guān)的詞匯的搜索次數(shù),進(jìn)而影響Google的預(yù)測,對谷歌大肆炒作的流感跟蹤系統(tǒng)的研究結(jié)果發(fā)現(xiàn),該系統(tǒng)多年來一直高估美國的流感病例。這項失敗凸顯了依賴大數(shù)據(jù)技術(shù)的危險性。

“谷歌在2008年推出的流感趨勢系統(tǒng)監(jiān)測全美的網(wǎng)絡(luò)搜索,尋找與流感相關(guān)的詞語,比如“咳嗽”和“發(fā)燒”等。它利用這些搜索來提前9個星期預(yù)測可能與流感相關(guān)的就醫(yī)量。在過去3年,該系統(tǒng)一直高估與流感相關(guān)的就醫(yī)量,在這類數(shù)據(jù)最有用的流感季節(jié)高峰期尤其預(yù)測不準(zhǔn)確。在2012/2013流感季節(jié),它預(yù)測的就醫(yī)量是美國疾控中心(CDC)最終記錄結(jié)果的兩倍;在2011/2012流感季節(jié),它高估了逾50%。”

發(fā)人深省的彩蛋觀點,關(guān)于啤酒和尿布有點雷

(1)數(shù)據(jù)化,而不是數(shù)字化

所謂的數(shù)字化指的是把模擬數(shù)據(jù)轉(zhuǎn)換成用0和1表示的二進(jìn)制碼,而數(shù)據(jù)化是指把現(xiàn)象轉(zhuǎn)變成可制表分析的量化形式的過程,舉個例子,我們掃描實體書成為電子書,如果保存形式是圖片,這個只能叫作數(shù)字化,而我們通過字符識別軟件進(jìn)行了文本解析,圖像就變成了數(shù)據(jù)化文本,兩者有本質(zhì)的不同,萬物只有數(shù)據(jù)化后,才可以被量化,我們才能通過量化后的數(shù)據(jù)創(chuàng)造更多的價值。美國政府在提數(shù)據(jù)開放的時候,強調(diào)了開放的數(shù)據(jù)必須是可以有機讀的,就是這個意思,一個PDF的信息量跟一個WORD的信息量顯然是不一樣的。

(2)應(yīng)用為王,不要迷信技術(shù)

目前各類企業(yè)都在建設(shè)大數(shù)據(jù)中心,但成本其實很大,當(dāng)前的新的信息技術(shù)層出不窮,不斷冒出新概念,新名詞,大數(shù)據(jù)技術(shù)其實還在不停的發(fā)展,現(xiàn)階段,應(yīng)該充分考慮成本因素,抱著應(yīng)用為先的態(tài)度,技術(shù)始終要為應(yīng)用服務(wù),我們應(yīng)該致力于用技術(shù)解決業(yè)務(wù)問題,而不是被潮流技術(shù)牽著鼻子走。不用迷信Google等技術(shù)公司的創(chuàng)新,有的放矢的借鑒,BAT做得足夠好,不要去貶低這些公司的技術(shù)創(chuàng)新性,不要用Google的AlphGo去鄙視百度的人工智能,應(yīng)用始終為王,百度發(fā)明的人工智能輸入實際應(yīng)用意義可能遠(yuǎn)大于AlphaGo。

(3)隱私問題,不是那么簡單

告知與許可也許已經(jīng)是世界各地執(zhí)行隱私政策的基本法則,但這個法則有問題,大數(shù)據(jù)時代,很多數(shù)據(jù)在收集時并無意用于其它用途,但最終往往是二次開發(fā)利用創(chuàng)造了價值,公司無法告知用戶尚未想到的用途,而個人也無法同意這種尚是未知的用途。如果谷歌要使用檢測詞預(yù)測流感的話,必須征得數(shù)億用戶的同意,就算沒有技術(shù)障礙,有哪個公司能負(fù)擔(dān)得起。

同樣,所謂的匿名化在小數(shù)據(jù)時代的確可以,但是隨著數(shù)據(jù)量和種類的增多,大數(shù)據(jù)促進(jìn)了數(shù)據(jù)內(nèi)容的交叉檢驗。

政府在未來制定相關(guān)法規(guī)的時候,應(yīng)該充分尊重事實,也許提前預(yù)防永遠(yuǎn)無法解決大數(shù)據(jù)應(yīng)用和隱私問題。

(4)大數(shù)據(jù)的驅(qū)動效應(yīng)

大家所說的大數(shù)據(jù)是沙里淘金,大海撈針,導(dǎo)致人們總是渴望從大數(shù)據(jù)挖掘出意想不到的“價值”。實際上大數(shù)據(jù)更大的價值是帶動有關(guān)的科研和產(chǎn)業(yè),提高個行業(yè)通過數(shù)據(jù)分析解決困難問題和增值的能力,大數(shù)據(jù)價值體現(xiàn)在它的驅(qū)動效益。

所謂的“啤酒與尿布”的數(shù)據(jù)挖掘經(jīng)典案例,其實是Teradata公司的一位經(jīng)理編造出來的“故事”,歷史上并沒有發(fā)生過,這個天雷滾滾啊。

馮.諾依曼指出:“在每一門學(xué)科中,當(dāng)通過研究那些與終極目標(biāo)相比頗為樸實的問題,發(fā)展出一些可以不斷加以推廣的方法時,這門學(xué)科就得到了巨大的進(jìn)展。”在發(fā)展大數(shù)據(jù)技術(shù)和產(chǎn)業(yè)中,不應(yīng)天天期盼奇跡出現(xiàn),而應(yīng)扎實多做“頗為樸實”的事,培育數(shù)據(jù)文化,打造大數(shù)據(jù)應(yīng)用環(huán)境,提高決策合理性,開拓新的數(shù)據(jù)應(yīng)用。

深有感觸,大數(shù)據(jù)推動了企業(yè)的數(shù)據(jù)文化,大家對于數(shù)據(jù)有了新的認(rèn)識和充分的尊重,即使我們在用得大多仍然是小數(shù)據(jù),那又如何,只要我們的心中的數(shù)據(jù)已經(jīng)足夠大。

關(guān)注公眾號
獲取更多行業(yè)資訊

免責(zé)聲明:
本站文章內(nèi)容以及所涉數(shù)據(jù)、圖片等資料來源于網(wǎng)絡(luò),轉(zhuǎn)載目的在于傳遞更多信息。版權(quán)歸作者所有,文章僅代表作者觀點,不代表華夏經(jīng)緯立場。 如涉及侵權(quán),請聯(lián)系管理員刪除。在法律許可的范圍內(nèi),華夏經(jīng)緯(廣州)數(shù)據(jù)科技股份有限公司享有最終解釋權(quán)。

相關(guān)新聞

QQ在線咨詢
給我們留言

咨詢電話

010-88998848

關(guān)注公眾號

電話回?fù)?/p>

主站蜘蛛池模板: 在线精品自偷自拍无码| 成人禁片免费播放35分钟| 一本av高清一区二区三区| 国产开嫩苞实拍在线播放视频| 蜜芽tv国产在线精品三区| 国产精品午夜不卡片在线| 国产成人精品97| 狠狠综合久久久久综合网小蛇| 青楼妓女禁脔道具调教sm| 亚洲色中文字幕在线播放| 十八禁无码免费网站| 亚洲国产成人精品福利| 国自产拍偷拍精品啪啪| 国模无码人体一区二区| 亚洲一区二区三区 无码| 最新国产在线拍揄自揄视频| 国产av激情无码久久| 极品无码人妻巨屁股系列| 2021久久国自产拍精品| 999久久久免费精品播放| 亚洲精品久久久久久久观看| 日日澡夜夜澡人人高潮| 特殊重囗味sm在线观看无码| 少妇被黑人4p到惨叫在线观看| 久久www成人看片免费不卡| 少妇人妻无码精品视频app| 午夜性无码专区| 国产亚洲欧美另类一区二区三区| 免费无码鲁丝片一区二区| 中文无码精品a∨在线观看| 国产精品 中文字幕 亚洲 欧美 | 无遮挡h肉动漫在线观看| www国产成人免费观看视频| 中文字字幕在线精品乱码| 人妻丝袜中文无码av影音先锋 | 久久综合色_综合色88| 日韩午夜理论片 中文字幕| 天天av天天爽无码中文| 黑人巨大精品oideo| 亚洲精品久久久久高潮| 日本熟熟妇xxxxx精品熟妇|