專屬客服號
微信訂閱號
全面提升數據價值
賦能業務提質增效
作為全球最大的搜索引擎公司,Google也是我們公認的大數據鼻祖,它存儲著大量能夠進行訪問的網頁,數目可能已經達到了萬億規模,如果要將這些數據全部存儲起來,大約需要數萬塊磁盤。
大數據應用的搜索引擎時代
針對數據的存儲問題,Google開發了GFS文件系統,將數千臺的服務器同時進行管理,并將其作為一個文件系統,存儲所有的網頁文件。
在發展文件存儲以外,谷歌還設計了PageRank算法,在對文件系統中文件發生的詞匯進行整理和統計之后,利用PageRank進行詞匯排名,MapReduce的大數據框架也是為了進行數據的規劃和統計而出現的。
在當時,Google的大數據技術和PageRank也讓當時的它超過了當時的Yahoo,成為當時的搜索引擎巨頭。而Google后期對于Hadoop平臺的積極建設,也為它的后期發展增添了一份力量。
大數據應用的數據倉庫時代
如果MapReduce的推出是為了進行數據的關鍵排名,那么后期Hive的推出,則為使用數據庫語言進行MapReduce的數據分析提供了方法,Hive的出現大大簡化了使用大數據進行數據分析的過程,為我們進行海量數據處理提供了可能。
成本的降低,方式的便利,意味著我們能夠進行分析的數據類型在逐漸增多,我們不僅可以分析各詞匯出現的頻率進行排名,還可以對瀏覽器的運行日志、應用采集數據、數據庫數據進行綜合分析。
Hive的發展推動了大數據的實際應用,同時為大數據的挖掘做了鋪墊。
大數據應用的數據挖掘時代
除了數據統計,我們自然希望發掘更多的數據價值,這就是數據的挖掘時代。
在商業環境中,通過解讀商品和商品,商品和用戶的關聯關系,就可以進行關聯分析,最終目的是讓用戶盡可能看到想購買的商品。
數據挖掘將高性能計算、機器學習、人工智能、模式識別、統計學、數據可視化、數據庫技術和專家系統等多個范疇的理論和技術融合在一起。大數據時代對數據挖掘而言,既是機遇也是挑戰,分析大數據,建立適當的體系,不斷地優化,提高決策的準確性,從而更利于掌握并順應市場的多端變化。
在大數據時代下,數據挖掘作為最常用的數據分析手段得到了各個領域的認可,目前國內外學者主要研究數據挖掘中的分類、優化、識別、預測等技術在眾多領域中的應用。
大數據應用的機器學習時代
比如,把歷史上人類圍棋對弈的棋譜數據都存儲起來,針對每一種盤面記錄何種落子可以得到更高的贏面。得到這個統計規律以后,就可以利用這個規律和人下棋,每一步都計算落在何處將得到更大的贏面,于是我們就得到了一個會下棋的機器人,這就是前兩年轟動一時的AlphaGo,以壓倒性優勢下贏了人類的頂尖棋手。
要進行機器學習首先,我們需要在計算機中存儲歷史的數據。接著,我們將這些 數據通過機器學習算法進行處理,這個過程在機器學習中叫做“訓練”,處理的結果可以被我們用來對新的數據進行預測,這個結果一般稱之為“模型”。對新數據 的預測過程在機器學習中叫做“預測”。“訓練”與“預測”是機器學習的兩個過程,“模型”則是過程的中間輸出結果,“訓練”產生“模型”,“模型”指導 “預測”。
通過對機器學習的關系對應,我們會發現,機器學習只是對人類行為的分析和總結。它的結論不是計算機計算獲取,而是通過機器學習分析到的,歸納法得到的事件相關關系。
本文由五度數科整理,轉載請標明出處,違者必究!
請完善以下信息,我們的顧問會在1個工作日內與您聯系,為您安排產品定制服務
評論