當前位置:商標查詢大全網 - 教育培訓 - 北大青鳥java培訓:大數據和數據挖掘有什麽關系?

北大青鳥java培訓:大數據和數據挖掘有什麽關系?

數據挖掘以數據庫理論、機器學習、人工智能和現代統計學為基礎,已經在很多領域得到應用。

涉及到很多算法,比如機器學習衍生的神經網絡和決策樹,基於統計學習理論的支持向量機,分類回歸樹,相關分析等。

數據挖掘的定義是從海量數據中發現有意義的模式或知識。

大數據有三個重要特征:數據量大、結構復雜、數據更新快。

由於web技術的發展,Web用戶產生的數據自動保存,傳感器不斷收集數據,移動互聯網的發展,數據自動收集和存儲的速度不斷加快,世界上的數據量不斷擴大。數據的存儲和計算超出了單臺計算機(小型機和大型機)的能力,這對數據挖掘技術的實現提出了挑戰(壹般來說,數據挖掘的實現是基於壹臺小型機或大型機,也可以進行並行計算)。

Google提出了分布式存儲文件系統,並發展了後來的雲存儲和雲計算的概念。

大數據需要映射成小單元進行計算,然後將所有結果進行整合,也就是所謂的map-reduce算法框架。

單臺計算機上的計算仍然需要采用壹些數據挖掘技術,不同的是壹些原有的數據挖掘技術可能不容易嵌入到map-reduce框架中,壹些算法需要調整。

此外,大數據處理能力的提升也對統計學提出了新的挑戰。

統計理論往往是基於樣本的,但在大數據時代,可能得到的是總體,而不是全無回抽樣。