北大青鳥java培訓:大數據和數據挖掘有什麽關系？

數據挖掘以數據庫理論、機器學習、人工智能和現代統計學為基礎，已經在很多領域得到應用。

涉及到很多算法，比如機器學習衍生的神經網絡和決策樹，基於統計學習理論的支持向量機，分類回歸樹，相關分析等。

數據挖掘的定義是從海量數據中發現有意義的模式或知識。

大數據有三個重要特征:數據量大、結構復雜、數據更新快。

由於web技術的發展，Web用戶產生的數據自動保存，傳感器不斷收集數據，移動互聯網的發展，數據自動收集和存儲的速度不斷加快，世界上的數據量不斷擴大。數據的存儲和計算超出了單臺計算機(小型機和大型機)的能力，這對數據挖掘技術的實現提出了挑戰(壹般來說，數據挖掘的實現是基於壹臺小型機或大型機，也可以進行並行計算)。

Google提出了分布式存儲文件系統，並發展了後來的雲存儲和雲計算的概念。

大數據需要映射成小單元進行計算，然後將所有結果進行整合，也就是所謂的map-reduce算法框架。

單臺計算機上的計算仍然需要采用壹些數據挖掘技術，不同的是壹些原有的數據挖掘技術可能不容易嵌入到map-reduce框架中，壹些算法需要調整。

此外，大數據處理能力的提升也對統計學提出了新的挑戰。

統計理論往往是基於樣本的，但在大數據時代，可能得到的是總體，而不是全無回抽樣。