涉及到很多算法,比如機器學習衍生的神經網絡和決策樹,基於統計學習理論的支持向量機,分類回歸樹,相關分析等。
數據挖掘的定義是從海量數據中發現有意義的模式或知識。
大數據有三個重要特征:數據量大、結構復雜、數據更新快。
由於web技術的發展,Web用戶產生的數據自動保存,傳感器不斷收集數據,移動互聯網的發展,數據自動收集和存儲的速度不斷加快,世界上的數據量不斷擴大。數據的存儲和計算超出了單臺計算機(小型機和大型機)的能力,這對數據挖掘技術的實現提出了挑戰(壹般來說,數據挖掘的實現是基於壹臺小型機或大型機,也可以進行並行計算)。
Google提出了分布式存儲文件系統,並發展了後來的雲存儲和雲計算的概念。
大數據需要映射成小單元進行計算,然後將所有結果進行整合,也就是所謂的map-reduce算法框架。
單臺計算機上的計算仍然需要采用壹些數據挖掘技術,不同的是壹些原有的數據挖掘技術可能不容易嵌入到map-reduce框架中,壹些算法需要調整。
此外,大數據處理能力的提升也對統計學提出了新的挑戰。
統計理論往往是基於樣本的,但在大數據時代,可能得到的是總體,而不是全無回抽樣。