大數據存儲階段:hbase,hive,sqoop。
大數據架構設計階段:Flume distributed,Zookeeper,Kafka。
大數據實時計算階段:Mahout,Spark,storm。
大數據數據收集階段:Python,Scala。
大數據業務實踐階段:企業大數據處理業務場景實際操作、需求分析、解決方案實施、綜合技術實際應用。
大數據(Megadata),或稱巨量數據,是指海量、高增長、多樣化的信息資產,需要新的處理模式,以具備更強的決策、洞察和流程優化能力。在維克多·邁耶-勛伯格和肯尼斯·庫克耶合著的《大數據時代》中,大數據是指所有的數據都用於分析和處理,而沒有隨機分析(抽樣調查)的捷徑。大數據的5V特征:體量(海量)、速度(高速)、多樣性(多樣性)、價值(價值密度)、真實性。
大數據的五個“V”或特征有五個級別:
第壹,數據量巨大。
從TB級跳到PB級。
第二,數據類型多。
前面提到的博客、視頻、圖片、地理信息等等。
第三,價值密度低。
以視頻為例,在持續監控的過程中,可能有用的數據只有壹兩秒鐘。
第四,處理速度快。
1第二定律。最後,這壹點也與傳統的數據挖掘技術有著本質的區別。業內將其歸類為四個“V”——成交量、品種、價值、速度。
物聯網,雲計算,移動互聯網,車聯網,手機,平板電腦,PC,遍布全球的各種傳感器,都是數據來源或者承載方式。