Linux:因為大數據相關的軟件運行在Linux上,所以要把Linux學紮實。學好Linux對妳快速掌握大數據相關技術有很大的幫助,能讓妳更好的了解hadoop、hive、hbase、spark等大數據軟件的運行環境和網絡環境配置。,讓妳少踩很多坑,學會理解腳本,讓妳更容易理解和配置大數據集群。
Hadoop:這是壹個流行的大數據處理平臺,幾乎成了大數據的代名詞,所以這是必須的。
動物園管理員:這是靈丹妙藥。安裝Hadoop的HA時會用到,以後的Hbase也會用到。
Mysql:我們已經學完了大數據的處理,接下來還要學習小數據的處理工具mysql數據庫,因為後面安裝hive的時候會用到。mysql需要掌握什麽水平?您可以在Linux上安裝它,運行它,配置簡單的權限,修改root的密碼,並創建壹個數據庫。
Sqoop:用於將數據從Mysql導入Hadoop。
Hive:這個東西是懂SQL語法的人的神器。它可以讓妳輕松處理大數據。
Oozie:既然妳已經學會了Hive,我肯定妳需要這個東西。它可以幫助妳管理妳的Hive或者MapReduce或者Spark腳本,檢查妳的程序是否正確執行。
Hbase:這是Hadoop生態系統中的NOSQL數據庫。它的數據以鍵和值的形式存儲,鍵是唯壹的,所以可以用來復制數據。與MYSQL相比,它可以存儲更多的數據。
卡夫卡:這是壹個很好的排隊工具。
Spark:用來彌補基於MapReduce的數據處理速度的不足。