集群環境:CDH5.3.0
具體的JAR版本如下:
Spark版本:1.2.0-cdh5.3.0
蜂巢版本:0.13.1-cdh5.3.0
Hadoop版本:2.5.0-cdh5.3.0
啟動JDBC服務器
cd /etc/spark/conf
ln-s/etc/hive/conf/hive-site . XML hive-site . XML
CD/opt/cloud era/parcels/CDH/lib/spark/
chmod- -R 777日誌/
CD/opt/cloud era/parcels/CDH/lib/spark/sbin
。/start-thrift server . sh-master yarn-hive conf hive . server 2 . thrift . port = 10008
用直線連接到JDBC服務器
CD/opt/cloud era/parcels/CDH/lib/spark/bin
beeline-u JDBC:hive 2://Hadoop 04:10000
[root @ Hadoop 04 bin]# beeline-u JDBC:hive 2://Hadoop 04:10000
掃描在2毫秒內完成
連接到JDBC:hive 2://Hadoop 04:10000
連接到:Spark SQL(版本1.2.0)
驅動程序:Hive JDBC(版本0.13.1-cdh5.3.0)
事務隔離:事務可重復讀取
Apache Hive的Beeline版本0.13.1-cdh5.3.0
0:JDBC:hive 2://Hadoop 04:10000 & gt;
使用直線
在Beeline客戶端中,您可以使用標準的HiveQL命令來創建、列出和查詢表格。妳可以在HiveQL語言手冊中找到Hive QL的全部細節,但是在這裏,我們展示壹些常見的操作。
如果不存在,則創建表mytable (key INT,value STRING)
以“,”結尾的行格式分隔字段。
創建表mytable(名稱字符串、地址字符串、狀態字符串)行格式以“#”結尾的分隔字段
#加載本地文件
將數據本地路徑'/external/tmp/data.txt '加載到表mytable中
#加載hdfs文件
將路徑“HDFS://ju 51nn/external/tmp/data . txt”中的數據加載到表mytable中;
描述我的表;
解釋select * from my table where name = '張三'
select * from my table where name = ' Zhang San '
緩存表mytable
select count(*) total,count(distinct addr) num1,count(distinct status)num 2 from my table其中addr = ' gz
取消緩存表mytable
使用數據示例
張三#廣州#學生
李四#貴州#老師
王武#武漢#講師
劉釗#成都#學生
麗莎#廣州#學生
莉莉# gz #斯圖丁
獨立Spark SQL Shell
Spark SQL還支持壹個簡單的shell,可以作為壹個進程使用:spark-sql
它主要用於本地開發環境。請在* * *集群環境中使用JDBC服務器。
CD/opt/cloud era/parcels/CDH/lib/spark/bin
。/spark-sql