如何使用Spark SQL的JDBC服務器

運行時環境

集群環境:CDH5.3.0

具體的JAR版本如下:

Spark版本:1.2.0-cdh5.3.0

蜂巢版本:0.13.1-cdh5.3.0

Hadoop版本:2.5.0-cdh5.3.0

啟動JDBC服務器

cd /etc/spark/conf

ln-s/etc/hive/conf/hive-site . XML hive-site . XML

CD/opt/cloud era/parcels/CDH/lib/spark/

chmod- -R 777日誌/

CD/opt/cloud era/parcels/CDH/lib/spark/sbin

。/start-thrift server . sh-master yarn-hive conf hive . server 2 . thrift . port = 10008

用直線連接到JDBC服務器

CD/opt/cloud era/parcels/CDH/lib/spark/bin

beeline-u JDBC:hive 2://Hadoop 04:10000

[root @ Hadoop 04 bin]# beeline-u JDBC:hive 2://Hadoop 04:10000

掃描在2毫秒內完成

連接到JDBC:hive 2://Hadoop 04:10000

連接到:Spark SQL(版本1.2.0)

驅動程序:Hive JDBC(版本0.13.1-cdh5.3.0)

事務隔離:事務可重復讀取

Apache Hive的Beeline版本0.13.1-cdh5.3.0

0:JDBC:hive 2://Hadoop 04:10000 & gt；

使用直線

在Beeline客戶端中，您可以使用標準的HiveQL命令來創建、列出和查詢表格。妳可以在HiveQL語言手冊中找到Hive QL的全部細節，但是在這裏，我們展示壹些常見的操作。

如果不存在，則創建表mytable (key INT，value STRING)

以“，”結尾的行格式分隔字段。

創建表mytable(名稱字符串、地址字符串、狀態字符串)行格式以“#”結尾的分隔字段

#加載本地文件

將數據本地路徑'/external/tmp/data.txt '加載到表mytable中

#加載hdfs文件

將路徑“HDFS://ju 51nn/external/tmp/data . txt”中的數據加載到表mytable中；

描述我的表；

解釋select * from my table where name = '張三'

select * from my table where name = ' Zhang San '

緩存表mytable

select count(*) total，count(distinct addr) num1，count(distinct status)num 2 from my table其中addr = ' gz

取消緩存表mytable

使用數據示例

張三#廣州#學生

李四#貴州#老師

王武#武漢#講師

劉釗#成都#學生

麗莎#廣州#學生

莉莉# gz #斯圖丁

獨立Spark SQL Shell

Spark SQL還支持壹個簡單的shell，可以作為壹個進程使用:spark-sql

它主要用於本地開發環境。請在* * *集群環境中使用JDBC服務器。

CD/opt/cloud era/parcels/CDH/lib/spark/bin

。/spark-sql