Spark SQL - pyspark 接口文档

一、对接 Hive Thriftserver

1. 安装 python 类包

  • 可以直接使用 python 的 hiveServer2 客户端连接
  • hiveServer2 文档

    1. 1. 安装 : pip install pyhs2
    2. 2. Thrift JDBC/ODBC server 实现对应于 HiveServer2 in Hive 0.13. 这是官方的说明,所以我们可以直接适用 hiveServer2 的客户端操作 Spark-Sql
    3. 3. 拷贝 $HIVE_HOME/conf/hive-site.xml $SPARK_HOME/conf/hive-site.xml
    4. 4. 其他参考官方配置
    5. spark-sql 文档 : http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases
    6. 和官方的 deploying 部署文档 : http://spark.apache.org/docs/latest/cluster-overview.html

2. python sql 客户端接口

  1. 1) 连接客户端
  2. pyspark --help
  3. pyspark \
  4. --master spark://uhadoop-ociicy-task3:7077
  5. 2) 操作
  6. from pyspark.sql import HiveContext
  7. sqlContext = HiveContext(sc)
  8. u'游标'
  9. cursor = sqlContext.sql("use dw_db")
  10. cursor = sqlContext.sql("show tables")
  11. u'输出结果'
  12. print cursor.collect()
  • pyspark使用注意点:

    • 如果python代码中使用第三方包,hadoop集群中所有work节点都需要安装
    • Spark的 DataFrame 转Pandas的DataFrame 可以使用 toPandas()方法
    • 提交代码执行 spark-submit a.py —master yarn-client