Spark SQL - pyspark 接口文档
- Spark SQL Python Doc Index : http://spark.apache.org/docs/1.5.2/sql-programming-guide.html
一、对接 Hive Thriftserver
1. 安装 python 类包
- 可以直接使用 python 的 hiveServer2 客户端连接
-
1. 安装 : pip install pyhs22. Thrift JDBC/ODBC server 实现对应于 HiveServer2 in Hive 0.13. 这是官方的说明,所以我们可以直接适用 hiveServer2 的客户端操作 Spark-Sql3. 拷贝 $HIVE_HOME/conf/hive-site.xml 到 $SPARK_HOME/conf/hive-site.xml 中4. 其他参考官方配置spark-sql 文档 : http://spark.apache.org/docs/latest/sql-programming-guide.html#jdbc-to-other-databases和官方的 deploying 部署文档 : http://spark.apache.org/docs/latest/cluster-overview.html
2. python sql 客户端接口
1) 连接客户端pyspark --helppyspark \--master spark://uhadoop-ociicy-task3:70772) 操作from pyspark.sql import HiveContextsqlContext = HiveContext(sc)u'游标'cursor = sqlContext.sql("use dw_db")cursor = sqlContext.sql("show tables")u'输出结果'print cursor.collect()
pyspark使用注意点:
- 如果python代码中使用第三方包,hadoop集群中所有work节点都需要安装
- Spark的 DataFrame 转Pandas的DataFrame 可以使用 toPandas()方法
- 提交代码执行 spark-submit a.py —master yarn-client
