编写Spark程序

  1. val conf=new SparkConf().setMaster("local").setAppName() //1.以本地形式运行
  2. val sc=new SparkContext(conf)
  3. val input='D:\\words.txt'
  4. val fm=sc.textFile(input).flatMap(x=>x.split(""))
  5. val count=fm.map(x=>(x,1).reduceByKey((x,y)=>x+y))
  6. val conf=new SparkConf().setMaster("").setAppName()
  7. val sc=new SpackContext(conf)
  8. val input=''
  9. val fm=sc.textFile().flatMap(x=>x.split(""))

image.png
集群运行

  1. ./spark-submit --master yarn-cluster --class 程序入口 jar包路径 输入文件路径 输出文件路径
  2. 例:./spark-submit --master yarn-cluster --class demo.spark.WorldCount /opt/word.jar /user/root/words.txt /user/root/word_count

持久化

  1. new RDD.cache();

数据分区

  1. partitionBy()