编写Spark程序
val conf=new SparkConf().setMaster("local").setAppName() //1.以本地形式运行
val sc=new SparkContext(conf)
val input='D:\\words.txt'
val fm=sc.textFile(input).flatMap(x=>x.split(""))
val count=fm.map(x=>(x,1).reduceByKey((x,y)=>x+y))
val conf=new SparkConf().setMaster("").setAppName()
val sc=new SpackContext(conf)
val input=''
val fm=sc.textFile().flatMap(x=>x.split(""))
集群运行
./spark-submit --master yarn-cluster --class 程序入口 jar包路径 输入文件路径 输出文件路径
例:./spark-submit --master yarn-cluster --class demo.spark.WorldCount /opt/word.jar /user/root/words.txt /user/root/word_count
持久化
new RDD.cache();
数据分区
partitionBy()