1、win10环境下,下载linux版本hadoop,解压
http://archive.apache.org/dist/hadoop/common/
2、下载win10下bin文件,替换掉linux版本bin文件
https://github.com/steveloughran/winutils
3、下载scala,并解压
https://www.scala-lang.org/download/
4、配置hadoop、scala环境变量
5、IDEA下下载scala插件
6、创建maven项目
7、Global Libraries里点击”+”号,添加scala的sdk
8、在项目src\main目录下新建scala的目录;
9、将Moudles里面,将scala目录设置为source目
10、添加maven依赖
spark-core_2.12这里的2.12指的是spark-core兼容scala的sdk版本为2.12,这里的版本一定要与scala的版本对应,否则编译会报错
<?xml version="1.0" encoding="UTF-8"?>
<project xmlns="http://maven.apache.org/POM/4.0.0"
xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"
xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/xsd/maven-4.0.0.xsd">
<modelVersion>4.0.0</modelVersion>
<groupId>macro.com</groupId>
<artifactId>test</artifactId>
<version>1.0-SNAPSHOT</version>
<properties>
<spark.version>2.4.0</spark.version>
<hadoop.version>2.7.3</hadoop.version>
</properties>
<dependencies>
<!-- Spark依赖关系 -->
<dependency>
<groupId>org.apache.spark</groupId>
<artifactId>spark-core_2.12</artifactId>
<version>${spark.version}</version>
</dependency>
<dependency>
<groupId>org.apache.hadoop</groupId>
<artifactId>hadoop-client</artifactId>
<version>${hadoop.version}</version>
</dependency>
<!-- https://mvnrepository.com/artifact/com.thoughtworks.paranamer/paranamer
升级 你的 paranamer 到2.8 ,这是由于你的jdk版本1.8导致
-->
<dependency>
<groupId>com.thoughtworks.paranamer</groupId>
<artifactId>paranamer</artifactId>
<version>2.8</version>
</dependency>
</dependencies>
</project>
13、开发
- 新建一个txt文本文件,在里面输入若干单词、
- 建一个scala object,命名为WordCount
- 代码如下
- 结果如下