pycharm搭建spark环境
- 安装python环境 windows下有安装包,自行下载安装即可
- 安装spark环境
- 官网下载
spark-2.3.1-bin-hadoop2.7
包,解压即可 - 配置
HADOOP_HOME:D:\softwares\Java\hadoop-2.7.7SPARK_HOME:D:\softwares\Java\spark-2.3.1-bin-hadoop2.7PATH:%SPARK_HOME%\bin;%HADOOP_HOME%\bin;
- 官网下载
- 配置python-spark环境
- 将spark目录
D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib
下的py4j-0.10.7-src.zip
解压 - 将解压后的
py4j
放到 python 目录D:\softwares\Java\Python36\Lib\site-packages
下 - 提示:python 和 spark 的安装目录自行替换
- 将spark目录
- 下载安装pycharm
- 创建项目
- 创建python文件,内容如下:
from pyspark import SparkConf, SparkContextconf = SparkConf().setMaster('local').setAppName('JackManWu')sc = SparkContext(conf=conf)lines = sc.textFile("D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\README.md")print(lines.count())
- 点击run运行,结果如下:
2018-08-20 17:30:13 WARN NativeCodeLoader:62 - Unable to load native-hadoop library for your platform... using builtin-java classes where applicableSetting default log level to "WARN".To adjust logging level use sc.setLogLevel(newLevel). For SparkR, use setLogLevel(newLevel).2018-08-20 17:30:15 WARN Utils:66 - Service 'SparkUI' could not bind on port 4040. Attempting port 4041.103
- 运行是没有问题,但是在pycharm中,
pyspark
,SparkConf
和SparkContext
会有红色波浪线,而且也没有spark的代码智能提示、补全等,极不方便,如下方法可以解决:- 点击File->Settings,在左侧导航栏找到自己的项目,点击
Project Structure
,在面板右侧,点击Add Content Root
,将spark目录D:\softwares\Java\spark-2.3.1-bin-hadoop2.7\python\lib
下的pyspark.zip
的文件添加进项目中,即可解决红色波浪线及智能提示补全问题。
- 点击File->Settings,在左侧导航栏找到自己的项目,点击