使用pycharm运行pyspark有两种方法:
临时运行
方法:一是在运行程序中加载一些环境变量信息
永久配置
方法:二是在pycharm软件中配置一些环境变量信息
1.Pycharm运行spark程序方法1:每次都需在程序中配置相关路径
本人ubuntu相关软件安装的路径:
spark:/usr/local/spark
java_jdk:/usr/lib/jvm/jdk1.8.0_162
新建一个py文件输入以下内容:
import os
import sys
# Path for spark source folder
os.environ[‘SPARK_HOME’] = “/usr/local/spark”
#根据自己的spark路径配置
os.environ[‘JAVA_HOME’]=’/usr/lib/jvm/jdk1.8.0_162′
#根据自己的jdk路径配置 ,不加这句话会导致以下错误
# You might need to enter your local IP #不知道什么时候有用?
# os.environ[‘SPARK_LOCAL_IP’]=”192.168.2.138″
# Path for pyspark and py4j
#加载pyspark和py4j这两个文件
sys.path.append(“/usr/local/spark/python”)
sys.path.append(“/usr/local/spark/python/lib/py4j-0.10.7-src.zip”)
try:
from pyspark import SparkContext
from pyspark import SparkConf
print (“Successfully imported Spark Modules”)
except ImportError as e:
print (“Can not import Spark Modules”, e)
sys.exit(1)
sc = SparkContext(‘local’)
words = sc.parallelize([“scala”, “java”, “hadoop”, “spark”, “akka”])
print(words.count())
以上代码在每一个单独的py程序都需要添加。
成功运行便会出现以下画面:
解决pycharm中spark无法自动补全问题:
https://blog.csdn.net/sa726663676/article/details/113540095
2.Pycharm运行spark程序方法2:在IDE中仅一次配置相关路径
未实验
以上内容部分参考自:
https://blog.csdn.net/cds86333774/article/details/51264073