spark dataframe存储到本地csv或者txt,会基于hahoop存储为一个文件夹如a.csv文件夹。
为了存储为单一文件的方式如下:
1.
df.coalesce(1).write.csv('result.csv')
coalesce(num),Returns a new
DataFrame
that has exactly numPartitions partitions.作为一个整体返回。
2.toPandas()
变为pandas的dataframe来存储,用to_csv等接口,确定,要保证内存够用,后者一些琐碎文件可以用mode=‘a’追加的方式,不断循环存储为一个csv到本地。
版权声明:本文为mycorecpu原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。