Java Spark RDD读取GBK格式的文件

Post author:xfxia
Post published:2023年9月18日
Post category:java

1、由于jsc.textFile(path)默认读取UTF-8编码格式的文件，因此读取GBK格式的文件需要做一些特殊的处理。

2、程序如下：

SparkConf conf = new SparkConf()

.setMaster(“local[*]”)//本地运行需要加这句话，若放在集群上注释掉即可

.setAppName(“GBK READ”);//这个名字可以随意命名

JavaSparkContext jsc = new JavaSparkContext(conf);

JavaPairRDD<LongWritable,Text> pair = jsc.hadoopFile(“d:\\AA.txt”, TextInputFormat.class, LongWritable.class, Text.class, 1);//这里的1可以改为线程数，例如如果执行的num-executors为16，则可以改为16

JavaPairRDD<LongWritable, String> mapValues = pair.mapValues(new Function<Text, String>(){

@Override

public String call(

原文链接：https://blog.csdn.net/yeqingyun2012/article/details/80021567

Tags: java

你可能也喜欢