Java Spark RDD读取GBK格式的文件

  • Post author:
  • Post category:java


1、由于jsc.textFile(path)默认读取UTF-8编码格式的文件,因此读取GBK格式的文件需要做一些特殊的处理。

2、程序如下:

SparkConf conf = new SparkConf()



.setMaster(“local[*]”)//本地运行需要加这句话,若放在集群上注释掉即可



.setAppName(“GBK READ”);//这个名字可以随意命名



JavaSparkContext jsc = new JavaSparkContext(conf);



JavaPairRDD<LongWritable,Text> pair = jsc.hadoopFile(“d:\\AA.txt”, TextInputFormat.class, LongWritable.class, Text.class, 1);//这里的1可以改为线程数,例如如果执行的num-executors为16,则可以改为16



JavaPairRDD<LongWritable, String> mapValues = pair.mapValues(new Function<Text, String>(){




@Override



public String call(



版权声明:本文为yeqingyun2012原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。