1、由于jsc.textFile(path)默认读取UTF-8编码格式的文件,因此读取GBK格式的文件需要做一些特殊的处理。
2、程序如下:
SparkConf conf = new SparkConf()
.setMaster(“local[*]”)//本地运行需要加这句话,若放在集群上注释掉即可
.setAppName(“GBK READ”);//这个名字可以随意命名
JavaSparkContext jsc = new JavaSparkContext(conf);
JavaPairRDD<LongWritable,Text> pair = jsc.hadoopFile(“d:\\AA.txt”, TextInputFormat.class, LongWritable.class, Text.class, 1);//这里的1可以改为线程数,例如如果执行的num-executors为16,则可以改为16
JavaPairRDD<LongWritable, String> mapValues = pair.mapValues(new Function<Text, String>(){
@Override
public String call(
版权声明:本文为yeqingyun2012原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。