1、由于jsc.textFile(path)默认读取UTF-8编码格式的文件,因此读取GBK格式的文件需要做一些特殊的处理。
2、程序如下:
    SparkConf conf = new SparkConf()
    
    
    
    .setMaster(“local[*]”)//本地运行需要加这句话,若放在集群上注释掉即可
    
    
    
    .setAppName(“GBK READ”);//这个名字可以随意命名
    
    
    
    JavaSparkContext jsc = new JavaSparkContext(conf);
    
    
    
    JavaPairRDD<LongWritable,Text> pair = jsc.hadoopFile(“d:\\AA.txt”, TextInputFormat.class, LongWritable.class, Text.class, 1);//这里的1可以改为线程数,例如如果执行的num-executors为16,则可以改为16
    
    
    
    JavaPairRDD<LongWritable, String> mapValues = pair.mapValues(new Function<Text, String>(){
    
    
    
    
    @Override
    
    
    
    public String call(
   
 
版权声明:本文为yeqingyun2012原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。
