深入理解JVM:早期(编译期)优化

  • Post author:
  • Post category:其他


什么是Java语言的编译,就是将我们写的.java文件转变成.class文件的过程。也叫前端编译器(或者编译器前端),其实Java语言的“编译期”是一段“不确定”的操作过程。



1.编译器简介

  • 前端编译器:Sun的Javac,Eclipse JDT中增量式编译器(ECJ)。

    把*.java文件编译成*.class文件,这是最符合我们对于Java程序编译认知的一类编译器。
  • JIT编译器:HotSpot VM的C1,C2编译器。

    虚拟机的后端运行期编译器,把字节码转变成机器码的过程,此类编译器对于程序的“优化”具有重要意义。
  • AOT编译器:GNU Compiler for the Java(GCJ),Excelsior JET。

    使用静态提前编译器,直接把.java文件编译成本地机器代码的过程。对于这个编译器,仅仅停留在听过。

可以说,Java中的即时编译器在运行期的优化过程对于程序运行来说更重要,而前端编译器在编译期的优化过程对于程序编码来说关系更密切。本文主要集中介绍第一类编译器,也就是前端编译器。Javac对于代码的运行效率几乎没有任何优化措施,但是却做了针对Java语言编码过程的优化措施来改善程序员的编码风格和提高编码效率。比对后面介绍的一些Java的语法特性,都是靠编译器的“语法糖”来实现,而不是由虚拟机底层改进来支持。



2.Javac编译器

编译过程

分析源码是了解一项技术的实现内幕最有效的手段,不像Hotspot虚拟机使用的是C++(包含少量的C语言),Javac编译器是由Java语言编写的程序,对于咱们Java程序员来说是个好事,对于了解它的编译过程带来了很大的遍历。关于Javac源码的构建与阅读可以在网上随便搜一艘,这里不再赘述了。

但是从Javac的源码可知,其编译过程大致可分为3个过程,分别是:

  • 解析与填充符号表过程
  • 插入式注解处理器的注解处理过程
  • 分析与字节码生成过程

Javac的编译过程

Javac的编译入口是

com.sun.javac.main.JavaCompiler

类。



2.1解析与填充符号

解析步骤包括经典编译原理中的词法分析和语法分析两个过程。



2.1.1词法分析与语法分析

词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写的最小元素,而标记则是编译过程的最小元素,关键字,变量名,字面量,运算符都可以成为标记。

例如:”int a=b+2″这句代码包含6个标记,相信能一眼看出来。

虽然上面例子中的关键字int由3个字符组成,但是它只是一个Token,不可在分。在Javac的源码中,词法分析过程由

com.sun.tools.javac.parser.Scanner

类来实现。

语法分析是根据Token序列构造抽象语法树(AST)的过程。所谓抽象语法树是一种用来描述程序代码语法结构的树形表示方式,语法树的每个节点都代表着程序代码中的一个语法结构,例如:类型,修饰符,运算符,接口,返回值甚至代码注释都可以是一个语法结构。

关于语法分析过程,在Javac源码中,是由

com.sun.tools.javac.parser.Parser

类来实现,这个阶段产出的抽象语法树由

com.sun.tools.javac.tree.JCTree

类表示,经过这个步骤之后,编译器就基本不再对源文件进行操作了,后续的操作都是建立在抽象语法树上面。



2.1.2填充符号表

完成了语法分析与词法分析之后,接下来就是填充符号表的过程。在Javac源码中,填充符号表的过程由

com.sun.tools.javac.comp.Enter

类来实现。符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,可以理解为哈希表中的K-V形式(实际上不一定是哈希表实现,可以是有序表,树状符号表,栈结构符号表等)。符号表所登记的信息在编译的不同阶段都要用到。

在语义分析中,符号表登记的内容将用于语义检查和产生中间代码。

在目标代码生成阶段,当对符号表进行地址分配的时候,符号表是地址分配的依据。



2.2注解处理器

在JDK1.5之前,Java语言提供了注解的支持,这些注解和普通的Java代码一样,在运行期间发挥作用。在JDK1.6中实现了JSR-269规范,提供了一组插入式注解处理器的标准API,在编译期间对注解进行处理,可以看做是编译器的插件。在这些插件里面,可以读取,修改,添加抽象语法树中的任意元素。这个过程还是稍微有些难以理解,暂时先知道这么多吧。



2.3语义分析与字节码生成

语义分析之后,编译器获得了程序代码的抽象语法树,语法树能表示一个结构正确的源程序抽象,但无法保证源程序是符合逻辑的。这里涉及几个概念,也是编译过程比较有意思的几个步骤,这里不进行详细说明。

  1. 标注检查
  2. 数据及控制流分析
  3. 解语法糖
  4. 字节码生成



3.Java语法糖

为什么会有语法糖,还不是为了我们写程序能够更方便,但是语法糖对于功能的实质性改进,性能的提升以及语法严谨性方面都没有任何帮助。总之,可以认为是编译器实现的“小把戏”。这些“小把戏”对于开发效率提升是非常大的。



3.1泛型与类型擦除

泛型技术实际上是Java语言的一颗语法糖,Java语言中泛型的实现也叫做类型擦除,基于这种方法实现的泛型叫伪泛型。看个例子吧!

  • 泛型擦除前
public static void main(String[] args) {
        Map<String,String> map = new HashMap<>();
        map.put("hello","你好");
        map.put("hi","你好");
        System.out.println(map.get("hello"));
        System.out.println(map.get("hi"));
    }
  • 泛型擦除后
public static void main(String[] var0) {
        HashMap var1 = new HashMap();
        var1.put("hello", "你好");
        var1.put("hi", "你好");
        System.out.println((String)var1.get("hello"));
        System.out.println((String)var1.get("hi"));
    }



3.2自动装箱,拆箱与循环遍历

对于自动装箱,拆箱,循环遍历这些语法糖,从纯技术角度讲,都不能和上面的泛型相比,两者的难度和深度都有着很大的差距。但是他们都是最常使用的语法糖。接下来看个例子,看看编译后的变化情况。

  • 编译前
public static void main(String[] args) {
        List<Integer> list = Arrays.asList(1,2,3,4);
        int sum = 0;
        for (int i : list){
            sum += i;
        }
        System.out.println(sum);
    }
  • 编译后
public static void main(String[] var0) {
        List var1 = Arrays.asList(1, 2, 3, 4);
        int var2 = 0;

        int var4;
        for(Iterator var3 = var1.iterator(); var3.hasNext(); var2 += var4) {
            var4 = (Integer)var3.next();
        }

        System.out.println(var2);
    }

本地编译器是JDK1.8版本,上面的代码一共包含了泛型,自动装箱,自动拆箱,循环遍历,与变长参数5种语法糖。



3.3条件编译

什么是条件编译,其实就是编译器根据布尔常量值的真假,将会把分支中不成立的代码块消除掉。这个操作是在编译器解除语法糖阶段完成。看个例子就明白了。

  • 编译前
public static void main(String[] args) {
        if (true){
            System.out.println("block1");
        }else {
            System.out.println("block2");
        }
    }
  • 编译后
public static void main(String[] var0) {
        System.out.println("block1");
    }

参考:《深入理解Java虚拟机》



版权声明:本文为weixin_30484149原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明。