什么是Java语言的编译,就是将我们写的.java文件转变成.class文件的过程。也叫前端编译器(或者编译器前端),其实Java语言的“编译期”是一段“不确定”的操作过程。
1.编译器简介
-
前端编译器:Sun的Javac,Eclipse JDT中增量式编译器(ECJ)。
把*.java文件编译成*.class文件,这是最符合我们对于Java程序编译认知的一类编译器。 -
JIT编译器:HotSpot VM的C1,C2编译器。
虚拟机的后端运行期编译器,把字节码转变成机器码的过程,此类编译器对于程序的“优化”具有重要意义。 -
AOT编译器:GNU Compiler for the Java(GCJ),Excelsior JET。
使用静态提前编译器,直接把.java文件编译成本地机器代码的过程。对于这个编译器,仅仅停留在听过。
可以说,Java中的即时编译器在运行期的优化过程对于程序运行来说更重要,而前端编译器在编译期的优化过程对于程序编码来说关系更密切。本文主要集中介绍第一类编译器,也就是前端编译器。Javac对于代码的运行效率几乎没有任何优化措施,但是却做了针对Java语言编码过程的优化措施来改善程序员的编码风格和提高编码效率。比对后面介绍的一些Java的语法特性,都是靠编译器的“语法糖”来实现,而不是由虚拟机底层改进来支持。
2.Javac编译器
分析源码是了解一项技术的实现内幕最有效的手段,不像Hotspot虚拟机使用的是C++(包含少量的C语言),Javac编译器是由Java语言编写的程序,对于咱们Java程序员来说是个好事,对于了解它的编译过程带来了很大的遍历。关于Javac源码的构建与阅读可以在网上随便搜一艘,这里不再赘述了。
但是从Javac的源码可知,其编译过程大致可分为3个过程,分别是:
- 解析与填充符号表过程
- 插入式注解处理器的注解处理过程
- 分析与字节码生成过程
Javac的编译入口是
com.sun.javac.main.JavaCompiler
类。
2.1解析与填充符号
解析步骤包括经典编译原理中的词法分析和语法分析两个过程。
2.1.1词法分析与语法分析
词法分析是将源代码的字符流转变为标记(Token)集合,单个字符是程序编写的最小元素,而标记则是编译过程的最小元素,关键字,变量名,字面量,运算符都可以成为标记。
例如:”int a=b+2″这句代码包含6个标记,相信能一眼看出来。
虽然上面例子中的关键字int由3个字符组成,但是它只是一个Token,不可在分。在Javac的源码中,词法分析过程由
com.sun.tools.javac.parser.Scanner
类来实现。
语法分析是根据Token序列构造抽象语法树(AST)的过程。所谓抽象语法树是一种用来描述程序代码语法结构的树形表示方式,语法树的每个节点都代表着程序代码中的一个语法结构,例如:类型,修饰符,运算符,接口,返回值甚至代码注释都可以是一个语法结构。
关于语法分析过程,在Javac源码中,是由
com.sun.tools.javac.parser.Parser
类来实现,这个阶段产出的抽象语法树由
com.sun.tools.javac.tree.JCTree
类表示,经过这个步骤之后,编译器就基本不再对源文件进行操作了,后续的操作都是建立在抽象语法树上面。
2.1.2填充符号表
完成了语法分析与词法分析之后,接下来就是填充符号表的过程。在Javac源码中,填充符号表的过程由
com.sun.tools.javac.comp.Enter
类来实现。符号表(Symbol Table)是由一组符号地址和符号信息构成的表格,可以理解为哈希表中的K-V形式(实际上不一定是哈希表实现,可以是有序表,树状符号表,栈结构符号表等)。符号表所登记的信息在编译的不同阶段都要用到。
在语义分析中,符号表登记的内容将用于语义检查和产生中间代码。
在目标代码生成阶段,当对符号表进行地址分配的时候,符号表是地址分配的依据。
2.2注解处理器
在JDK1.5之前,Java语言提供了注解的支持,这些注解和普通的Java代码一样,在运行期间发挥作用。在JDK1.6中实现了JSR-269规范,提供了一组插入式注解处理器的标准API,在编译期间对注解进行处理,可以看做是编译器的插件。在这些插件里面,可以读取,修改,添加抽象语法树中的任意元素。这个过程还是稍微有些难以理解,暂时先知道这么多吧。
2.3语义分析与字节码生成
语义分析之后,编译器获得了程序代码的抽象语法树,语法树能表示一个结构正确的源程序抽象,但无法保证源程序是符合逻辑的。这里涉及几个概念,也是编译过程比较有意思的几个步骤,这里不进行详细说明。
- 标注检查
- 数据及控制流分析
- 解语法糖
- 字节码生成
3.Java语法糖
为什么会有语法糖,还不是为了我们写程序能够更方便,但是语法糖对于功能的实质性改进,性能的提升以及语法严谨性方面都没有任何帮助。总之,可以认为是编译器实现的“小把戏”。这些“小把戏”对于开发效率提升是非常大的。
3.1泛型与类型擦除
泛型技术实际上是Java语言的一颗语法糖,Java语言中泛型的实现也叫做类型擦除,基于这种方法实现的泛型叫伪泛型。看个例子吧!
- 泛型擦除前
public static void main(String[] args) {
Map<String,String> map = new HashMap<>();
map.put("hello","你好");
map.put("hi","你好");
System.out.println(map.get("hello"));
System.out.println(map.get("hi"));
}
- 泛型擦除后
public static void main(String[] var0) {
HashMap var1 = new HashMap();
var1.put("hello", "你好");
var1.put("hi", "你好");
System.out.println((String)var1.get("hello"));
System.out.println((String)var1.get("hi"));
}
3.2自动装箱,拆箱与循环遍历
对于自动装箱,拆箱,循环遍历这些语法糖,从纯技术角度讲,都不能和上面的泛型相比,两者的难度和深度都有着很大的差距。但是他们都是最常使用的语法糖。接下来看个例子,看看编译后的变化情况。
- 编译前
public static void main(String[] args) {
List<Integer> list = Arrays.asList(1,2,3,4);
int sum = 0;
for (int i : list){
sum += i;
}
System.out.println(sum);
}
- 编译后
public static void main(String[] var0) {
List var1 = Arrays.asList(1, 2, 3, 4);
int var2 = 0;
int var4;
for(Iterator var3 = var1.iterator(); var3.hasNext(); var2 += var4) {
var4 = (Integer)var3.next();
}
System.out.println(var2);
}
本地编译器是JDK1.8版本,上面的代码一共包含了泛型,自动装箱,自动拆箱,循环遍历,与变长参数5种语法糖。
3.3条件编译
什么是条件编译,其实就是编译器根据布尔常量值的真假,将会把分支中不成立的代码块消除掉。这个操作是在编译器解除语法糖阶段完成。看个例子就明白了。
- 编译前
public static void main(String[] args) {
if (true){
System.out.println("block1");
}else {
System.out.println("block2");
}
}
- 编译后
public static void main(String[] var0) {
System.out.println("block1");
}
参考:《深入理解Java虚拟机》