[Java杂技] 使用JMH编写基准测试
最近因为项目需要重拾Java,项目涉及到很多日期时间相关的计算和存储,所以打算用极其便捷且线程安全的LocalDateTime类型代替古老的Date类型,那么问题来了:Date类型和LocalDateTime类型的JSON解析的性能如何呢?
OpenJDK JMH
在准备开始做性能基准测试之前,突然想到Golang开箱即用的精确到纳秒级别的Benchmark功能,Java有没有类似的工具或者类库呢?于是搜索一下,找到了JMH。
JMH,即Java Microbenchmark Harness,是专门用于代码微基准测试的工具套件。何谓Micro Benchmark呢?简单的来说就是基于方法层面的基准测试,精度可以达到微秒级。当你定位到热点方法,希望进一步优化方法性能的时候,就可以使用JMH对优化的结果进行量化的分析。
JMH是OpenJDK开发的,然而OpenJDK并没有自带该类库,Oracle的也没有,需要额外引入依赖并配置IDE。详细文档和示例参考文档: //openjdk.java.net/projects/code-tools/jmh/
IDEA下Gradle项目的配置
Maven与Gradle配置JMH类似,都是添加测试Scope的依赖即可,以Gradle为例:
1 | testCompile("org.openjdk.jmh:jmh-core:1.21") |
然后IDEA安装JMH插件方便生成和运行JMH测试用例,在IDEA里面直接搜索安装即可(下图不小心暴露了一些其他非常好用的IDEA插件)
插件装好并重启IDEA后,开启IDEA的Annotation Processing功能,就可以在项目的test目录下新建一些Benchmark测试代码了
注:笔者还遇到了这个报错,mvn/gradle clean一下,再刷新一下依赖,重启IDEA解决
Can not found /META-INF/BenchmarkList (JMH Unable to find the resource: /META-INF/BenchmarkList)
Benchmark测试用例的编写和执行
编写方法和常用注解
在开始编码之前,我们需要了解一下JMH的常用注解的含义,使用这些注解和在main函数中创建org.openjdk.jmh.runner.options.OptionsBuilder,通过链式调用构建Options等价,也和直接通过java -jar benchmark.jar 添加参数等价,但这里只讲解通过注解来配置测试参数,不因为别的,就因为注解更酷炫。
- @Benchmark:每个带Benchmark注解的都是一个微基准测试用例
- @BenchmarkMode:吞吐量或者平均时间等等,配合@OutputTimeUnit作为计量指标
- @Fork:每个测试Fork进程执行,指定Fork的数量,这是为了防止JVM PGO(Profile-Guided Optimization)影响测试结果
- @Threads:每个基准测试启动的并发线程数量
- @State:State有3个Scope,分别是Benchmark,Group,Thread
- Thread表示变量只在同一个线程同步,一般用Thread,用到的成员变量相当于是ThreadLocal的
- Benchmark表示变量整个测试的进程同步,比如方法A用到了变量B,线程C和线程D访问B是同一个变量需要加锁,而不是ThreadLocal的
- Group则是同一组的测试使用同样的变量,配合@Group @GroupThreads 给关联的测试分组和同步使用
- @Warmup @Measurement:预热和正式开始的轮数,每次迭代时间和循环次数都在这里配置
- @Setup @TearDown:这俩相当与JUnit4的@Before @After,做一些初始化和资源回收的事情,有3个Level
- Trial 是默认值相当于 @BeforeClass @AfterClass
- Iteration 表示每一轮预热或者正式测试都执行一次
- Invocation 相当于 @Before @After,每次调用@Benchmark的函数都会执行一次,这个一般不要用,会干扰测试结果
- @Param:轮换指定不同的调用参数测试
除了这些还有一些不常用的注解此处不展开解释,除了注解以外,还有一个非常重要的JMH的类:Blackhole,在编写基准测试的时候,很容易上编译器或者JIT的当,造成不准确的结果
- 某些数值计算在编译阶段就被算成常数了
- 循环展开机制,编译器可能把循环300次自动优化成循环100次,每次循环递增调用3次等等
- 一些没有副作用,返回值又没有赋值的函数,编译器或者JIT可能直接会整个函数调用都给直接省掉
因此,在用JMH写Java基准测试的时候,尽量不要自己写for循环,通过注解或者构建参数告诉Runner循环迭代的配置即可,@Benchmark函数调用的结果,最好是return掉,或者用Blackhole消费掉,Blackhole的consume方法就是接收函数返回值,防止调用被JIT优化掉的。
代码实例
了解了JMH的概念和使用之后,开始撸代码,这里写了两个@Benchmark,分别是反序列化同一个常量JSON字符串,到两个不同的Class,一个用LocalDateTime接收时间戳,另一个用Date接收,用的是业界最成熟的JSON库Jackson。
1 | package code2life.benchmark; |
运行结果
下面是笔者本机单线程反序列化常量JSON数据的基准性能测试结果
- 运行环境: Intel i7-8550U CPU @ 1.80GHz
- 操作系统: Ubuntu 18.04 64 Bit
- JRE: HotSpot 64-Bit JVM (1.8.0 191-b12)
示例代码运行结果:
Benchmark | Mode | Cnt | Score | Error | Units |
---|---|---|---|---|---|
parseDate | thrpt | 2 | 351196.715 | ops/s | |
parseLocalDateTime | thrpt | 2 | 208930.702 | ops/s |
只有单个Date/LocalDateTime属性的JSON:
Benchmark | Mode | Cnt | Score | Error | Units |
---|---|---|---|---|---|
onlyDateField | thrpt | 2 | 1514370.638 | ops/s | |
onlyLocalDateTime | thrpt | 2 | 925243.048 | ops/s | |
只接收String和Integer类型,不做Date的转换
Benchmark | Mode | Cnt | Score | Error | Units |
---|---|---|---|---|---|
parseStringOnly | thrpt | 2 | 1014225.819 | ops/s | |
结果不出意料,LocalDateTime的数据结构更复杂,而Date只有一个毫秒数的时间戳(对应更简单的java.time.Instant类),因此用它接收反序列化的JSON数据效率更低,性能大约损失了三四成的样子。对于只有一个时间属性的JSON数据差距更大,但相对于更耗时的业务来说,性能瓶颈不可能在这里,这一点性能差异可以忽略不计,因此笔者还是决定继续使用LocalDateTime,摒弃Date。 |
另外,在Windows 10 i7 7700 3.6GHz上单线程测试结果类似:
- 对于单个Date/LocalDateTime属性的吞吐量分别是每秒 170万,102万次
- 包含Integer String List Date等复杂一点的数据,分别是每秒37万,25万次
- Thread调成2或4,多线程并行解析会有很大的提高,但低于100%,线程越多上下文切换也越多,收益也越少,物理核数的线程数性能达到最大值
其他语言的横向对比
JavaScript的JSON反序列化性能
说完了Java,笔者脑袋一拍,对于JSON的祖宗JS,反序列化性能会不会更好呢?我们来比比看。继续上面的例子,把LocalDateTime改成String,这样数据中只有Integer和String两种类型,在JS中直接调用JSON.parse。NPM中找到了Benchmark.js这个库,但是为了能与Deno横向对比,没有使用该库,直接用循环计算:
1 | const json = "[{\"id\":1,\"name\":\"name1\",\"data\":[\"a\",\"b\",\"c\"]," + |
1 | node json-benchmark.js |
执行结果有些令人吃惊:
- NodeJS执行两次: 531985 ops/s, 542387 ops/s
- Deno执行两次:514959 ops/s, 488472 ops/s
而Java在同样数据的情况下,两次执行分别是: 987421 ops/s, 1011526 ops/s。足足比Java差了一倍!
但细细一想确实是符合逻辑的,NodeJS和Deno的JSON.parse函数虽然都是基于V8引擎的Native代码,代码在这里:https://github.com/v8/v8/blob/master/src/json/json-parser.cc.
可见JSON.parse转换成的是V8的数据类型,给JS解释器使用的,相对于静态类型的Java直接定义POJO必然需要多做一层处理。NodeJS的Native Code基于C++,而Deno是Rust,源代码或者编译器可能并没有C++成熟,也可以解释Deno的性能比NodeJS稍差,但二者同样基于V8没有本质区别。
C#的JSON反序列化性能
比完了ECMAScript,一不做二不休,继续来和笔者最喜欢的C#比一比JSON反序列化。测试环境是Ubuntu Dotnet Core 2.2.204,Benchmark和JMH异曲同工,只不过Annotation在C#中叫Attribute。
1 | dotnet add package Newtonsoft.json |
1 | using System; |
dotnet run -c release
测试结果如下,平均 4.118 s/op,吞吐量大约 242836 ops/s
Method | Mean | Error | StdDev | Ratio | Rank |
---|---|---|---|---|---|
JsonParseStatic | 4.118 us | 0.0165 us | 0.0147 us | 1.00 | 1 |
彩蛋
出于好奇,笔者本机上使用Golang的encoding/json又做了一次测试:
- 小写(Private)struct成员变量 310007 ops/s
- 大写(Public)struct成员变量 163345 ops/s
- 使用Tag指定对应关系(如下面的代码):165207 ops/s
1 | package main |
go test -bench=. –benchtime=20s
Golang在成员变量名与JSON属性不一样的情况下,性能测试结果比Java(Jackson) .Net Core(Newtonsoft.Json),Node/Deno(V8 JSON.parse)都要差,和Python的测试结果竟然几乎一样。使用同样的属性名时快一倍,略高于.Net Core,但实际上由于Golang通过变量大小写代替public/private的机制,造成了实际场景中,JSON解析往往需要指定Tag,多出来的这一层映射关系直接造成了损失一半性能。
JSON解析的性能很大程度上受所使用的库的影响,比如Golang有号称比encoding/json库快10倍的JSON-parser,Java也有号称最快JSON解析的阿里fastjson,JVM的字符串常量池机制也是单一数据情况下解析飞快的原因之一,因此这些数字并不代表什么,仅从这一点也并不能说明编程语言的优势劣势,毕竟PHP才是最好的编程语言。