为什么性能没有增长?
多核能带来性能的大幅增长,这很容易通过简单的一些测试来观察到。如果我们写一个多线程程序,并在每个线程中对一个本地变量进行累加,我们可以很容易的看到多核和并行带来的成倍的性能提升。这非常容易做到,不是吗?在 参考资源 里我们给出了一个例子。然而,与我们的测试相反,我们很少在实际软件应用中看到这样完美的可扩展性。阻碍我们获得完美的可扩展性有两方面的因素存在。首先,我们面临着理论上的限制,其次软件开发过程中也经常出现实现上的问题。让我们看看 图 1 中的三条性能曲线:
图 1. 性能曲线
作为追求完美的软件工程师,我们希望看到随着线程数目的增长程序的性能获得线性的增长,也就是图 1 中的蓝色直线。而我们最不希望看到的是绿色的曲线,不管投入多少新的 CPU,性能也没有丝毫增长。(随着 CPU 增长而性能下降的曲线在实际项目中也存在)。而图中的红色线条则说明通常的 90-10 法则并不适用于可扩展性方面。假设程序中有 10% 的计算只能串行进行,那么其扩展性曲线如红线所示。由图可见,当 90% 的代码可以完美的并行时,在 10 个 CPU 存在的情况下,我们也只能获得大约 5 倍的性能。如果任务中具有无法并行的部分,那么在现实世界,我们的性能曲线大致上会位于图 1 中的灰色区域。
在这篇文章中,我们不会试图挑战理论极限。我们希望能解释一个 Java 程序员如何能够尽可能的接近极限,这已经不是一个容易的任务。
是什么造成了糟糕的可扩展性?
可扩展性糟糕的原因有很多,其中最为显著的是锁的滥用。这没有办法,我们就是这样被教育的:“想要多线程安全吗?那就加一个锁吧”。想想 Python 中臭名昭著的 Global Intepreter Lock,还有 Java 中的 Collections.synchronizedXXXX() 系列方法,跟随巨人的做法有什么不好吗?是的,用锁来保护关键区域非常方便,也较容易保证正确性,然而锁也意味着只有一个进程能进入关键区域,而其他的进程都在等待!如果观察到 CPU 空闲而软件执行缓慢,那么检察一下锁的使用是一个明智的做法。
对于 Java 程序而言,Performance Inspector 中的 Java Lock Monitor 是一个不错的开源工具。
对一个多线程应用进行调优
下面,我们将提供一个例子程序并演示如何在多核平台上获得更好的可扩展性。这个例子程序演示了一个假想的日志服务器。它接收来自多个源的日志信息并将其统一保存到文件系统中。为了简单起见,我们的例子代码中不包含任何的网络相关代码,Main()
函数将启动多个线程来发送日志信息到日志服务器中。对于性急的读者,让我们先看看调优的结果:
图 2. 日至服务器调优结果
在上图中,蓝色的曲线是一个基于 Lock 的老式日志服务器,而绿色的曲线是我们进行了性能调优之后的日志服务器。可以看到,LogServerBad 的性能随线程数目的增加变化很小,而 LogServerGood 的性能则随着线程数目的增加而线性增长。如果不介意使用第三方的库的话,那么来自 Project KunMing 的 LockFreeQueue 可以进一步提供更好的可扩展性:
图 3. 使用 Lock-free 的数据结构
在上图中,第三条曲线表示用 LockFreeQueue 替换标准库中的 ConcurrentLinkedQueue 之后的性能曲线。可以看到,如果线程数目较少时,两条曲线差别不大,但是单线程数目增大到一定程度之后,Lock-Free 的数据结构具有明显的优势。
在下文中,将介绍在上述例子中使用的可以帮助我们创建高可扩展 Java 应用的工具和技巧。
使用 JLM 分析应用程序
JLM 提供了 Java 应用和 JVM 中锁持有时间和冲突统计。具体提供以下功能:
- 对冲突的锁进行计数
- 成功获得锁的次数
- 递归锁的次数
- 申请锁的线程被阻塞等待的次数
- 锁被持有的累计时间。对于支持 3 Tier Spin Locking 的平台 , 还可以获得以下信息 :
- 请求线程在内层(spin loop)请求锁的次数
- 请求线程在外层(thread yield loop)请求锁的次数
- 使用 rtdriver 工具收集更详细的信息
- jlmlitestart:仅收集计数器
- jlmstart:仅收集计数器和持有时间统计
- jlmstop:停止数据收集
- jlmdump:打印数据收集并继续收集过程
- 从锁持有时间中去除垃圾收集(Garbage Collection,GC)的时间
- GC 时间从 GC 周期中所有被持有的锁的持有时间中去除
使用 AtomicInteger 进行计数
通常,在我们实现多线程使用的计数器或随机数生成器时,会使用锁来保护共享变量。这样做的弊端是如果锁竞争的太厉害,会损害吞吐量,因为竞争的同步非常昂贵。
volatile 变量虽然可以使用比同步更低的成本存储共享变量,但它只可以保证其他线程能够立即看到对 volatile 变量的写入,无法保证读 - 修改 - 写的原子性。因此,volatile 变量无法用来实现正确的计数器和随机数生成器。
从 JDK 5 开始,java.util.concurrent.atomic
包中引入了原子变量,包括 AtomicInteger、AtomicLong、AtomicBoolean 以及数组 AtomicIntergerArray、AtomicLongArray 。原子变量保证了 ++
,--
,+=
,-=
等操作的原子性。利用这些数据结构,您可以实现更高效的计数器和随机数生成器。
加入轻量级的线程池—— Executor
大多数并发应用程序是以执行任务(task)为基本单位进行管理的。通常情况下,我们会为每个任务单独创建一个线程来执行。这样会带来两个问题:一,大量的线程(>100)会消耗系统资源,使线程调度的开销变大,引起性能下降;二,对于生命周期短暂的任务,频繁地创建和消亡线程并不是明智的选择。因为创建和消亡线程的开销可能会大于使用多线程带来的性能好处。
一种更加合理的使用多线程的方法是使用线程池(Thread Pool)。 java.util.concurrent 提供了一个灵活的线程池实现:Executor 框架。这个框架可以用于异步任务执行,而且支持很多不同类型的任务执行策略。它还为任务提交和任务执行之间的解耦提供了标准的方法,为使用 Runnable 描述任务提供了通用的方式。 Executor 的实现还提供了对生命周期的支持和 hook 函数,可以添加如统计收集、应用程序管理机制和监视器等扩展。
在线程池中执行任务线程,可以重用已存在的线程,免除创建新的线程。这样可以在处理多个任务时减少线程创建、消亡的开销。同时,在任务到达时,工作线程通常已经存在,用于创建线程的等待时间不会延迟任务的执行,因此提高了响应性。通过适当的调整线程池的大小,在得到足够多的线程以保持处理器忙碌的同时,还可以防止过多的线程相互竞争资源,导致应用程序在线程管理上耗费过多的资源。
Executor 默认提供了一些有用的预设线程池,可以通过调用 Executors 的静态工厂方法来创建。
- newFixedThreadPool:提供一个具有最大线程个数限制的线程池。
- newCachedThreadPool:提供一个没有最大线程个数限制的线程池。
- newSingleThreadExecutor:提供一个单线程的线程池。保证任务按照任务队列说规定的顺序(FIFO,LIFO,优先级)执行。
- newScheduledThreadPool:提供一个具有最大线程个数限制线程池,并支持定时以及周期性的任务执行。
使用并发数据结构
Collection 框架曾为 Java 程序员带来了很多方便,但在多核时代,Collection 框架变得有些不大适应。多线程之间的共享数据总是存放在数据结构之中,如 Map、Stack、Queue、List、Set 等。 Collection 框架中的这些数据结构在默认情况下并不是多线程安全的,也就是说这些数据结构并不能安全地被多个线程同时访问。 JDK 通过提供 SynchronizedCollection 为这些类提供一层线程安全的接口,它是用 synchronized
关键字实现的,相当于为整个数据结构加上一把全局锁保证线程安全。
java.util.concurrent 中提供了更加高效 collection,如 ConcurrentHashMap/Set, ConcurrentLinkedQueue, ConcurrentSkipListMap/Set, CopyOnWriteArrayList/Set 。这些数据结构是为多线程并发访问而设计的,使用了细粒度的锁和新的 Lock-free 算法。除了在多线程条件下具有更高的性能,还提供了如 put-if-absent 这样适合并发应用的原子函数。
其他一些需要考虑的因素
不要给内存系统太大的压力
如果线程执行过程中需要分配内存,这在 Java 中通常不会造成问题。现代的 JVM 是高度优化的,它通常为每个线程保留一块 Buffer,这样在分配内存时,只要 buffer 没有用光,那么就不需要和全局的堆打交道。而本地 buffer 分配完毕之后 , JVM 将不得不到全局堆中分配内存,这样通常会带来严重的可扩展性的降低。另外,给 GC 带来的压力也会进一步降低程序的可扩展性。尽管我们有并行的 GC,但其可扩展性通常并不理想。如果一个循环执行的程序在每次执行中都需要分配临时对象,那么我们可以考虑利用 ThreadLocal 和 SoftReference 这样的技术来减少内存的分配。
使用 ThreadLocal
ThreadLocal 类能够被用来保存线程私有的状态信息,对于某些应用非常方便。通常来讲,它对可扩展性有正面的影响。它能为各个线程提供一个线程私有的变量,因而多个线程之间无须同步。需要注意的是在 JDK 1.6 之前,ThreadLocal 有着相当低效的实现,如果需要在 JDK 1.5 或更老的版本上使用 ThreadLocal,需要慎重评估其对性能的影响。类似的,目前 JDK 6 中的 ReentrantReadWriteLock 的实现也相当低效,如果想利用读锁之间不互斥的特性来提高可扩展性,同样需要进行 profile 来确认其适用程度。
锁的粒度很重要
粗粒度的全局锁在保证线程安全的同时,也会损害应用的性能。仔细考虑锁的粒度在构建高可扩展 Java 应用时非常重要。当 CPU 个数和线程数较少时,全局锁并不会引起激烈的竞争,因此获得一个锁的代价很小(JVM 对这种情况进行了优化)。随着 CPU 个数和线程数增多,对全局锁的竞争越来越激烈。除了一个获得锁的 CPU 可以继续工作外,其他试图获得该锁的 CPU 都只能闲置等待,导致整个系统的 CPU 利用率过低,系统性能不能得到充分利用。当我们遇到一个竞争激烈的全局锁时,可以尝试将锁划分为多个细粒度锁,每一个细粒度锁保护一部分共享资源。通过减小锁的粒度,可以降低该锁的竞争程度。 java.util.concurrent.ConcurrentHashMap 就通过使用细粒度锁,提高 HashMap 在多线程应用中的性能。在 ConcurrentHashMap 中,默认构造函数使用 16 个锁保护整个 Hash Map 。用户可以通过参数设定使用上千个锁,这样相当于将整个 Hash Map 划分为上千个碎片,每个碎片使用一个锁进行保护。
结论
通过选择一种合适的 profile 工具,检查 profile 结果中的热点区域。使用适合多线程访问的数据结构,线程池,细粒度锁减小热点区域。并重复此过程不断提高应用的可扩展性。
构建在多核上具有高可扩展性的 Java 应用并不是一件容易的事。减少各个线程之间的冲突和同步是提高可扩展性的关键。本文中介绍的一些通用工具和技巧可以给程序员提供一些帮助,但更多的情况要依赖于具体的应用。
分享到:
相关推荐
使用_Java_构造高可扩展应用
SOFARPC 是一个高可扩展性、高性能、生产级的 Java RPC 框架。在蚂蚁金服 SOFARPC 已经经历了十多年及五代版本的发展。SOFARPC 致力于简化应用之间的 RPC 调用,为应用提供方便透明、稳定高效的点对点远程服务调用...
SOFARPC 是一个高可扩展性、高性能、生产级的 Java RPC 框架。在蚂蚁金服 SOFARPC 已经经历了十多年及五代版本的发展。SOFARPC 致力于简化应用之间的 RPC 调用,为应用提供方便透明、稳定高效的点对点远程服务调用...
新一代js与native交互框架,具有安全,简单,高可扩展性,在很多大厂有过类似实践
java多线程编程 纯手写实现SpringIOC实现过程 JEE企业级开发(企业级项目开发权威指南) 网络爬虫之JAVA正则表达式 手写springMVC框架 老司机带你透析springMVC内部实现方式 打造高效代码结构(java性能优化) 新版本...
Java实现高可定制的二维码生成+logo(完美呈现)
一个基于Netty、SpingBoot开发的分布式、嵌入式、组件化、高度自定义、高可扩展的Java即时通讯框架.zip
网易同事 周永昶 基于node.js的高可扩展游戏服务器框架 设计与实现 Node.js与游戏服务器; 游戏服务器框架的可扩展性和设计,以及pomelo的框架
基于 Golang 构建高可扩展的云原生 PaaS 平台.pdf
griddb_nosql, 高性能,高可扩展性,高可靠性的大型数据数据库 概述GridDB有一个 KVS ( key-value 存储) -type数据模型,它适用于存储在timeseries中的传感器数据。 它是一个数据库,可以根据传感器的数量轻松地缩小...
JDK 5.0 是用 Java 语言创建高可伸缩的并发应用程序的主要步骤。JVM 已经进行了改进,允许类利用硬件级别支持并发,并且提供了一组丰富的新并发构造块,使开发并发应用程序更加容易。 <br>本教程将介绍 JDK 5.0 ...
高可扩展的智能家居控制系统设计与实现.pdf
是一个开源、高可扩展性的工具包,可为任何数据集成任务提供开箱即用的解决方案,例如记录链接、实体解析和链接发现。 其核心是一组适用于 RDF 和关系数据的、与领域无关的、最先进的技术。 这些技术依赖于基于(元...
该软件的高可扩展性能可以支持海量数据并满足企业对安全和性能的需求。PowerCenter 可作为所有企业集成方案的数据集成基础,包括数据仓库、数据治理、数据迁移、面向服务的体系架构 (SOA)、B2B 数据交换以及主数据...
随着项目的规模越来越大,项目的维护性可能会变得越来越差,有时可能会出现牵一发而动全身的情况。...一个可扩展的应用程序应该能够以某种方式实现增长,并且添加、删除、增强、重构某些组件,对于其他组件的影响微乎其
4.完全多线程 框架允许通过多个线程并发取样和 通过单独的线程组对不同的功能同时取样。 5.精心的GUI设计允许快速操作和更精确的计时。 6.缓存和离线分析/回放测试结果。 JMeter的高可扩展性 1.可链接的取样器允许...
JMQTT是用java语言开发的支持mqtt协议的高可用,高性能,高可扩展性的broker,采用netty作为通信层组件,支持插件化开发
高可扩展性数据库架构设计方法
MySQL高可用扩展集群应用之配置mysql+heartbeat+drbd实现Mysql写操作高可用.pdf 学习资料 复习资料 教学资源
Caffe-MPI是一款高性能高可扩展的深度学习计算框架,是由浪潮的HPC应用开发团队进行开发。Caffe-MPI是一款分布式集群版本,目前支持GPU集群并行计算,该版本在伯克利单机单卡GPU版本上进行开发,