Arthas如何成为强大的在线Java诊断利器?

摘要:导航 前言 火线告警,CPU飚了 服务重启,迅速救火 黑盒:无尽的猜测和不安 Arthas:锋利的Java诊断工具 在线追踪Cpu占比高的代码段 代码重构,星夜上线,稳了 结语 参考 肮脏的代码必须重构,但漂亮的代码也需要很多重构。 前言
导航 前言 火线告警,CPU飚了 服务重启,迅速救火 黑盒:无尽的猜测和不安 Arthas:锋利的Java诊断工具 在线追踪Cpu占比高的代码段 代码重构,星夜上线,稳了 结语 参考 肮脏的代码必须重构,但漂亮的代码也需要很多重构。 前言 有些代码在当初编写的时候是非常稳健的,但是随着数据量的不断增加,有些代码的“性能瓶颈”逐渐暴露出来。 这就可能会导致一些不可预知的线上事故。 那么,如何快速定位问题和处置问题就变得极其重要。 火线告警,CPU飚了 运维三板斧,重启、重装、重新买! 在多年的职业历练中,我养成了一个习惯——随时关注群里用户的反馈。 在一个阳光很好的午后,我和同事们正在加班加点的赶一个版本。 突然,群里有人反馈,线上的一个功能出现了问题,需要紧急处理。 随即便是更多的业务对接群开始炸锅。 上个月因为数据库性能问题,已经出现了几次线上宕机的情况,被用户吐槽。 为此,我们做了大量的优化工作: 慢sql优化 去高频接口 数据冷热分离 ... 今天再次遇到这样的问题,我们惊讶了几秒,然后很快恢复了镇定。 服务重启,迅速救火 我和业务团队的同事一边安抚用户的情绪,一边查看报警日志。 紧急着查看了报警日志,发现部署该业务接口的两台ecs CPU飙高了... 再看数据库的CPU使用率并未报警。 当机立断,先重启一下服务。(PS:不要慌,不要慌,不要慌!) 大约两分钟之后,我们验证了可用性,并查看ecs和数据库各项指标,正常。 于是大家一一回复了用户群,对接群终于安静了。 黑盒:无尽的猜测和不安 路漫漫其修远兮,吾将上下而求索。 在这个时候,我已经开始了我的思考——是哪个功能或者哪句代码引发了ecs cpu标高呢? 过去,我们的思路总是先去查看网关日志,从时间点上排查可能导致性能问题的接口,然后逐渐深入。 然而,这个项目已经迭代3年多了,接口繁多,想快速定位无疑是大海捞针。 所以,对于这种黑盒般的问题,因为缺乏诊断工具,往往让我们陷入无尽的猜测和不安中。 是否有这样的工具帮助我快速定位到问题的代码呢? Arthas:锋利的Java诊断工具 在这次的问题诊断中,我使用了Arthas来进行线上问题的诊断。 Arthas(阿尔萨斯)(是Alibaba开源的Java诊断工具,深受开发者喜爱。 在线排查问题,无需重启、动态跟踪Java代码、实时监控 JVM 状态。 Arthas支持JDK 6+,支持Linux/Mac/Windows,采用命令行交互模式,同时提供丰富的Tab自动补全功能,进一步方便进行问题的定位和诊断。 当你遇到以下类似问题而束手无策时,Arthas 可以帮助你解决: 这个类从哪个 jar 包加载的?为什么会报各种类相关的 Exception? 我改的代码为什么没有执行到?难道是我没 commit?分支搞错了? 遇到问题无法在线上 debug,难道只能通过加日志再重新发布吗? 线上遇到某个用户的数据处理有问题,但线上同样无法 debug,线下无法重现! 是否有一个全局视角来查看系统的运行状况? 有什么办法可以监控到 JVM 的实时运行状态? 怎么快速定位应用的热点,生成火焰图? 官方教程 Github: https://github.com/alibaba/arthas 文档:https://arthas.aliyun.com/doc/ 使用arthas-boot(推荐) 下载arthas-boot.jar,然后用java -jar的方式启动: 执行该程序的用户需要和目标进程具有相同的权限。比如以admin用户来执行:sudo su admin && java -jar arthas-boot.jar 或 sudo -u admin -EH java -jar arthas-boot.jar。 如果 attach 不上目标进程,可以查看~/logs/arthas/ 目录下的日志。 如果下载速度比较慢,可以使用 aliyun 的镜像:java -jar arthas-boot.jar --repo-mirror aliyun --use-http java -jar arthas-boot.jar -h 打印更多参数信息。 curl -O https://arthas.aliyun.com/arthas-boot.jar java -jar arthas-boot.jar 选择应用java进程: blog-webapp-0.0.1-SNAPSHOT.jar进程是第1个,则输入1,再输入回车/enter。
阅读全文