压力测试TPS上不去,但是系统资源又很清闲

压力测试TPS上不去,但是系统资源又很清闲

背景

项目需要进行阶段性压力测试,所以想模拟真实的正式环境,所以是直接使用域名访问进行压力。整个请求链路大概如下:
在这里插入图片描述

现象

就是Jmeter压力测试的结果的TPS很低,基本在200TPS甚至100TPS以下,但是机器的配置非常高(32C + 64G)。当时第一次遇到这种现象很懵逼,没办法,第一次一个人从0做一个系统,压力测试。第一次遇到的现象是直接上不去TPS,空接口也上不去;第二次遇到是TPS能瞬间上去很高,但是立马掉下来,稳不住,但是空接口没问题,可以继续稳住。

第一次遇到的排查过程

想了很久都没有找到原因,只能本地跑起来代码,看看情况;当时的思路有两个,一个是代码太烂了,第二个是配置不对导致的。第一个原因的解决方法:找到一个工具去监控代码的卡点;第一个原因的解决方法:不停的改变配置,重新压测看结果,配置包括:Tomcat的配置和代码线程池的配置,有人可能会说,为啥没有考虑JVM的配置,原因是压测测试只压测一个接口的情况并且数据是同一份,JVM不太可能会是瓶颈,当然如果该接口存在很多成员变量缓存除外。

代码卡点

在当时找工具中找到JProfier,结果发现代码的确存在卡点,但是并没有Jmeter反馈的那么慢,并且最后定位的卡点是Redis的客户端取缓存的地方会比较慢,有可能会出现取一个Key需要几十毫秒的情况。解决的方法自然第一个想到使用Pipeline解决,之前循环取Key变成批量取Key。

老代码的伪代码如下:

// 取主列表数据
Page<News> selectPage = newsRepository.page(query);
Page<NewsModel> convert = selectPage.convert(v->{
    // 循环从缓存取周边数据
    // 取作者信息
   User author = userCache.get(v.getAuthorId());
   ...
   return NewsModle.build(v,author,...);
});

新伪代码如下:

// 取主列表数据
Page<News> selectPage = newsRepository.page(query);
Set<ID> authorIds = new HashSet();
Set<ID> newsIds = new HashSet();
selectPage.getRecords().foreach(v->{
    authorIds.add(v.getAuthorId());
    newsIds.add(v.getId());
});
// 分别批量取出周边数据
// 批量取出作者列表并且转换成Map
Map<ID,User> userMap = userCache.getBatchUsers(authorIds);
...
Page<NewsModel> convert = selectPage.convert(v->{
    // 循环从缓存取周边数据
   User author = userMap.get(v.getAuthorId());
   ...
   return NewsModle.build(v,author,...);
});

最后压测结果:利用Pipeline并没有很明显的改善。

后来用getKeys命令,发现的确有很明显的提升,所以后来批量取Key操作全部换成getKeys命令。其实后来发现这样做是有很多弊端的,包括Pipeline。
弊端就是:在Redis集群环境下就没法这样了,需要改动很多代码。后来据我了解,getKeys命令尽量不用,因为现在的应用基本后面都会走向集群化的。并且Redis的性能很高,网络也基本是内网,所以RRT时间影响并不会很大,循环取Key也不会相差很大的。如果真的遇到热Key应该用其他方案解决。

因为本人那时候是单机环境所以就没动了,还是使用了getKeys命令。到此业务的卡点基本解决了。但是TPS提升并不会非常大,没有数量级的上升。依旧是不正常的情况。

配置调整

配置也各种尝试都没有什么很大变化,所以说明跟配置,大家也是知道的,配置只有给的不会太小的情况,基本影响不是很大。

仔细回顾

空接口也会出现同样的问题,说明代码影响不是很大,所以至此遇到问题不要忙于去操作,应该先去分析问题,当时太年轻,一顿操作猛如虎,最后结果两百五。这个现象至少说明是代码的Controller层之前有问题,之前有问题肯定就是拦截器的代码有问题,或者SpringMVC框架和Tomcat有问题;后两者使用的都是稳定版,大概率不应该会出现这种BUG。那就是拦截器代码有问题了,当时为了调试方便有一个AOP会打印所有日志的请求和响应日志。也有人提出会不会是卡在IO上,但是我当时认为代码没有直接IO操作忽略掉了日志的IO操作,并且我认为日志框架默认是异步打印的,不会这么蠢的吧;后来实在没有思路了,我尝试关闭日志试试,发现TPS瞬间上去了。心中一万个草泥马,日志框架竟然不会异步去打印日志,而是同步打印日志。到此问题得到解决。当时使用的是Logback日志,普通的配置是不会异步打印,需要额外套一层异步打印配置,各位看官如果使用的也是Logback日志,也需要注意这点。异步配置,各位可以百度一下。

第二次遇到排查过程

这次的现象很不一样,这次是会上去,但是会掉下来,造成一种达到系统瓶颈的假现象,但是系统资源却没有满的情况。并且空接口并不会造成这种现象。当时的想法是系统已经到了瓶颈,但是仔细分析又感觉不对,为什么呢?因为我用Arthas工具分析到Controller的方法耗时是会出现耗时超过1s+的情况,但是并不会出现Jmeter显示的数据,接口响应中位数到达几十秒的情况,我一度怀疑Jmeter有BUG,但是找了很久也没有人分享有这个问题。后来项目组招了一个大佬过来,我请求他的援助,他也是分析了两三天,最后没有找到原因,但是他的经验也认为这个压测数据肯定有问题。但是此时的我,在他的分析过程中,学到了不少之前没有的经验。所以视野也更宽阔。所以后来我再次接手,我发现一个规律就是Controller的方法用Arthas工具分析不会卡,但是Tomcat的access日志也显示接口耗时严重,跟Jmeter的数据是一致的。于是我跟大佬反馈了这个现象。大佬瞬间跟我一起用Arthas再次监控看系统情况,系统一切正常:网络、IO、JVM;但是看线程情况,发现数据不正常,发现大量的线程在阻塞状态,于是选其中几个线程抽看一下,线程阻塞在哪里,发现阻塞在同一个地方。阻塞在一个拦截器中加锁操作中。

业务背景及解决方法

需要统计用户的在线时长,这是运营很正常的需求。正常业务的做法是:

  1. 用户打开APP,客户端调用登录接口,服务端记录一个登录时间;
  2. 用户退出APP,客户端调用退出接口,服务端记录退出时间并且得到这次的在线时长数据,记录上报日志。

但是实际情况是:现在的用户退出应用都是直接杀进程,客户端没法捕获这种情况的事件,也就是没法调用退出接口了。还有就是用户不会每次都需要登录,所以进入APP也不一定会调用登录接口。所以设计的方案是使用心跳机制,用户登录和退出都是服务端判断的。做法如下:

  1. 服务在Redis在有个记录在线用户Hash,key是用户id,value是用户最近一次访问接口的时间戳;
  2. 用户每次访问接口就会更新Hash的数据,如果不存在Hash中没有这个用户,说明是登录事件,记录用户的最近登录时间;
  3. 服务端有一个异步定时线程,定时检测Hash,如果Hash中有人的接口访问时间太久了,超过设定的阈值就认为该用户下线了,也就是退出APP了,然后从Hash中移除该用户数据,并且记录退出时间和计算此次的在线时长数据,记录上报日志。

因为是集群部署,所以这存在线程安全,就采用了锁机制。使用Redis的分布式锁,每次用户请求接口就会调用如下方法,伪代码如下:

// redis分布式锁
private final RedisLock redisLock;
// Redis客户端
private final RedisClient redisClient;
// Redis在线用户Key
privat final String ONLINE_KEY = "UOT_KEY";

private void checkLogin(ID userId){
   	Lock lock = redisLock.obtainLock(ONLINE_KEY);
    boolean isLogin = false;
    try{
        // 大家都阻塞在这里
        lock.lock();
        if(redisClient.hExist(ONLINE_KEY,userId)){
            isLogin = true;
        }
        redisClient.hPut(ONLINE_KEY,userId,Systetm.cunrrentTime());
    } finally {
        lock.unLock();
    }
    if(isLogin){
        // do some thing
        ....
    }
}

原因到此时找到了,接下来就改代码了,最后商量的方案,是采用无锁方案,加锁一整段代码使用Redis的lua脚本去做。因为Redis是单线程的,所以使用脚本是不存在线程安全问题。然后再次压力测试,单机TPS从之前的100直接上升到3000

经历这一次我再一次认识了对多线程编程的知识,在高并发环境中,锁竞争导致上下文切换是可能会非常影响性能的。

结论

系统瓶颈问题,需要从多方面去考量,遇到瓶颈问题不要遗漏任何一处代码。

  1. 从系统层面考量,比如系统参数,内存、CPU分配、网络,IO,带宽;
  2. 有瓶颈不一定是业务层代码,也有可能是上游拦截器和AOP的代码,不要遗漏任何一处代码;
  3. 遇到问题一定要看日志,日志能说明问题的根本原因;
  4. Java的层面分析问题,不一定是虚拟机的内存问题,还有可能是线程问题;
  5. 系统并不是所有操作都是消耗CPU的,有很多场景是不消耗CPU的,比如:阻塞、本地IO和网络IO;
  6. 一定要多了解一些监控工具的使用。

最后,本次回顾因为本人该死的拖延症,所以间隔时间比较久了,整个事件复盘不是很清晰,各位看官多多包涵。

热门文章

暂无图片
编程学习 ·

那些年让我们目瞪口呆的bug

程序员一生与bug奋战&#xff0c;可谓是杀敌无数&#xff0c;见怪不怪了&#xff01;在某知识社交平台中&#xff0c;一个“有哪些让程序员目瞪口呆的bug”的话题引来了6700多万的阅读&#xff0c;可见程序员们对一个话题的敏感度有多高。 1、麻省理工“只能发500英里的邮件” …
暂无图片
编程学习 ·

redis的下载与安装

下载redis wget http://download.redis.io/releases/redis-5.0.0.tar.gz解压redis tar -zxvf redis-5.0.0.tar.gz编译 make安装 make install快链方便进入redis ln -s redis-5.0.0 redis
暂无图片
编程学习 ·

《大话数据结构》第三章学习笔记--线性表(一)

线性表的定义 线性表&#xff1a;零个或多个数据元素的有限序列。 线性表元素的个数n定义为线性表的长度。n为0时&#xff0c;为空表。 在比较复杂的线性表中&#xff0c;一个数据元素可以由若干个数据项组成。 线性表的存储结构 顺序存储结构 可以用C语言中的一维数组来…
暂无图片
编程学习 ·

对象的扩展

文章目录对象的扩展属性的简洁表示法属性名表达式方法的name属性属性的可枚举性和遍历可枚举性属性的遍历super关键字对象的扩展运算符解构赋值扩展运算符AggregateError错误对象对象的扩展 属性的简洁表示法 const foo bar; const baz {foo}; baz // {foo: "bar"…
暂无图片
编程学习 ·

让程序员最头疼的5种编程语言

世界上的编程语言&#xff0c;按照其应用领域&#xff0c;可以粗略地分成三类。 有的语言是多面手&#xff0c;在很多不同的领域都能派上用场。大家学过的编程语言很多都属于这一类&#xff0c;比如说 C&#xff0c;Java&#xff0c; Python。 有的语言专注于某一特定的领域&…
暂无图片
编程学习 ·

写论文注意事项

参考链接 给研究生修改了一篇论文后&#xff0c;该985博导几近崩溃…… 重点分析 摘要与结论几乎重合 这一条是我见过研究生论文中最常出现的事情&#xff0c;很多情况下&#xff0c;他们论文中摘要部分与结论部分重复率超过70%。对于摘要而言&#xff0c;首先要用一小句话引…
暂无图片
编程学习 ·

安卓 串口开发

上图&#xff1a; 上码&#xff1a; 在APP grable添加 // 串口 需要配合在项目build.gradle中的repositories添加 maven {url "https://jitpack.io" }implementation com.github.licheedev.Android-SerialPort-API:serialport:1.0.1implementation com.jakewhart…
暂无图片
编程学习 ·

2021-2027年中国铪市场调研与发展趋势分析报告

2021-2027年中国铪市场调研与发展趋势分析报告 本报告研究中国市场铪的生产、消费及进出口情况&#xff0c;重点关注在中国市场扮演重要角色的全球及本土铪生产商&#xff0c;呈现这些厂商在中国市场的铪销量、收入、价格、毛利率、市场份额等关键指标。此外&#xff0c;针对…
暂无图片
编程学习 ·

Aggressive cows题目翻译

描述&#xff1a; Farmer John has built a new long barn, with N (2 < N < 100,000) stalls.&#xff08;John农民已经新建了一个长畜棚带有N&#xff08;2<N<100000&#xff09;个牛棚&#xff09; The stalls are located along a straight line at positions…
暂无图片
编程学习 ·

剖析组建PMO的6个大坑︱PMO深度实践

随着事业环境因素的不断纷繁演进&#xff0c;项目时代正在悄悄来临。设立项目经理转岗、要求PMP等项目管理证书已是基操&#xff0c;越来越多的组织开始组建PMO团队&#xff0c;大有曾经公司纷纷建造中台的气质&#xff08;当然两者的本质并不相同&#xff0c;只是说明这个趋势…
暂无图片
编程学习 ·

Flowable入门系列文章118 - 进程实例 07

1、获取流程实例的变量 GET运行时/进程实例/ {processInstanceId} /变量/ {变量名} 表1.获取流程实例的变量 - URL参数 参数需要值描述processInstanceId是串将流程实例的id添加到变量中。变量名是串要获取的变量的名称。 表2.获取流程实例的变量 - 响应代码 响应码描述200指…
暂无图片
编程学习 ·

微信每天自动给女[男]朋友发早安和土味情话

微信通知&#xff0c;每天给女朋友发早安、情话、诗句、天气信息等~ 前言 之前逛GitHub的时候发现了一个自动签到的小工具&#xff0c;b站、掘金等都可以&#xff0c;我看了下源码发现也是很简洁&#xff0c;也尝试用了一下&#xff0c;配置也都很简单&#xff0c;主要是他有一…
暂无图片
编程学习 ·

C语言二分查找详解

二分查找是一种知名度很高的查找算法&#xff0c;在对有序数列进行查找时效率远高于传统的顺序查找。 下面这张动图对比了二者的效率差距。 二分查找的基本思想就是通过把目标数和当前数列的中间数进行比较&#xff0c;从而确定目标数是在中间数的左边还是右边&#xff0c;将查…
暂无图片
编程学习 ·

项目经理,你有什么优势吗?

大侠被一个问题问住了&#xff1a;你和别人比&#xff0c;你的优势是什么呢? 大侠听到这个问题后&#xff0c;脱口而出道&#xff1a;“项目管理能力和经验啊。” 听者抬头看了一下大侠&#xff0c;显然听者对大侠的这个回答不是很满意&#xff0c;但也没有继续追问。 大侠回家…
暂无图片
编程学习 ·

nginx的负载均衡和故障转移

#注&#xff1a;proxy_temp_path和proxy_cache_path指定的路径必须在同一分区 proxy_temp_path /data0/proxy_temp_dir; #设置Web缓存区名称为cache_one&#xff0c;内存缓存空间大小为200MB&#xff0c;1天没有被访问的内容自动清除&#xff0c;硬盘缓存空间大小为30GB。 pro…
暂无图片
编程学习 ·

业务逻辑漏洞

身份认证安全 绕过身份认证的几种方法 暴力破解 测试方法∶在没有验证码限制或者一次验证码可以多次使用的地方&#xff0c;可以分为以下几种情况︰ (1)爆破用户名。当输入的用户名不存在时&#xff0c;会显示请输入正确用户名&#xff0c;或者用户名不存在 (2)已知用户名。…