MySQL PXC 集群死锁分析案例中，如何定位导致的问题？

摘要：前不久一个系统死锁导致部分业务受到影响，今次补上详细的节点日志分析过程。这个PXC集群有三个节点，分别是 108、109、110，日志信息的ip6地址、节点编号等信息均已做脱敏处理。以下日志里面，3个节点对应的配置信息是： 108 99

前不久一个系统死锁导致部分业务受到影响，今次补上详细的节点日志分析过程。这个PXC集群有三个节点，分别是 108、109、110，日志信息的ip6地址、节点编号等信息均已做脱敏处理。以下日志里面，3个节点对应的配置信息是： 108 99999999-9908 9999:9999:9999:9999::6c 109 99999999-9909 9999:9999:9999:9999::6d 110 99999999-9910 9999:9999:9999:9999::6e 一、节点日志分析109节点 1.1 之前数据库节点一直正常，且无较大的事务，直到 11:06 ~ 11:07 成功完成了1次较大的事务，全局缓存页达到了 500MB，如下： 2024-07-15T03:06:29.228915Z 0 [Note] [MY-000000] [Galera] Created page /mysqldata/mysql/gcache.page.000768 of size 515922640 bytes ... 2024-07-15T03:07:48.922772Z 0 [Note] [MY-000000] [Galera] Deleted page /mysqldata/mysql/gcache.page.000768 ... 1.2 9分钟以后即 11:16 再次发生大事务，全局缓存页达到了 570MB，这次报错了，报错如下： 2024-07-15T03:16:48.358335Z 0 [Note] [MY-000000] [Galera] Created page /mysqldata/mysql/gcache.page.000769 of size 586372048 bytes 1.3 以下报错信息显示，表 tm_xj.rms_device_info_zw_month_bak 的操作，在本节点同步执行 replication 时失败，原因在于该多语句大事务过大，超过了系统设置 max_binlog_cache_size，经查该设置是 512M：max_binlog_cache_size = 512M 2024-07-15T03:17:47.506531Z 2 [ERROR] [MY-010584] [Repl] Replica SQL: Could not execute Write_rows event on table tm_xj.rms_device_info_zw_month_bak; Multi-statement transaction required more than 'max_binlog_cache_size' bytes of storage; increase this mysqld variable and try again, Error_code: 1197; Writing one row to the row-based binary log failed, Error_code: 1534; handler error HA_ERR_RBR_LOGGING_FAILED; the event's source log FIRST, end_log_pos 0, Error_code: MY-001197 2024-07-15T03:17:47.506611Z 2 [Warning] [MY-000000] [WSREP] Event 66115 Write_rows apply failed: 161, seqno 9338777 1.4 以下信息显示，节点仲裁时 Received bogus VOTE message，进而检测到了冲突 Inconsistency detected，然后导致本节点于 11:18 停止服务。

MySQL PXC 集群死锁分析案例中，如何定位导致的问题？

相关推荐