【摘要】订单服务最容易出现的稳定性问题,不是业务代码写错,而是下游支付、库存、短信网关一抖,整个接口成功率跟着雪崩。看起来只是一次超时,实际上会引发重试风暴、线程池占满、数据库回写积压。 今天我们讨论一个问题:如何把外部依赖调用链路收敛到可控、可观测、可恢复的状态。 1. 问题背景:服务没挂,为什么成功率先 阅读全文