[alibaba/tengine]tengine2.2.0不定期down,出现大量的check time out with peer

2024-07-10 195 views
3

down的时候,不能访问; 错误日志出现check time out with peer 后端服务有的还是能接收到tengine的健康检查请求,返回也是正常的。 初步怀疑是超时时间太短,但是不应该所有的后端服务全部摘除掉 一般是什么情况下才会出现后端服务全部摘除。网络的问题?

最坑的是,发现错误,去处理的时候,不足10秒就恢复,有时1-2秒,还不定期的出现。

应该怎么排查问题?有没有好的方法,多谢

默认配置 check interval=5000 rise=2 fall=5 timeout=1500 type=http; check_http_send "HEAD /check.htm HTTP/1.0\r\n\r\n"; check_http_expect_alive http_2xx http_3xx;

回答

7

一共配置了多少台机器? 我看fall=5 要连续5次都不行才会摘掉 你后端服务器的负载这些如何, 如果是connection超时, 系统是默认3s之后才重传的, 你的1.5s就肯定失败. 如果请求量不大, 直接抓包, 出问题了看情况. 如果请求量大, 就把健康检查换个请求端口, 然后只抓健康检查的请求包.

6

好的,明白了,看来只能抓包了。配置的端口有点多,接近60个,超时时间我先改下3s,失败次数更改成fall=2

1

请问楼主这个问题解决了吗?

8

配置了3s好很多了,不过,最近升级了2.3又重现了。