深港IEPL专线延迟高?3招排查跨境路由绕路与丢包

StrataServer

半夜盯盘,Zabbix告警群又炸了。深港IEPL专线延迟从2ms飙到45ms,业务方群里狂@。别急着加钱扩带宽,这锅深港IEPL专线不背。多半是物理层 DWDM 光衰超标,或者两端POP点 BGP 选路绕了远道。

跨境链路延迟三大真凶

  • 光模块老化导致光衰。拿光功率计测一下,低于-14dBm直接拔下来换掉,别心疼那点硬件钱。
  • BGP 路由绕路。两端PE设备没做本地优先级调优,流量跑去公网兜了一圈,延迟不飙升才怪。
  • 微突发流量打满队列。底层 OSPF 收敛慢加上交换机缓存不够,TCP重传率直接起飞。

三类跨境链路实测数据

链路类型平均延迟延迟波动TCP重传率
普通公网35ms15ms+2.5%
套壳专线12ms8ms0.8%
物理IEPL2ms<1ms<0.01%
# 查路由跳数和延迟波动
mtr -n -c 100 -r target_ip
# 抓包看TCP重传和微突发
tcpdump -i eth0 -w /tmp/iepl_cap.pcap 'tcp port 443 and host target_ip'

避坑:这些场景别用专线

纯内网传小文件、非实时离线备份,千万别上IEPL。杀鸡用牛刀,每个月几千块美金月租纯粹打水漂。老老实实用公网加密隧道跑就行,把钱花在刀刃上。拿光功率计去机房测一下两端光衰,顺便把mtr报告甩给线路供应商,要求重新洗路由。

常见问题解答

01 mtr跑深港IEPL,中间有几跳延迟突然飙到100ms,是线路炸了吗?

别慌,多半是中间transit节点的路由器ICMP限速。只要最终目标节点延迟在2ms左右且没丢包,业务就不受影响,看端到端数据就行。

02 光功率计测出来接收端是-16dBm,需要换光模块吗?

必须换。正常单模光模块接收灵敏度底线在-14dBm左右,-16dBm已经处于临界态,稍微有点微突发流量就会引发FEC纠错失败导致丢包。

03 业务方说晚上8点跨境视频卡顿,但Ping值没变,怎么查?

Ping测不出微突发。用tcpdump抓包看TCP重传率,大概率是晚高峰IEPL管道被大文件占满队列溢出。得在PE设备上做QoS限速给视频流留足带宽。

04 两端PE设备建了BGP邻居,但流量还是不走IEPL怎么搞?

检查Local Preference属性。必须在两端PE上把从IEPL学来的路由LP值调高到200以上,强行覆盖公网默认路由,流量才会乖乖钻进专线管道。