仅已总结自己所遇到的线上系统崩溃总结。

  • 对失败事件的处理
    一些特殊环境(网络中断等),使得系统抛出大量的失败事件,对这些失败的处理事件常常都是记录,转移DB等操作。当特殊环境持续过长,就不会再有足够时间去恢复。系统处于长久持续的压力当中。

  • 优先级的任务分发
    设计初衷是将系统的任务流分配不同的优先级。但是错误估计(经常会),或者遇到特殊场景,导致大量搞优先级别的任务产生,拥塞。

  • 以上两种一起
    失败事件的处理被定义为高优先级的任务。在特殊场景会导致系统瞬间崩溃。

–EOF



blog comments powered by Disqus

Published

19 August 2013

Category

erlang