V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
willakira
V2EX  ›  云计算

Amazon S3 的事故报告出来了… Typo…

  •  
  •   willakira · 2017-03-03 10:38:27 +08:00 · 6737 次点击
    这是一个创建于 2828 天前的主题,其中的信息可能已经有所发展或是发生改变。

    https://aws.amazon.com/message/41926/

    At 9:37AM PST, an authorized S3 team member using an established playbook executed a command which was intended to remove a small number of servers for one of the S3 subsystems that is used by the S3 billing process. Unfortunately, one of the inputs to the command was entered incorrectly and a larger set of servers was removed than intended.

    20 条回复    2017-03-04 11:37:11 +08:00
    holyghost
        1
    holyghost  
       2017-03-03 10:39:58 +08:00   ❤️ 1
    不知道这哥们要看多少个小时的无聊小视频
    XiaoFaye
        2
    XiaoFaye  
       2017-03-03 10:52:34 +08:00
    很难想象这种批处理命令不需要 Review 。。。
    acoder2013
        3
    acoder2013  
       2017-03-03 10:56:42 +08:00
    Amazon 的工程师也是 just so so 啦, 23333333
    just4test
        4
    just4test  
       2017-03-03 11:20:59 +08:00
    所以删除服务器这种事没有机器人管么?
    '''
    操作被拒绝。该操作将影响以下子系统:
    索引子系统: 30%容量被移除,余下容量不足以支撑线上压力
    放置子系统: 20%容量被移除,余下容量不足以支撑 N+1
    要强制执行此命令,使用 --fuckyou 参数重试。
    '''
    vus520
        5
    vus520  
       2017-03-03 11:26:56 +08:00
    @just4test 想不到 aws 跟我渣司的程序员一样,看着不爽就是一顿潇洒任意的 rm
    stevele
        6
    stevele  
       2017-03-03 12:01:40 +08:00
    那也得用啊
    nealfeng
        7
    nealfeng  
       2017-03-03 12:06:56 +08:00
    @just4test

    第一次会仔细看,以后就不会那么仔细了。比如用 sudo 命令的时候。
    21grams
        8
    21grams  
       2017-03-03 12:12:53 +08:00
    命令输错了? 难道不应该做成脚本吗?
    vingz
        9
    vingz  
       2017-03-03 12:14:21 +08:00
    并不能所有的维护过程都变成自动化啊
    billlee
        10
    billlee  
       2017-03-03 12:16:00 +08:00
    r#8 @21grams 用了脚本, using an established playbook, 还是错了
    eyp82
        11
    eyp82  
       2017-03-03 12:28:46 +08:00
    应该是用了 ansible 之类的东西
    bingwenshi
        12
    bingwenshi  
       2017-03-03 12:31:44 +08:00
    @21grams 用了脚本,但是参数写错了
    okampfer
        13
    okampfer  
       2017-03-03 12:31:51 +08:00
    尤记得上次 gitlab 的 rm -rf /
    matrix67
        14
    matrix67  
       2017-03-03 12:57:07 +08:00
    playbook 的话肯定是 ansible 吧。 salt 不叫这个名字。
    vindurriel
        15
    vindurriel  
       2017-03-03 14:37:28 +08:00
    >> Removing a significant portion of the capacity caused each of these systems to require a full restart
    应该有办法改进吧
    121121121
        16
    121121121  
       2017-03-03 21:47:58 +08:00
    @holyghost 为什么要看视频?
    holyghost
        17
    holyghost  
       2017-03-03 22:14:50 +08:00
    @121121121 gitlab 那哥们就看了
    taowen
        18
    taowen  
       2017-03-03 23:15:59 +08:00
    说明运维自动化的抽象层次还是太低了,这么大的厂,居然还能用 ansible 搞这么底层的事情。还以为 AWS 的运维已经脱离了 bash 的低级趣味呢
    donghui
        19
    donghui  
       2017-03-04 08:09:35 +08:00 via iPad
    一不小心就删错
    xiaq
        20
    xiaq  
       2017-03-04 11:37:11 +08:00 via iPad   ❤️ 1
    这里的 Playbook 指的应该是事故处理的手册
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2850 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 14:06 · PVG 22:06 · LAX 06:06 · JFK 09:06
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.