V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
hpayton
V2EX  ›  程序员

阿里云公布故障原因,称将改进流程

  •  1
     
  •   hpayton · 2018-06-28 08:38:42 +08:00 · 10957 次点击
    这是一个创建于 2333 天前的主题,其中的信息可能已经有所发展或是发生改变。

    昨日下午,阿里云出现故障,导致用户在访问阿里云官网控制台和使用部分产品功能出现问题。 阿里云表示,故障从北京时间 27 日 16:21 左右开始,到 16:50 开始陆续恢复。故障起因是上线一个自动化运维新功能时,执行了一项变更验证操作,触发了一个未知代码 bug,错误代码仅用了部分内部 IP,导致部分产品访问链路不通。 阿里云称,“对于这次故障,没有借口,我们不能也不该出现这样的失误!我们将认真复盘改进自动化运维技术和发布验证流程,敬畏每一行代码,敬畏每一份托付。”

    官方声明: https://m.weibo.cn/status/4255687556823599?sudaref=login.sina.com.cn

    正视问题,直面故障,这样的态度还是好的。希望好好改进,别开除程序员了(那个实习生的截图显然是造谣)

    81 条回复    2018-06-29 10:32:55 +08:00
    showecho
        1
    showecho  
       2018-06-28 08:42:00 +08:00
    用着套路云的众多产品;

    又很想吐槽套路云;

    我是不是有问题。
    Eugene1024
        2
    Eugene1024  
       2018-06-28 08:47:51 +08:00   ❤️ 1
    阿里服务器产品还是可以,技术也可以,服务真的差
    CEBBCAT
        3
    CEBBCAT  
       2018-06-28 08:49:36 +08:00 via Android   ❤️ 3
    #我是阿里黑

    这是说明,不是道歉
    “敬畏每一行代码,敬畏每一份托付。​” 语义不达?我没读懂这句话的意义
    silencefent
        4
    silencefent  
       2018-06-28 08:49:47 +08:00
    千万呢?
    hahasong
        5
    hahasong  
       2018-06-28 08:50:49 +08:00 via iPhone   ❤️ 6
    不谈赔偿
    x7395759
        6
    x7395759  
       2018-06-28 08:55:12 +08:00
    道歉难道要给你跪下来才算?
    laball
        7
    laball  
       2018-06-28 09:00:03 +08:00   ❤️ 15
    简单点的意思是不是可以理解为:事情已经发生了,我也道歉了,但我不想赔钱!
    AlfredL
        8
    AlfredL  
       2018-06-28 09:04:37 +08:00
    不谈赔偿可是很秀的 总感觉结尾是在卖情怀 没说什么有用的话
    Jimrussell
        9
    Jimrussell  
       2018-06-28 09:06:00 +08:00 via Android
    那么大一个公司,出了问题面对公众连赔偿都不敢谈,丢人现眼。
    LeungJZ
        10
    LeungJZ  
       2018-06-28 09:06:17 +08:00
    所以没有赔偿咯?企业在那段时间的损失是应该的?
    CEBBCAT
        11
    CEBBCAT  
       2018-06-28 09:06:29 +08:00 via Android
    @CEBBCAT 是阿里黑不是阿里云黑


    @x7395759 个人理解是要明文写出“对不起”或者“我们有过错”,文中最接近的词是“失误”

    yylucifer
        12
    yylucifer  
       2018-06-28 09:07:38 +08:00
    好吧,可用度已经降到 3 个 9 了.
    再怎么吹也抵不过事实啊..
    qingfengxm
        13
    qingfengxm  
       2018-06-28 09:15:27 +08:00   ❤️ 1
    因为敬畏了每一行代码,高可用 99.99% -----> 99.9%
    trys1
        14
    trys1  
       2018-06-28 09:18:49 +08:00 via Android   ❤️ 1
    @x7395759 我找不到任何一个道歉的字眼
    airyland
        15
    airyland  
       2018-06-28 09:19:36 +08:00   ❤️ 2
    @x7395759 云服务故障不谈赔偿谈情怀么?就像微博下面的评论一样没法看。

    邮件搜索了下,阿里云还发下类似这样的邮件,所以大概测试部署流程以前就有点问题:

    2017 年 6 月 16 日 阿里云故障通告:您好,您的${product}${caseid},${reason},请您了解。

    可以给云技术一点宽容,但这样的故障说明实在是无力宽容。

    ====================帖一下美团云的邮件,可惜不再进行公有云业务了====================

    尊敬的美团云用户 :

    您好,2017 年 06 月 28 日,因厂商交换机 BUG,导致美团云内网异常,影响依赖内网的产品内网间通讯。针对此次事件,我们根据记录向您提交本次事件的全面报告。(见附件)

    对于此次故障给您业务带来的影响,我们深表歉意 。根据服务等级协议,我们将给予您故障时间 200 倍的补偿,已经以代金券的方式充值到您美团云账户中,请您关注账户余额的变动。我们深知,200 倍补偿已是业内最高标准,但仍无法挽回您的实际损失。请相信美团云将继续坚持“技术突破边界,服务传递价值”的价值导向,为您提供更加优质的服务。如有任何问题请与我们联系(工单 /客服电话 4000-800-170 )。
    yzmm
        16
    yzmm  
       2018-06-28 09:20:04 +08:00
    未知的 bug 是什么 bug?用户关心的赔偿问题应该正在讨论怎么处理了吧?
    qingfengxm
        17
    qingfengxm  
       2018-06-28 09:21:15 +08:00
    @airyland 还是美团云态度好
    qingfengxm
        18
    qingfengxm  
       2018-06-28 09:22:13 +08:00
    @hahasong Jack 马不让,谁谈开除谁
    chanssl
        19
    chanssl  
       2018-06-28 09:23:38 +08:00
    没道歉也没赔偿,这态度不算好吧
    GPIO
        20
    GPIO  
       2018-06-28 09:24:27 +08:00
    顶多算个问题说明吧,算不上道歉。
    feverzsj
        21
    feverzsj  
       2018-06-28 09:27:19 +08:00
    赔偿是不可能赔偿的,这辈子都不可能赔偿的
    luban
        22
    luban  
       2018-06-28 09:29:05 +08:00 via iPhone
    这份道歉和彭蕾之前白领日记的道歉雷同
    “没有借口,错了就是错了”
    torment5524
        23
    torment5524  
       2018-06-28 09:35:39 +08:00
    我这边到晚上 7 点 oss 还是无法访问。中间就放羊了,到了 10 点多准备睡了,验证了下发现好了。
    阿里敢贴出来最终的正常时间么?
    geeti
        24
    geeti  
       2018-06-28 09:37:10 +08:00   ❤️ 1
    @hahasong
    @AlfredL
    @laball
    @Jimrussell
    改不改赔偿用户协议里说的很清楚。去年二月 S3 挂了四个小时,半个美国的互联网全挂了,听说过赔偿或者诉讼吗?这种事事先已经从法律层面推脱的很干净了。
    geeti
        25
    geeti  
       2018-06-28 09:43:02 +08:00   ❤️ 1
    AWS:
    13.3 Force Majeure. We and our affiliates will not be liable for any delay or failure to perform any obligation under this Agreement where the delay or failure results from any cause beyond our reasonable control, including **acts of God**, labor disputes or other industrial disturbances, electrical or power outages, utilities or other telecommunications failures, earthquake, storms or other elements of nature, blockages, embargoes, riots, acts or orders of government, acts of terrorism, or war.

    阿里云:
    8.4. 在任何情况下,阿里云均不对任何间接性、后果性、惩戒性、偶然性、特殊性的损害,包括您使用阿里云服务而遭受的利润损失承担责任(即使您已被告知该等损失的可能性)。
    yippees
        26
    yippees  
       2018-06-28 10:07:38 +08:00   ❤️ 1
    仅用 == > 禁用

    一些客户==大量吐槽

    操作失误?有 BUG,被触发算操作失误···
    odirus
        27
    odirus  
       2018-06-28 10:09:45 +08:00
    如果不用阿里云,真不知道用什么云了,目前直接使用了他家的很多服务。希望越做越好
    Romanticlizhi
        28
    Romanticlizhi  
       2018-06-28 10:13:26 +08:00   ❤️ 2
    faker 说:当你失败的时候,说什么都是借口。
    NotNil1
        30
    NotNil1  
       2018-06-28 10:21:19 +08:00
    用脚投票啊,从阿里云迁出服务吧。
    jennifertxwoodma
        31
    jennifertxwoodma  
       2018-06-28 10:23:42 +08:00
    赔钱赔钱
    yzmm
        32
    yzmm  
       2018-06-28 10:33:48 +08:00
    @odirus 最近 bat 三家的云都在年中促销,腾讯云送的优惠券加五折,我买 3 年 1.6w 的服务器打折下来才 2400。百度云一直以来都非常稳定、IO 都非常快,好像都是 SSD 折扣也不错。在一个就是 google 的 gae,台湾机房速度也是挺快的。
    salmon5
        33
    salmon5  
       2018-06-28 10:37:42 +08:00
    我就想知道,阿里云不是造了 aiops 智能运维这个大轮子吗?这次 2 个小时的故障,aiops 可否一战?
    odirus
        34
    odirus  
       2018-06-28 10:43:06 +08:00
    @yzmm #32

    百度云的话,不敢碰

    腾讯眼的话,都称良心云,但无爱。

    GAE 的话,可惜我们的用户都是大陆用户,TW 线路再快,也有被 Q 的时候。

    一开始用阿里云,是因为喜欢他家的 RDS、DRDS,从 RAM 就看得出,RDS 应该是阿里云做得最好的组件之一。
    odirus
        35
    odirus  
       2018-06-28 10:46:29 +08:00
    以前大家都用传统 IDC 的时候,即使某些机房发生故障,至少来说影响不会那么明显,某个网站挂就挂了。云厂商就不一样,一挂就是一大片。

    去年的 S3、今年的 阿里云,现在的云服务还在逐渐成长,但相对于传统 IDC 机房,已经很便捷了,只能说再接再厉吧。
    fulingfan
        36
    fulingfan  
       2018-06-28 11:03:40 +08:00
    迁移到 AWS 上
    hpayton
        37
    hpayton  
    OP
       2018-06-28 11:04:08 +08:00   ❤️ 1
    赔偿问题可以看 SLA 吧,都内置在控制台了,没有必要说每出一个故障,都要新搞一个赔偿方案,那 SLA 干嘛用了
    hacklele
        38
    hacklele  
       2018-06-28 11:04:22 +08:00
    本来就对阿里云没好感。这下我连到期都不想等了。想直接迁移走~~~ 感觉哪里都比套路云好
    sgissb1
        39
    sgissb1  
       2018-06-28 11:05:21 +08:00
    毫无诚意的申明,一贯的作风
    opengps
        40
    opengps  
       2018-06-28 11:21:53 +08:00
    大佬们,我在问与答节点的帖子不进入首页,欢迎关注这次阿里云故障中,应对方案的大佬围观留言我的反思贴:
    [反向思考:阿里云这次故障里,有哪些措施面对故障发挥了好的作用?]( https://www.v2ex.com/t/466445)
    xia0pia0
        41
    xia0pia0  
       2018-06-28 11:22:46 +08:00   ❤️ 2
    你们都不吐槽一下?公告里的"吐槽"这个词,用在里边真的是没诚意,搞得客户都是小肚鸡肠一样。
    CoderGeek
        42
    CoderGeek  
       2018-06-28 11:26:54 +08:00
    吐槽? 那么多服务挂了 何止是吐槽 恶心
    banks0913
        43
    banks0913  
       2018-06-28 11:28:06 +08:00
    兄弟你好
    skschema
        44
    skschema  
       2018-06-28 11:30:34 +08:00
    就算不公开谈赔偿,至少单独给大家一些说法。
    jadec0der
        45
    jadec0der  
       2018-06-28 13:29:27 +08:00
    @geeti AWS 该赔肯定会赔啊,SLA 都写在合同里,按照 S3 的宕机时间和账单赔就行了,没法推脱。阿里云这次是好多服务一起挂了,不知道会怎么算
    wingyiu
        46
    wingyiu  
       2018-06-28 13:36:40 +08:00   ❤️ 1
    明明出了故障,却一点都没有道歉赔偿都没有。

    还赢得了一片赞誉。

    阿里公关牛逼啊
    PP
        47
    PP  
       2018-06-28 13:39:46 +08:00 via iPad
    对用户也没有给出个交代,仿佛是内部检讨书。
    Weny
        48
    Weny  
       2018-06-28 13:40:45 +08:00 via iPhone
    赔钱是不会赔钱的这辈子都不可能陪钱
    robinlovemaggie
        49
    robinlovemaggie  
       2018-06-28 13:43:34 +08:00
    @Weny 道歉是不可能的这辈子都不会道歉
    qingfengxm
        50
    qingfengxm  
       2018-06-28 14:01:59 +08:00
    @Weny @robinlovemaggie 赔钱、道歉,工程师又要被开除了,抢个月饼还开除几个人呢,何况这么大的事故呢?
    hpayton
        51
    hpayton  
    OP
       2018-06-28 14:05:07 +08:00
    @banks0913 哈哈哈,你好!
    hpayton
        52
    hpayton  
    OP
       2018-06-28 14:05:37 +08:00
    @Weny 有 SLA 的,看控制台里的 SLA 就知道具体赔偿情况了
    icekingcy
        53
    icekingcy  
       2018-06-28 14:07:18 +08:00 via iPhone
    完全没有道歉,赔偿只字不提。已经在看 Azure 了,准备后面产品全线 Azure,一直在用 Azure 国际,希望国内的和国际版的一样
    kylix
        54
    kylix  
       2018-06-28 14:08:06 +08:00
    呵呵。赔偿是不可能的了,也没指望过。道歉?。字里行间流露出只有傲慢。
    icekingcy
        55
    icekingcy  
       2018-06-28 14:10:20 +08:00 via iPhone
    @odirus Azure 中国
    Beebird
        56
    Beebird  
       2018-06-28 14:44:26 +08:00   ❤️ 1
    我也觉得“吐槽”用在此处不合适,总是感觉不舒服。较真一下:

    吐槽一词源于台湾语“黜臭” (白话字:Thuh-chhàu ),“黜”为揭发之意,揭发他人臭处,意为“揭人短处”[1],后来以华语的谐音“吐槽”为借用字来取代台语的发音,成为了台湾流行语,即指不给面子的反驳行为。

    中国大陆
    由于日本动漫在中国的流行,所以吐槽也随着台湾的翻译散播被广泛运用各大 ACG 社群,如 Acfun 和 bilibili 等,并成为了网络热词[4]。但中文中的吐槽相对于日文,除了拆台外,还有发牢骚的意思[4]。各大媒体新闻也经常把“吐槽”用于新闻的标题。(引自维基百科)

    难道云服务商出了严重故障,用户的质问和抱怨在你们眼里变成了发牢骚、拆台、不给面子? 反正我是没看出诚意来。
    vazo
        57
    vazo  
       2018-06-28 15:09:37 +08:00   ❤️ 1
    设备是好的,关键是阿里人是有问题的
    anjingme
        58
    anjingme  
       2018-06-28 15:10:39 +08:00
    知乎上仅仅 2 条提问,一个回答。
    iwaifor
        59
    iwaifor  
       2018-06-28 15:52:57 +08:00
    店大欺客,搁谁都一样,需要一个好的商业和法律生态约束的,出现哪种情况都不意外;真要赔,那就是扣大家的年终奖了,没人提的。
    natforum
        60
    natforum  
       2018-06-28 16:11:24 +08:00
    我在阿里巴巴工作,我用腾讯云
    kimqcn
        61
    kimqcn  
       2018-06-28 16:20:45 +08:00
    套路云还是不错的,大家又没什么大损失就算了(5 毛一条,括号内文字不要发!!!)
    bookit
        62
    bookit  
       2018-06-28 16:43:10 +08:00
    不用云,自己买服务器吧。
    overflowHidden
        63
    overflowHidden  
       2018-06-28 17:28:50 +08:00
    垄断不都这样,运营商经常抽风连个道歉信都没有呢
    tan90
        64
    tan90  
       2018-06-28 18:07:13 +08:00
    大家都是有理想的人,要建立理想的社会,我很佩服大家!
    kozora
        65
    kozora  
       2018-06-28 18:23:22 +08:00
    对了 昨天正好 azure 国内上了新的机房 感兴趣的可以去了解下(昨天 pyq 里的 azure 商务刚好转发这个看到了)
    huangmingyou
        66
    huangmingyou  
       2018-06-28 18:28:04 +08:00
    过年 azure 没 aci 产品,有点小可惜.
    zea
        67
    zea  
       2018-06-28 18:30:17 +08:00 via Android
    为嘛不赔?
    gclove
        68
    gclove  
       2018-06-28 18:31:05 +08:00
    金牌服务,百倍赔偿呢
    Jzer0n
        69
    Jzer0n  
       2018-06-28 18:32:40 +08:00
    会不会出现这样的回复:

    套路云还是不错的,至少态度很好而且及时处理了.(括号内删除, 五毛一条)

    那就 2333 了
    xiaowangge
        70
    xiaowangge  
       2018-06-28 18:37:01 +08:00
    有人帖 Wikipedia 的 吐槽 条目了,

    我帖一下百度百科的吧:

    「中文里的“吐槽”除了动漫里的意思之外,还有“挖苦”“抱怨”“找茬”等意思。意思是在对方(同伴、朋友、亲人均可)面前,不配合对方,有意不顺着同伴或朋友的意思说话。在同伴或朋友说场面话或大话的时候,故意说实话,揭穿场面话或大话,不给同伴或朋友任何面子。不过在很多时候,带有相当的戏谑和玩笑的成份。字面意思为“往人家碗里面吐呕吐物”,引申为不给人家面子,当面揭穿数落的意思 [1] 」

    https://baike.baidu.com/item/%E5%90%90%E6%A7%BD/5589457?fr=aladdin

    //////////////////////////////////////////////

    公司腾讯云的路过
    xiaowangge
        71
    xiaowangge  
       2018-06-28 18:39:44 +08:00
    @xiaowangge #69 公司用腾讯云的路过。

    后续阿里云有补偿的时候,也更新一下帖子啊。
    emCupid
        72
    emCupid  
       2018-06-28 18:46:33 +08:00
    阿里:罚罚,我罚酒三杯!!
    jiangnanyanyu
        73
    jiangnanyanyu  
       2018-06-28 19:16:44 +08:00 via Android
    腾讯云还可以
    plko345
        74
    plko345  
       2018-06-28 19:20:25 +08:00 via Android
    那么问题来了,是运维的锅还是开发的锅?
    30 分钟内把这问题解决,运维团队算牛逼吗?
    Infernalzero
        75
    Infernalzero  
       2018-06-28 20:04:38 +08:00
    因为大部分用户最后都是:真香

    不过也没办法,一来迁移成本高,二来国内还真没更好的选择了
    stonestyle
        76
    stonestyle  
       2018-06-28 21:22:48 +08:00
    有腾讯云产品采购需求找我,低至官网价格 8 折起,邮箱 sidongh#gmail.com
    frittle
        77
    frittle  
       2018-06-28 21:25:44 +08:00
    承认失误不等于道歉。
    oIMOo
        78
    oIMOo  
       2018-06-28 21:33:10 +08:00
    声明里面谁看到补偿或者赔偿了?
    lookas2001
        79
    lookas2001  
       2018-06-28 21:58:47 +08:00 via Android
    那些迁到腾讯的,想一下自己多少数据交给腾讯了。
    有能力自建,没能力还是继续用阿里云吧。
    cnrting
        80
    cnrting  
       2018-06-29 03:08:20 +08:00 via iPhone
    呵呵,垃圾阿里云,连一句 truely sorry 都没有,到国外这样早晚是要被打死的
    bdnet
        81
    bdnet  
       2018-06-29 10:32:55 +08:00
    有一种感觉是:这锅是运维的失误,不是故意的。不能完全怪我们。特别是“吐槽”一字用的… 好像是你们要求太高了有点过分一样。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2399 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 01:01 · PVG 09:01 · LAX 17:01 · JFK 20:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.