V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
godblessumilk
V2EX  ›  全球工单系统

B 站的事故报告啥时候才出来?

  •  
  •   godblessumilk · 144 天前 via Android · 9762 次点击
    这是一个创建于 144 天前的主题,其中的信息可能已经有所发展或是发生改变。
    本吃瓜群众想围观甩锅,顺便学习下高可用架构。说是机房故障未免太笼统。。硬件故障?员工误操作?
    第 1 条附言  ·  143 天前
    咱只关心技术细节 QAQ 在宣泄情绪,而非理性探讨、发表观点的彦祖们,冷静鸭 !!!
    74 条回复    2021-07-17 01:29:09 +08:00
    tangds99
        1
    tangds99  
       144 天前
    不是当晚好几家一起故障吗
    HongJay
        2
    HongJay  
       144 天前
    @tangds99 #1 其他是被啊 B ddos 了
    ffLoveJava
        3
    ffLoveJava  
       144 天前
    这个又不会公开
    dot2017
        4
    dot2017  
       144 天前
    事故报告为啥要公开?
    tojohnonly
        5
    tojohnonly  
       144 天前
    网页端好像又打不开了?手机端可以
    dynastysea
        6
    dynastysea  
       144 天前
    你想的真多,别人为啥要公开啊
    Jooooooooo
        7
    Jooooooooo  
       144 天前   ❤️ 1
    国内公司没见过公开的

    国外的 postmortem 做的这么好国内公司确实应该学学

    可以搜 google 的故障报告, 写的很详细
    Pastsong
        8
    Pastsong  
       144 天前
    B 站又没有给你承诺过 SLA 的,又不会公开的
    VANHOR
        9
    VANHOR  
       144 天前
    看上去是云服务商的问题,估计不会公开的。
    3dwelcome
        10
    3dwelcome  
       144 天前   ❤️ 1
    @HongJay "其他是被啊 B ddos 了"

    又不是单服务器时代了,现在网站的云服务器基本不怕 DDOS 。

    你仔细观察,当天 A 站挂掉也是后台 API 不能访问,主页面 HTML 正常显示,但是刷不出视频。真要是 DDOS,那么连 HTML 都显示不出来了。

    最大可能,就是 A 站和 B 站在同一个机房同一个出口。
    mangoDB
        11
    mangoDB  
       144 天前
    楼主有个疑问🤔️,为什么 B 站要向外界公布事故报告呢?
    wph95
        12
    wph95  
       144 天前   ❤️ 1
    猜外部原因的 云服务商原因的别猜了。不对。
    上午 b 站有人发了具体故障原因到自己的公众号,中午号就已经没了 =。=
    otakustay
        13
    otakustay  
       144 天前   ❤️ 2
    @3dwelcome 不能这么说,HTML 在 CDN 上,DDOS 绕过 CDN 打掉服务也算 DDOS
    A 站的问题确实是一个 DDOS,但不是 B 发起的,纯粹用户突然增长变成了服务拒绝而已
    delectate
        14
    delectate  
       144 天前   ❤️ 51
    其实国内也有很多揭露事故报告的,比如博客园 https://www.cnblogs.com/cmt/p/15012349.html

    但是这是凤毛麟角。国外基本上你能想得到的互联网公司,都有服务状态查询、事故报告等等。
    其中,让我印象最深刻的是两个:1 、Backblaze 定期发布的硬盘可用报告,让大家从侧面知道了硬盘的不可靠性,备份的重要性,以及选择一个好牌子的绝对性(吹爆 hgst ); 2 、gitlab 误删数据库后的在线直播恢复。

    那么为什么国内几乎没有这种呢?有几个原因:
    1 、捂盖子是本能,上到 z--f 下到居民个人,谁也不愿意自己的丑事外扬,更不可能自揭伤疤;亡羊补牢、后事之师什么的,其实都是空喊口号;每次看《空中浩劫》的 NTSB 耗费几年十几年,从几十万残片找线索,就为了降低万分之一事故率就莫名感动,我们基本上是当天出事,先把热度压下去,隔天事故报告就炮制出来了,只要大家忘记,这个事故就没发生过一样。
    2 、没有向外发布报告的传统;
    3 、起哄的人太多,造谣传谣的更多,为了避免误传,干脆不说。
    AlexChing
        15
    AlexChing  
       144 天前
    失去了一个学习机会了。
    morize
        16
    morize  
       144 天前   ❤️ 5
    @delectate 上纲上线没必要,别有事没事国内国外的,到时候二极管又来吵。捂盖子是人类的本能,猫猫狗狗做错事都会想办法不让你发现。
    haaro
        17
    haaro  
       144 天前
    论专业程度还是一线大厂厉害:
    https://imgur.com/Tf8cnnQ

    https://imgur.com/H2jsXoS
    CEBBCAT
        18
    CEBBCAT  
       144 天前 via Android
    ……楼主也没说要公开啊,事故报告泄漏一两个或者走漏一点风声又不会开人
    godblessumilk
        19
    godblessumilk  
    OP
       144 天前
    大家怕不都是贤者模式了???我还沉浸在阿逼被日的高潮中,跪求阿逼出报告啊 TAT 阿逼别跑 @毛剑
    fetich
        20
    fetich  
       144 天前
    @morize ???
    fetich
        21
    fetich  
       144 天前
    @delectate 这方面不得不点名表扬 Cloudflare
    wateryessence
        22
    wateryessence  
       144 天前
    @fetich 确实,上课的时候直接拿 cloudflare 的报告做案例研究
    fetich
        23
    fetich  
       144 天前
    @delectate 那啥,我在某处看到了同样的用户名和头像,只不过 d 是大写的,不确定是不是本人。提个建议,多平台不要使用雷同的帐号和头像,不安全。
    EastLord
        24
    EastLord  
       144 天前
    敖丙帮你分析了事故原因 https://juejin.cn/post/6984577649968414757
    KouShuiYu
        25
    KouShuiYu  
       144 天前   ❤️ 5
    楼上让人感动的大飞机让我想起了波音 737
    3dwelcome
        26
    3dwelcome  
       144 天前
    @otakustay "A 站的问题确实是一个 DDOS,但不是 B 发起的,纯粹用户突然增长变成了服务拒绝而已"

    我个人觉得这种几率很低,DDOS 是放到 5 年前是事故主因我信,现在 A 站都是放阿里云,云又不可能被轻易打挂。

    而且豆瓣又不是视频站点,不太可能同一时间被 DDOS 了。

    PS: 刚才去又看了一眼 A 站网页,竟然上了 Service Worker,前端技术比 B 站还先进。也许就是这个 SW,让我误以为那天 HTML 没挂。
    godblessumilk
        27
    godblessumilk  
    OP
       144 天前
    @wph95 具体故障原因公众号推文有截图吗,跪求。。我推测的故障原因是三者其一 ① 阿里云防火墙在部署升级,防火墙配置不当,拖垮了 B 和 A ② 阿 B 的软件层的高可用架构并未考虑极端情况,导致了机房硬件的过热,单节点硬件故障,后续雪崩引起大片服务宕机 ③ 中间件 tengine 升级,未全面测试,导致线上生产环境 5XX 故障
    wph95
        28
    wph95  
       144 天前
    @godblessumilk #27
    3 接近
    不过锅不在 tengine,某个东西升级后 luajit bug 了 =。= (当下谜语人懂得都懂
    发文章的人都快收拾工位了就不放截图了 =。=
    3dwelcome
        29
    3dwelcome  
       144 天前
    @EastLord 赌一包方便面,不是技术人员的锅。
    damnu
        30
    damnu  
       144 天前 via iPhone   ❤️ 6
    这也能联动到攻击国人身上了?
    meteor957
        31
    meteor957  
       144 天前
    who cares
    wph95
        32
    wph95  
       144 天前   ❤️ 4
    @delectate #14
    有道理是有点道理
    但是拿 toB 公司和 toC 公司比没啥意义 toC 公司公开事故报告有啥意义 你爸妈 or 行外人就看个热闹瞎起哄
    toB 公司不公开,出事故出了多次就丧失信任就跑路了
    godblessumilk
        33
    godblessumilk  
    OP
       144 天前
    @wph95 求加微信细说,T29wc180MDNGb3JiaWRkZW4=,加密方式懂的都懂
    godblessumilk
        34
    godblessumilk  
    OP
       144 天前
    @wph95 #32
    是这篇博文提及的 bug 吗???

    每个线程开启一个 LuaJIT 虚拟机( LuaJIT 2.1.0-beta3 )在高并发情况下,lua 代码会出现诡异情况。当 xxx 为 1 时,按理应该 xxx ~= 1 为 false,但是很奇怪的是反而为 true 。只有 not xxx == 1 才为 false,ps.暂时无法用独立的测试用例来重现此问题。

    https://www.cnblogs.com/lcinx/p/13564598.html
    windyskr
        35
    windyskr  
       144 天前   ❤️ 3
    一包辣条猜是墙的某一组件爆炸了。
    otakustay
        36
    otakustay  
       144 天前
    @3dwelcome 云不代表自动扩容,或者说现在大部分企业用云根本没有自动扩缩容能力。你说数据库、CDN 不会被打挂这个很合理,但核心的业务服务买虚拟机部署是很容易就会挂的
    yikyo
        37
    yikyo  
       144 天前
    @delectate 博客园的还是算了吧,一年能有十几次,拿线上环境当练手了。。
    A555
        38
    A555  
       144 天前
    @3dwelcome #26 A 被快手重构过了吧
    xrr2016
        39
    xrr2016  
       144 天前   ❤️ 8
    @delectate 不是吧,拿部电影来贬低国内,太廉价了...
    zhoudaiyu
        40
    zhoudaiyu  
       144 天前 via iPhone
    @wateryessence 求事故报告的链接
    zohar727
        41
    zohar727  
       144 天前
    有事故报告也一般只有内部员工能看吧。
    我们内网就有各团队的事故报告分享
    lloovve
        42
    lloovve  
       144 天前 via iPhone   ❤️ 4
    报告有了,就是为了送大家一天大会员,特意崩溃的
    Zzdex
        43
    Zzdex  
       144 天前
    这块得学学 github 每周都有 Availability Report
    wenzichel
        44
    wenzichel  
       144 天前
    为什么一定要有事故报告呢?为什么一定要对外公开呢?
    Perry
        45
    Perry  
       144 天前 via iPhone
    B2B 的话比如云服务做事故报告很正常,B2C 或者 C2C 的感觉没必要做啊,有几个普通用户需要知道这些的?最多道个歉就够了吧。
    godblessumilk
        46
    godblessumilk  
    OP
       144 天前 via Android
    @windyskr 部署在运营商骨干网的墙爆炸了?
    learningman
        47
    learningman  
       144 天前
    @xrr2016 #37 空中浩劫不是电影啊,是纪录片。
    而且 NTSB 是美国的,但是空中浩劫是加拿大拍的
    gBurnX
        48
    gBurnX  
       144 天前
    高可用架构根本不需要学习,因为本身就很简单,全靠砸钱。钱如果足够多,采用足够精细的实时日志,甚至能做到科幻电影那种,秒级直接定位到故障具体子模块甚至代码位置。
    Ohgash
        49
    Ohgash  
       144 天前 via iPhone
    @damnu 二极管说来就来
    godblessumilk
        50
    godblessumilk  
    OP
       144 天前 via Android   ❤️ 3
    @windyskr 老实说,这事发生的时候,我第一时间联想到的是 2020 年 github 大规模的证书 CA 被劫持事件。。当时最合理的解释就是 qiang 在升级。。。。因为 CA 被大面积劫持,只可能发生在骨干网上,只可能是三大运营商的手笔。。。
    Ohgash
        51
    Ohgash  
       144 天前 via iPhone   ❤️ 1
    @xrr2016 为什么你对公开事故报告这么不爽?是不是你的命太廉价了?
    Ohgash
        52
    Ohgash  
       144 天前 via iPhone
    @xrr2016 不好意思,@ 错人了
    CosimoZi
        53
    CosimoZi  
       143 天前   ❤️ 5
    哇 v 站恨国真是有一手啊, 这都能转进
    halden
        54
    halden  
       143 天前   ❤️ 4
    帖子的节奏莫名其妙变成了“指出国内厂家不出事故报告的原因 -> 乳化”,有没有这么玻璃心说两句就恨过了?你认为人家观点不对你反驳观点就好啊

    公开事故报告的好处有几个
    1. 说明自己内部排查问题的能力
    2. 让用户知道“自己知道自己错在哪了”,以后不会再犯
    3. 让同行引以为戒不犯相同的错误
    reiji
        55
    reiji  
       143 天前 via iPad
    一开始看 404 想当然的以为是 CDN 故障,现在深深感觉自己还是需要提高姿势水平
    ccppgo
        56
    ccppgo  
       143 天前   ❤️ 3
    @halden 在 NGA 才学到转进这个词, 楼上那只转进小能手确实牛逼, 一个破 B 站出了问题转进到正府和中国人, 还说别人玻璃心? 你拉偏架恶不恶心?
    real3cho
        57
    real3cho  
       143 天前   ❤️ 1
    啊 B:不是送了一天大会员给你了嘛,还要怎样!
    gy0624ww
        58
    gy0624ww  
       143 天前
    楼主应该是想知道小破站的服务高可用,异地多机房多活灾备,为啥失效了吧
    CosimoZi
        59
    CosimoZi  
       143 天前   ❤️ 6
    1. b 站既不是 2B 公司, 也不托管用户的重要资产, 可靠性不是它的卖点, 没必要搞自己可靠性的 propaganda. 用户不会因为 b 站可靠性没达到 4 个 9 不看 b 站, 但可能在选择云服务 /代码托管服务时就必须纳入考量范围. 你说国内哪个云服务厂商要是出了什么问题, 扣扣大帽子也无妨, b 站接不住, 也没必要接.
    2. 波音 737max 是怎么以相同的原因掉了两架的? 掉一架可以是意外, 掉两架, 然后说<<空中浩劫>>事故报告做得好, 我寻思事故报告做得好起码得完全相同的问题不犯第二次错误吧? 做得好在哪里了呢? 真实大蜜似黑啊.
    3. 内部通报不对外发布, 也是对实际责任人和实际责任团队的一种保护. 大厂每天内部事故邮件雪花一样多, 真不劳别人操心查不查得出来
    wangxin13g
        60
    wangxin13g  
       143 天前
    @halden 任何非 2B 为核心收入的公司没必要也责任公开自己线上问题的起因,稍微大点的公司一天的线上故障不计其数,挨个发通报没意义也没必要。当然如果你硬要看六子肚子里几碗粉就当我没说。
    Illusionary
        61
    Illusionary  
       143 天前   ❤️ 1
    为啥觉得 B 站要把这事当成事故? 人家借着这一波宕机都不知道收割了多少热搜流量。 像微博一样,经常搞什么戏子离婚 /出轨新闻导致宕机(不给程序员过周末的梗),其实就是故意宕机的,给人一种微博还很火的感觉。
    mascteen
        62
    mascteen  
       143 天前 via Android
    @CosimoZi 你自己不说真相就别怪谣言飞起
    ppphp
        63
    ppphp  
       143 天前
    楼里说恨国的是只能看得懂恨国的内容了,确实是国外做的好啊
    ELloop
        64
    ELloop  
       143 天前 via Android
    @halden 这看起来都在支持掩盖真相,“那杀死你的谎言被埋在了比那更深的谎言之下”,没有那么糟糕但情况是相同的,一个视角的坍塌构成了世界腐坏的一部分。
    emeab
        65
    emeab  
       143 天前   ❤️ 2
    @delectate 你好,Instagram, FB 在 2021 年 4 月 9 日 大面积宕机. 但是仅有一个发言人回应:"今天早些时候,配置改变导致一些 Facebook 用户无法进入。我们迅速展开调查,解决了问题。对于造成的不便我们深表歉意."
    不知道你能否找到关于那一次事件的事故报告呢.
    kitthsu
        66
    kitthsu  
       143 天前
    盲猜当晚是 CDN 故障,可能那几家用了同一个 CDN 供应商
    godblessumilk
        67
    godblessumilk  
    OP
       143 天前
    @gy0624ww #58
    终于来了位关心技术细节的同僚。。当晚我看到金山云,华为云,好几家云服务厂商同时挂掉,分析了下觉得是怪事一桩,所以才会希望阿 B 出报告让 too young too native 的我学习学习,提高姿势水平(当然阿 B 不公开报告也无可厚非
    godblessumilk
        68
    godblessumilk  
    OP
       143 天前
    @tangds99 #1 对鸭,怪事一桩。某一家大规模挂掉就算了,几家一起挂,这概率未免有点不合逻辑
    azuis
        69
    azuis  
       143 天前
    @CosimoZi 纠正一下,737 Max 第一次的事故最终报告是在第二架飞机掉了之后才出来的...包括川航 8633 的事故报告也是时隔 1-2 年后才最终发布。
    chinvo
        70
    chinvo  
       143 天前   ❤️ 2
    @delectate #14 哪次国内飞安事故没有详细调查报告, 哪次不是深入调查之后再发布? 你自己不去民航局官网看, 就瞎造谣说捂盖子、炮制报告.

    回到这个问题上, 你举的两个例子都是对公业务, B 站又不是对公业务, 怎么拿到一起对比?

    就这, 还 46 个赞, 这 v 站, 真是没法看了.
    jpyl0423
        71
    jpyl0423  
       143 天前
    没想到这么个帖子也能丰富 block 列表😅
    azuis
        72
    azuis  
       143 天前
    @chinvo 详细调查报告应该是都有,但是确实并不是每次每次都公开的。 有一些是网上有人放出来 pdf,但是民航局官网上是没有的,或者我没找到,如果你知道链接也欢迎发一下。 一般国内的飞安事故只有应急管理部的网站上会挂一个非常简单的调查报告,就是只说结论的那种,而且只有 2000 之后的, 相比其他国家来说确实透明度很低。 并没有 pdf 那种详细的版本。 我觉得详细调查肯定是有,只是详细报告并不会对大众公开。
    有点跑题了,B 站这个估计复盘也没这么快,可能过段时间会有人分享吧。
    chinvo
        73
    chinvo  
       143 天前
    @azuis #72 记得前年的时候, 民航局官网还有个专门的栏目列出调查报告, 往前翻还能翻到 20 世纪的报告, 刚刚去看了下, 现在确实不能直接找到完整的报告列表了, 但是可以通过 政务公开 搜索已经公开的报告, 或者通过 申请公开 申请特定报告. 另外刚刚用国图的数字门户看了下, 国图数字门户里也能搜到古早报告.
    azuis
        74
    azuis  
       143 天前
    @chinvo 我看网上有的文章说直到 2010 年河南航空 8387 中国才开始公布飞安事故调查报告。 之前包头空难的时候去法院行政诉讼也没有公开过。 我也尝试搜索过 2010 之前的比如包头的那个, 但是也没有搜到比较详细的报告,只有各个媒体的报导。
    关于   ·   帮助文档   ·   API   ·   FAQ   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   1439 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 17:44 · PVG 01:44 · LAX 09:44 · JFK 12:44
    ♥ Do have faith in what you're doing.