V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
Ericcccccccc
V2EX  ›  全球工单系统

滴滴昨天晚上(2023.11.27)啥故障有没有内部人士稍微来聊聊

  •  
  •   Ericcccccccc · 354 天前 · 10335 次点击
    这是一个创建于 354 天前的主题,其中的信息可能已经有所发展或是发生改变。

    好奇啥问题能持续这么久

    50 条回复    2023-11-30 14:04:00 +08:00
    hxndg
        1
    hxndg  
       354 天前
    同好奇,等结论
    likunyan
        2
    likunyan  
       354 天前   ❤️ 12
    降本增笑?
    Ericcccccccc
        3
    Ericcccccccc  
    OP
       354 天前
    @likunyan 有一种可能是非常古老的代码有缺陷(架构/存储), 但因为一直能使用, 也不会有人去动它.

    然后昨天上线了什么新东西和这个旧的有不兼容或者存储写满了之类的问题, 无法快速通过回滚解决
    zhuoyue100
        4
    zhuoyue100  
       354 天前
    搞一晚上都没搞好,可怕
    Djaron
        5
    Djaron  
       354 天前
    相关程序猿又通宵了
    killva4624
        6
    killva4624  
       354 天前   ❤️ 3
    是错觉吗,今年各类互联网厂商出问题的次数都变高了。
    moyt
        7
    moyt  
       354 天前
    估计是降本增笑
    egfegdfr
        8
    egfegdfr  
       354 天前
    @Ericcccccccc 同好奇, 如果是新功能导致的, 是不是可以把这个功能先下了, 就会恢复?
    B1acKy1in
        9
    B1acKy1in  
       354 天前
    @killva4624 降本增笑嘛
    crazycen
        10
    crazycen  
       354 天前
    应该到 28 号现在还没全部修好,今天服务号里面的通知、福利信息、会员信息等,都还 502 Bad Gateway 呢。
    lisongeee
        11
    lisongeee  
       354 天前
    早上也用不了滴滴,然后我用百度地图打到了滴滴,司机师傅说他用的旧版本,所以能收到订单,其它师傅都用不了
    chackchackGO
        12
    chackchackGO  
       354 天前
    最近咋这么多大厂出事?
    JackyTsang
        13
    JackyTsang  
       354 天前 via Android
    降本增笑,估计又得甩锅外包人士。
    via
        14
    via  
       354 天前
    开猿截流导致的吧
    yuji
        15
    yuji  
       354 天前
    真的是 k8s 吗
    Orangeee
        16
    Orangeee  
       354 天前   ❤️ 8
    看到一个笑话:滴滴员工因为没法打到滴滴,无法及时回到公司处理线上问题,导致滴滴 APP 无法正常使用。
    Binini
        17
    Binini  
       354 天前
    直接原因可能是:
    1. 变更前没有测试到位,引起底层基础设施问题。
    2. 被日了,可能是授权下不规范渗透测试或众测引发的,也可能是外部未授权的攻击行为。
    根本原因可能是:
    1. 不规范操作
    2. 安全控制不到位
    3. 高可用没做好
    次要原因可能是:
    1. 降本增笑
    2. 应急人员打不到滴滴
    官方原因可能是:
    1. 系统意外故障
    2. 外包人员违规操作
    3. 被国外组织攻击
    plutome
        18
    plutome  
       354 天前
    截止 2023-11-28 13:51,故障还未彻底修复,很多功能依旧无法使用。

    到底是啥问题呢?
    proxychains
        19
    proxychains  
       354 天前
    内部人士大抵在通宵修 BUG
    alsas
        20
    alsas  
       354 天前
    降本增笑
    hooych
        21
    hooych  
       354 天前
    开猿截流,降本增笑

    一个字,绝!
    ygmpkk
        22
    ygmpkk  
       354 天前
    10 点多的云服务变更,10:16 分就全挂了,告警、降级、预案全部失效
    otakustay
        23
    otakustay  
       354 天前
    @egfegdfr 不好说,我见过上线出问题时已经产生了脏数据了,回滚功能没用要顺带回滚数据才能恢复,这就要很长时间了
    totoro52
        24
    totoro52  
       354 天前
    滴滴攻城狮已经连夜进行抢修!(但因为没办法叫到滴滴回不来公司,已采取步行方式,请耐心等待)
    gaozd1995
        25
    gaozd1995  
       354 天前   ❤️ 2
    @Orangeee 想起了核酸码故障😱
    soloHm
        26
    soloHm  
       354 天前   ❤️ 1
    @Orangeee 你这个梗,跟前阵子语雀崩了访问不了,但是解决方案都存在语雀里面有异曲同工之妙
    anzu
        27
    anzu  
       354 天前
    都是草台
    itechnology
        28
    itechnology  
       354 天前
    据我不负责任的推测,很有可能又是降本增笑搞的,把经验老的员工裁员了,只留下了成本低的新员工……
    dollar
        29
    dollar  
       354 天前 via iPhone
    在推上看到的消息是说 k8s 集群挂了,服务都挂了,包括内部聊天软件,只能用微信联系处理故障
    flyqie
        30
    flyqie  
       354 天前 via Android
    @dollar #29

    有地址嘛,想瞅瞅
    xiang0818
        31
    xiang0818  
       354 天前
    不能在外部平台上公开讨论工作信息。安全红线
    pws22
        32
    pws22  
       354 天前
    前段时间我们也 k8s 集群挂了,整个 etcd 集群节点数不够一直启动不起来,恢复这玩意整个不知道咋恢复。。
    wqhui
        33
    wqhui  
       354 天前
    @killva4624 盲猜最近一两年裁员裁狠了,把底层干活的裁了不少,一个人负责原本两三个人的工作,交接也没交接好
    buchikoma
        34
    buchikoma  
       354 天前
    盆友圈看到的

    1. ys 机房挂了,需要双机房切流预案,结果预案平台挂了执行不了,需要先恢复预案平台
    2. 核心交易链路有重试,错误率高的时候用户也在重试,限流能把错误率提升,用户继续增加重试,错误率继续提升;
    3. 部分业务核心交易链路依赖供给端链路,B 端业务复杂还控制新增服务,服务相互依赖严重,内部 rpc 还普遍有 check; 启动 A 服务需要先启动 B 服务,B 服务依赖的 C 服务需要 A 服务启动;
    4.止损需要拉群,结果 IM 挂了,需要微信拉 umeet ,还好 umeet 不是 dd 的
    5. 早高峰拉研发到班止损,很多打不到车,导致没法止损
    6. 双机房预案演练只练切流不练放火,反正非 P 或 Q ,管他 P 为真为假。
    MaxFang
        35
    MaxFang  
       354 天前
    @buchikoma 这么详细,看着像是内部人士发的。IM 工具也坏掉了那是很难办了。
    CodingBandit
        36
    CodingBandit  
       354 天前 via iPhone
    @hooych
    learnshare
        37
    learnshare  
       354 天前
    @soloHm
    Angular 1.* 当年文档坏了,去 Github 上反馈,核心团队也[开玩笑]让我去文档网站反馈(实际上是打不开的)
    Ericcccccccc
        38
    Ericcccccccc  
    OP
       354 天前
    @buchikoma 这么详细应该是真的.

    不过我很好奇, 一般双机房就是互备容灾, 咋挂了一个整体业务还 run 不起来了. 双机房个寂寞
    buchikoma
        39
    buchikoma  
       354 天前
    @Ericcccccccc #38 这种大业务一般不会随意切流,必定是先告警再手动 check 手动切流,而且切流操作也得是白屏化,这就导致又依赖了一个不稳定服务

    大公司就这点不好,夸部门沟通有壁垒,没办法独立完成所有运维操作
    ZZ74
        40
    ZZ74  
       354 天前
    @Orangeee 这就是为啥需要反垄断
    zhleonix
        41
    zhleonix  
       354 天前
    滴滴 23 点出问题,程序员 VPN 也登不上,于是出去打滴滴去公司,可是滴滴挂了。。。
    totoro52
        42
    totoro52  
       354 天前
    @buchikoma #34 启动 A 服务需要先启动 B 服务,B 服务依赖的 C 服务需要 A 服务启动; 6
    ukuyu
        43
    ukuyu  
       354 天前 via iPhone
    @egfegdfr #8 对啊,回上一版本不就可以了;应该不是代码 bug 吧?猜是系统问题
    shinkashinra
        44
    shinkashinra  
       354 天前 via iPhone
    @zhleonix 这个感觉是梗…真十万火急的情况,难道还打不到出租车或者开车去么
    djasdjds
        45
    djasdjds  
       353 天前
    打不了车也太扯淡了,外面出租车花小猪高德都可以打,如果十万火急,哪个领导没车?几趟组里人拉不过去。。。
    onlyhuiyi
        46
    onlyhuiyi  
       353 天前
    @buchikoma #34 请教下,"反正非 P 或 Q ,管他 P 为真为假" 这句没有看明白 P 和 Q 是什么缩写
    buchikoma
        47
    buchikoma  
       353 天前   ❤️ 1
    @onlyhuiyi #46 p 和 q 是两个条件,只要 q 是真的,无所谓 p 是真是假,而如果 q 是假的,那 p 也肯定是假的。

    其实意思就是,演练只练习切流成功没有,至于是否是在真正异常场景下,还是正常环境都不重要,case 不完善,只注重形式
    julyclyde
        48
    julyclyde  
       353 天前
    @djasdjds 花小猪是不是也是滴滴啊?
    onlyhuiyi
        49
    onlyhuiyi  
       353 天前
    @buchikoma #47 感谢,大概理解了
    elmagnificogg
        50
    elmagnificogg  
       352 天前
    滴滴应该现在都没恢复,软件内置的都是第三方打车的接口,滴滴自己的不知道藏哪去了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1189 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 23:53 · PVG 07:53 · LAX 15:53 · JFK 18:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.