V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
tmtstudio
V2EX  ›  程序员

网易云官方回复说因为业务扩容出现了技术事故,好奇仅仅扩容怎么造成这么大范围事故的,主站都寄了

  •  
  •   tmtstudio · 31 天前 · 7809 次点击

    b61283221d437e067ec681e23ba7f37a.jpeg

    31 条回复    2024-08-20 18:25:13 +08:00
    rc5ayc
        1
    rc5ayc  
       31 天前   ❤️ 1
    他们把大部分都整体迁移到贵州,属于大迁移,而不是仅仅扩容
    tmtstudio
        2
    tmtstudio  
    OP
       31 天前 via iPhone
    @rc5ayc 迁移上半年就完成了吧
    ExplodingFKL
        3
    ExplodingFKL  
       30 天前
    @tmtstudio 八成是迁移完了文档没更新
    SenLief
        4
    SenLief  
       30 天前
    扩容只是随便编个理由吧
    itechnology
        5
    itechnology  
       30 天前
    这个图是假的吧,都没有找到这条微博。人家说的是:“大家好,没有删库,没有跑路,故障已陆续修复~
    作为补偿,8 月 20 日 0-24 时,云音乐搜“畅听音乐”,可领取 7 天会员权益到您的账户(具体规则请见活动页面)
    抱歉必须再说一遍,请您息怒~”
    Mianmiss
        6
    Mianmiss  
       30 天前
    @itechnology 这明显是微博评论
    cuttlefish
        7
    cuttlefish  
       30 天前
    是真的,我领到了
    aarong
        8
    aarong  
       30 天前
    总要有个由头来背锅
    opengps
        10
    opengps  
       30 天前
    大家都是做技术的,任何操作都能带来失败风险这应该是常识。最安全的做法应该是“护网”,非紧急 bug 不调整任何逻辑
    liaohongxing
        11
    liaohongxing  
       30 天前
    扩容 坑定是不可能的, 魔兽官网 ,网易云 ,网易主站 全都挂 。至于搞成这样子
    starrys
        12
    starrys  
       30 天前
    不会是看黑马喽太火了想抢热度吧
    EndlessMemory
        13
    EndlessMemory  
       30 天前
    这就不知道了
    mightybruce
        14
    mightybruce  
       30 天前
    出现失败风险当然是有的, 据说存储对接出了问题,https://finance.eastmoney.com/a/202408193159519884.html
    裁员裁到了基础设施团队,好了,存储挂了就不是一个服务出问题,多个服务都会访问出问题,
    总体来说, 几个小时能恢复,可用性降到 3 个 9
    CodeCodeStudy
        15
    CodeCodeStudy  
       30 天前
    @rc5ayc #1 为什么要迁移到贵州?有什么好处吗?
    xmumiffy
        16
    xmumiffy  
       30 天前 via Android
    @CodeCodeStudy 便宜吧
    zdkk
        17
    zdkk  
       30 天前
    为啥不放到凌晨搞,非要在下午高峰期搞事情
    815979670
        18
    815979670  
       30 天前
    这种操作不都半夜进行吗 为什么要 白天迁移
    mightybruce
        19
    mightybruce  
       30 天前
    机房都是在贵州、西北这些地方, 电费便宜,机房维护成本也低,光机房需要大量散热的空调降温费用就是不小开支其次,离发电电网近。
    28Sv0ngQfIE7Yloe
        20
    28Sv0ngQfIE7Yloe  
       30 天前
    @zdkk

    如果真是扩容引起的,那么高峰扩容很正常啊
    NevadaLi
        21
    NevadaLi  
       30 天前
    @zdkk #17 凌晨要睡觉、、
    810244966
        22
    810244966  
       30 天前
    之前在掘金看到说网易云音乐整体搬迁到贵州去,不知道是不是这个过程中出现的偏差 https://juejin.cn/post/7389952004791894016
    holyliao
        23
    holyliao  
       30 天前   ❤️ 2
    @zdkk 网抑云晚上可是使用高峰
    Emiya1208
        24
    Emiya1208  
       30 天前   ❤️ 1
    没什么不可能的,扩容又没指定怎么扩容,auth 或是 很基础的服务,跨区扩容就要涉及网络变动,网络变动嘛,一条错误的路由就能干废整个集群,甚至要是有人写错了 ip 地址冲突了,直接能让某些正常服务跟着一块儿挂掉。
    kneo
        25
    kneo  
       30 天前 via Android   ❤️ 1
    @Emiya1208 哈哈,那些动不动就说“不可能”的,干活是最不靠谱的,大坑一般都是这种人搞出来的。
    Jinnrry
        26
    Jinnrry  
       30 天前
    @Emiya1208 写错一条 ip 地址,干废整个集群这事我干过。当年直接让全公司所有业务挂了几分钟,还好我回滚及时。不过刚好是下班时间,全公司研发都回来看了一个小时监控
    iovekkk
        27
    iovekkk  
       30 天前
    昨天有一个内部员工的聊天记录传了出来(不知道真假),说的是大幅裁员导致云储存部门就剩一个人了,然后那个人按着交接文档操作,然后操作出了这个事故出来
    tinycold
        28
    tinycold  
       30 天前
    @iovekkk 好了,现在一个人也剩不了了。/doge
    Emiya1208
        29
    Emiya1208  
       30 天前
    @iovekkk 剩一个人是有可能的 @tinycold 但是只要不是这个人故意搞的事儿,他是不会被裁的,甚至他想走都走不了的。
    Emiya1208
        30
    Emiya1208  
       30 天前
    @Jinnrry 正常,我也不小心把 long 写成 nong 过,搞了几分钟故障。不过我发现的比较快,而且相关服务不是基础性的,只是上层的。
    brom111
        31
    brom111  
       30 天前
    @iovekkk 主要是昨天那个页面看起来 不像是云存储部门有问题吗。 前面入口层面也没做什么紧急处理的样子。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1403 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 23:51 · PVG 07:51 · LAX 16:51 · JFK 19:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.