V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
lianxiaoyi
V2EX  ›  问与答

大公司难道都没有数据备份麽?携程当年也是!

  •  
  •   lianxiaoyi · 2017-01-18 20:15:56 +08:00 via Android · 3764 次点击
    这是一个创建于 2656 天前的主题,其中的信息可能已经有所发展或是发生改变。

    携程当年也是数据库挂了!损失了一笔钱!这次炉石居然更离谱,只能恢复前几天数据!我一直在小公司,真不知道你们大公司咋玩的!求指教好的备份方案,我现在用的阿里云的 RDS ,数据量大概 40 多个 G

    第 1 条附言  ·  2017-01-18 20:56:49 +08:00
    上次一条 Sql 执行错地方了,本来应该在本地执行,结果没看界面直接在生产环境执行了,把用户余额全刷成 0 !然后通过 RDS 早上 3 点的备份,一笔一笔的根据用户的交易充值记录来算!完全不懂怎么根据 log 来操作!
    30 条回复    2017-01-19 18:01:19 +08:00
    xjp
        1
    xjp  
       2017-01-18 20:24:02 +08:00 via iPhone   ❤️ 1
    能恢复到前几天了 还叫没备份??? 只是说明别人没有每天备份吧


    但是这样的数据肯定是要每天备份的吧

    一般小项目 一周一备份基本也没什么问题吧
    lianxiaoyi
        2
    lianxiaoyi  
    OP
       2017-01-18 20:26:31 +08:00 via Android
    @xjp 阿里云的 RDS 有一天一备份!
    jybox
        3
    jybox  
       2017-01-18 20:30:53 +08:00   ❤️ 1
    这种场景要靠日志呀,当然还要有从日志中恢复数据的工具。相信这样的故障不太可能是单一问题导致的,很可能是同时出现很多问题导致数据丢失,事先设计的备份方案又不能正常工作。说到底还是自动化不够、测试不够。很多灾备措施如果不能经常地测试和演练,关键时刻能不能发挥作用就不好说了。
    relaxchen
        4
    relaxchen  
       2017-01-18 20:31:52 +08:00   ❤️ 1
    @xjp 刚刚去看了公告,说是备份数据库也出现了问题,所以只能回档了
    lianxiaoyi
        5
    lianxiaoyi  
    OP
       2017-01-18 20:38:34 +08:00 via Android
    @relaxchen
    @jybox 诶,好恐怖啊!老板现在一天叮嘱我两次,做好数据备份,最好光纤被挖断方案,做好 DDOS 方案!心好累!!!!!!
    langmoe
        6
    langmoe  
       2017-01-18 20:49:06 +08:00   ❤️ 1
    另一个贴的回复不是说都挂了 40 个小时了吗。。按公告说的那份损坏的备份在朝上加 24 小时的话,倒回 14 号未必不是没有每日备份吧。。
    lianxiaoyi
        7
    lianxiaoyi  
    OP
       2017-01-18 20:53:35 +08:00 via Android
    @langmoe 诶,心好累!上次把用户的余额全部刷成 0 了,赶紧停止交易!
    SpicyCat
        8
    SpicyCat  
       2017-01-18 22:20:21 +08:00   ❤️ 4
    怎么说呢,灾备问题,安全问题等这类问题,都是没出事的时候没人在意,出事了傻眼了。
    而且好的全自动的灾备方案,并不是那么容易弄出来。就算弄出来了,不演练就无法知道这方案是否可行。可是对大型复杂的系统,想演练一下灾备方案也不是那么简单。好吧就算大家都配合,方案弄好了,演练也成功,然后产品发生重大更新,保不齐就要求灾备方案也要相应更新,谁能保证一套方案行万年?也就是说,你要费心做方案,费心去演练,而且还要周期性地去做。好吧,费了半天劲,都做好了,效果呢?对不起看不到。不像开发,费心费力做出东西来,能让人看到。你灾备做得好,外人看不到啊。
    不出事的时候,说搞灾备的没用。
    出事的时候,还说搞灾备的没用。
    awsx
        9
    awsx  
       2017-01-18 22:28:35 +08:00   ❤️ 1
    @relaxchen 公告不是说是机房停电引起的。

    我也好奇,网易这样的公司也会出现这样的丢几天数据的问题。
    lianxiaoyi
        10
    lianxiaoyi  
    OP
       2017-01-18 22:48:27 +08:00 via Android
    @SpicyCat 确实是,系统大了灾备也麻烦!
    lianxiaoyi
        11
    lianxiaoyi  
    OP
       2017-01-18 22:49:12 +08:00 via Android
    @awsx 机房都是有独立发电机的!就像笔记本断电并不会重启电脑!
    murmur
        12
    murmur  
       2017-01-18 23:09:21 +08:00   ❤️ 1
    备份数据库同时也坏了才是神奇 这是磁带被耗子吃了吧
    murmur
        13
    murmur  
       2017-01-18 23:11:25 +08:00   ❤️ 1
    我们自己的 vmware 的虚拟化 备份估计也是买的 还有远程的灾备机房 还能怎么弄 简单粗暴呗 能备份数据库的全库或者增量 不能的直接整个系统备份

    其实舍得给钱方案多得是 反正现在磁盘便宜 一周全量备份一次存一个月资料都没啥问题
    n6DD1A640
        14
    n6DD1A640  
       2017-01-18 23:14:39 +08:00   ❤️ 1
    山口山越搞越烂就算了,想不到炉石也。。。黄易💊
    billowqiu
        15
    billowqiu  
       2017-01-18 23:16:48 +08:00   ❤️ 1
    现在用的阿里 RDS 每天备份,但是从来没用过备份数据,看来还是要定期测试一下。
    wdlth
        16
    wdlth  
       2017-01-18 23:26:56 +08:00   ❤️ 1
    总比 12306 的空调坏了理由好点……
    lianxiaoyi
        17
    lianxiaoyi  
    OP
       2017-01-18 23:36:04 +08:00 via Android
    @murmur 诶!!!!反正事情没那么简单!游戏架构也复杂!!!毕竟灾备演练是很耗成本的!!!!
    lianxiaoyi
        18
    lianxiaoyi  
    OP
       2017-01-18 23:36:47 +08:00 via Android
    @n6DD1A640 哥,山口山是啥???
    lianxiaoyi
        19
    lianxiaoyi  
    OP
       2017-01-18 23:38:49 +08:00 via Android
    @billowqiu 我现在用 python 写了一份 dump 数据,将用户信息以及交易记录转移到杭州备份!如果真发生回滚,补贴也有数据可查!
    lianxiaoyi
        20
    lianxiaoyi  
    OP
       2017-01-18 23:39:17 +08:00 via Android
    @wdlth 12306 是全球最忙的网站!
    66450146
        21
    66450146  
       2017-01-19 00:45:32 +08:00   ❤️ 1
    kn007
        22
    kn007  
       2017-01-19 09:13:59 +08:00   ❤️ 1
    我是每日异地备份
    bigf00t
        23
    bigf00t  
       2017-01-19 09:17:46 +08:00 via Android   ❤️ 1
    @lianxiaoyi wow 山口山
    lianxiaoyi
        24
    lianxiaoyi  
    OP
       2017-01-19 09:58:09 +08:00 via Android
    @kn007 66666 全量备份?
    chenqh
        25
    chenqh  
       2017-01-19 10:03:53 +08:00
    @lianxiaoyi 怎们做备份,完全不会。。
    sujin190
        26
    sujin190  
       2017-01-19 10:13:34 +08:00
    其实一个数百 G 上 T 的数据备份还不太容易啊,一次全量备份得花一个小时以上,完全占着 io ,有什么简单的方案么?
    dreamwar
        27
    dreamwar  
       2017-01-19 10:19:55 +08:00
    关注了一天,感觉应该是:
    1.数据被污染;
    2.热备数据被污染;
    3.冷备 3 天一备 /发生事故后停止了冷备;

    所以最后恢复的数据应该是从 14 号的冷备数据恢复回来的
    ppwangs
        28
    ppwangs  
       2017-01-19 10:29:26 +08:00
    @wdlth 上回去某机房工作, 3 月份,热到想脱光光……
    ppwangs
        29
    ppwangs  
       2017-01-19 10:29:57 +08:00
    @wdlth 也是机房空调坏了……
    kn007
        30
    kn007  
       2017-01-19 18:01:19 +08:00
    @lianxiaoyi 全盘数据增量备份+重要文件打包备份
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   3438 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 00:51 · PVG 08:51 · LAX 17:51 · JFK 20:51
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.