V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
crayymumumu
V2EX  ›  云计算

企业请避雷阿里云

  •  1
     
  •   crayymumumu · 1 天前 · 5477 次点击

    云服务器直接无缘无故宕机 给的解决方案是销毁数据,重新部署

    截止目前已经宕机两小时,里面包含了主营业务的相关服务

    74 条回复    2025-11-05 15:22:13 +08:00
    xshell
        1
    xshell  
       1 天前
    没备份么?
    RangerWolf
        2
    RangerWolf  
       1 天前   ❤️ 1
    GCP AWS 也出现过大规模故障

    不是给他们洗地,而是要认知 是系统就会出故障

    不过这个故障需要销毁数据,这个有点太坑了
    crayymumumu
        3
    crayymumumu  
    OP
       1 天前
    @xshell 备份了 有镜像
    rekulas
        4
    rekulas  
       1 天前
    习惯就好 每一家都会轮番翻车的
    salmon5
        5
    salmon5  
       1 天前
    这不是正常的吗?刚开始用吧(阿里云 11 年、AWS7 年使用)
    salmon5
        6
    salmon5  
       1 天前
    宕机重启就好了
    mingtdlb
        7
    mingtdlb  
       1 天前
    系统故障,这个应该可以排查一下不是吗 没有给分析报告嘛?磁盘都坏了 文件系统坏了?

    好奇,云厂商对于这块系统损坏条款是怎么写的,负责任吗
    boringwheat
        8
    boringwheat  
       1 天前   ❤️ 5
    去试试别家,然后你就会发现国内阿里云是最省心的
    ETiV
        9
    ETiV  
       1 天前
    云厂商的 [本地硬盘] 就是这样,希望你能学到……
    zbw0414
        10
    zbw0414  
       1 天前
    没有哪家云厂商能做到永不宕机。
    另外,直接买的高可用数据库这种不都是 m*GW+1*主+n*从+1 备,主挂了应该是秒级切从库顶上的呀。
    难道只买了一个主库么。
    salmon5
        11
    salmon5  
       1 天前
    阿里云 华为云 腾讯云 AWS Azure ,中国企业最应该避雷 Azure 、最优先使用阿里云。
    perfectlife
        12
    perfectlife  
       1 天前
    倒不是无缘无故宕机,一般都是宿主机出现问题,只不过好多时候阿里云不给你反应时间,直接就重启了云服务器,或者就不按约定维护时间,突然就给你重启了机器。另外用本地盘就是会有这问题,宿主机挂了,虚拟机迁移到别的机器上了,一般也没办法,除非你是大客户能让他把本地盘也给你迁移。话说现在还有本地 ssd 盘可选么,大部分不都是用 essd 了么。
    salmon5
        13
    salmon5  
       1 天前
    @boringwheat #8 所见略同,阿里云是最省心的。
    salmon5
        14
    salmon5  
       1 天前
    产品做的最好的。
    perfectlife
        15
    perfectlife  
       1 天前
    @zbw0414 他是大概率是云服务器上自行部署的数据库
    salmon5
        16
    salmon5  
       1 天前
    云上 ECS 自建 MySQL ,可用性要自行考虑主备;如果数据盘是本地盘,要考虑数据丢失的可能。
    这些都很正常。
    mayli
        17
    mayli  
       1 天前   ❤️ 1
    本地盘不应该就是这样吗?您这是啥企业,是不是需要避雷?
    nrtEBH
        18
    nrtEBH  
       1 天前
    你们家 SRE 工资多少 ? 建议开除
    没有 common sense
    Kinnice
        19
    Kinnice  
       1 天前
    上云不是为了降本。反而是提高成本,如果你的 rds 挂了,肯定能找到给你处理的。如果是自己 ecs 部署的数据库,他们才不会管你的数据。
    ZeroClover
        20
    ZeroClover  
       23 小时 52 分钟前   ❤️ 1
    本地盘 + 无灾备

    用哪家云遇到宿主机故障都是一样的结果
    crayymumumu
        21
    crayymumumu  
    OP
       23 小时 50 分钟前
    本地盘 数据全部丢失
    Goooooos
        22
    Goooooos  
       23 小时 47 分钟前
    就算自己部署也没办法保证不故障不丢数据
    上面说上云提高成本,可能你的场景是这样,但我司场景,比自建机房的成本每年都降了不少
    salmon5
        23
    salmon5  
       23 小时 43 分钟前
    @salmon5 #16
    云上 ECS 自建 MySQL ,可用性要自行考虑主备;如果数据盘是本地盘,要考虑数据丢失的可能。
    这些都很正常。
    ###############################################
    有些云,不正常的见多了;所以有些问题,它是正常的。
    wineejam
        24
    wineejam  
       23 小时 37 分钟前
    等你用了国内其它公有云后就不会这样说了。目前来说。国内公有云还是阿里云第一
    binge921
        25
    binge921  
       23 小时 35 分钟前
    该说不说 我感觉腾讯云更稳定点,阿里云之前一直在用,但是咋说呢 目前感觉不如腾讯云稳定,个人见解
    SURA907
        26
    SURA907  
       23 小时 22 分钟前
    阿里云还中断过工地主域名的 dns 解析呢(╯‵□′)╯︵┻━┻
    v5mark
        27
    v5mark  
       23 小时 21 分钟前
    这种要追责的
    1.数据丢失,是否可以恢复
    2.宕机时长对比阿里云承诺的 SLA 例如( 3 小时恢复,99.9%的可用性这种)超过了没有恢复,赔偿经济损失
    Shanky
        28
    Shanky  
       23 小时 1 分钟前
    @binge921 #25 没一个屁股干净的,自己做好容灾吧
    stoneabc
        29
    stoneabc  
       22 小时 55 分钟前
    本地盘实例哪家云不是这样?第一次用云吗?
    imnpc
        30
    imnpc  
       22 小时 54 分钟前
    这个谁推荐的 企业数据 用云服务器自建数据库的?
    所有云都限制磁盘 IO 读取,一般要求使用 云数据库,不推荐自建.

    自建需要多服务器读写分离备份,否则不要玩自建数据库,
    这个没办法,大部分云都这样,AZURE 的硬盘还重启就没数据呢..
    aobamaM
        31
    aobamaM  
       22 小时 44 分钟前   ❤️ 2
    你家是什么野鸡公司 云上数据库这么玩的
    axuadm19
        32
    axuadm19  
       22 小时 30 分钟前
    这不就等同于云上用实例自建 K8S 集群嘛(参考 VPS 建一切,还用云干啥。。。),用 IaaS 实现 PaaS ,那可不是可用性、弹性运维、安全性啥的都得自己承担。
    clarkethan
        33
    clarkethan  
       22 小时 18 分钟前
    你们自己的运维应急处理能力太差了,哪个云不出问题,哪个服务器不出问题呢?买不到 100%在线率的服务,只能做好应用层的容灾,和提高灾难时刻的应急处理能力,这个时候不应该是直接拿备库的数据,重新起一个新的实例,尽快恢复服务么,坏了的东西坏了就坏了,事后再管
    MindMindMax
        34
    MindMindMax  
       22 小时 11 分钟前
    所有的服务都不可信,必须要及时备份。深刻的教训
    daimaosix
        35
    daimaosix  
       22 小时 10 分钟前
    哈哈哈哈哈,敢用本地盘,本地盘你还没见过漂移呢,本地盘就是这种属性,跟阿里云无关
    mytsing520
        36
    mytsing520  
    PRO
       22 小时 6 分钟前
    印证了一些人说的话:
    公有云异常,如果和你没利益相关,不会骂;和你利益相关,就骂翻天
    AmiKara
        37
    AmiKara  
       22 小时 1 分钟前
    腾讯云连宕机都显示正常运行
    seasona
        38
    seasona  
       21 小时 55 分钟前
    本地盘不保证 sla 啊,硬盘硬件很容易坏,宕机只是时间问题
    FrankAdler
        39
    FrankAdler  
       21 小时 38 分钟前 via Android   ❤️ 1
    腾讯云问题更多,至于什么华为云 京东云 字节云 ucloud 这些体验只会更差
    JoeDH
        40
    JoeDH  
       21 小时 18 分钟前
    本地盘自建的数据库吗?
    guanzhangzhang
        41
    guanzhangzhang  
       20 小时 56 分钟前
    计算和存储不分离就容易这样,特别还是没备份的时候
    XDiLa
        42
    XDiLa  
       20 小时 50 分钟前
    @wineejam 是这样的
    caola
        43
    caola  
       20 小时 48 分钟前
    阿里 腾讯 AWS Azure 都有宕机的情况,基本上都是轮流着来,见怪不怪了。做好数据备份就行
    fredcc
        44
    fredcc  
       20 小时 21 分钟前 via Android
    上云不用托管 RDS 用本地盘 ssd 做主库,很棒棒
    dif
        45
    dif  
       20 小时 15 分钟前
    没有一家云服务是 100%,都是 99.999......% 就看谁家 9 多了。所以,心理预期就是会出故障,做好备份就行。
    ryHope
        46
    ryHope  
       20 小时 13 分钟前
    阿里云算是最省心的了
    mmdsun
        47
    mmdsun  
       20 小时 10 分钟前 via iPhone
    这个是云服务器?还是阿里的 RDS 数据服务。
    找阿里要赔偿吧。
    sansam
        48
    sansam  
       20 小时 0 分钟前
    @v5mark 本地盘(相当于你独占一整块 ssd ),这种没 sla 保障、没有任何数据可靠性保障,购买的时候会弹框让你确认。优点是 IO 很高,缺点是得自己负责数据和业务的可靠性。这个锅得自己背咯。
    loarland
        49
    loarland  
       20 小时 0 分钟前
    这个故障有点离谱了
    goodryb
        50
    goodryb  
       19 小时 47 分钟前
    1.起码 op 没有用什么套路云,光明正大的写了阿里云
    2.如果是云盘,底层物理机故障重启一般就恢复了,如果是操纵系统故障,有可能会起不来; 如果是本地盘,赶紧重搭数据库,恢复备份或者切备库吧
    FabricPath
        51
    FabricPath  
       19 小时 42 分钟前
    SLA 中不包含本地盘数盘丢失
    zouqiang
        52
    zouqiang  
       19 小时 18 分钟前
    用的本地 SSD 类型?
    v166ex
        53
    v166ex  
       18 小时 55 分钟前 via Android
    我已经听到运维人员在骂人了,,,如果没有运维的那就已经找人背锅吧
    nxuu
        54
    nxuu  
       18 小时 49 分钟前
    这不是表现运维人员的时候到了么 我觉得阿里云做的没问题.
    v166ex
        55
    v166ex  
       18 小时 46 分钟前 via Android
    如果有运维,那我真的很好奇是谁做的这个决策,为啥不用云服务
    hefish
        56
    hefish  
       18 小时 36 分钟前
    哈哈哈哈哈哈哈哈哈。。。。 含泪又续了一台 ecs 。。。。
    dynastysea
        57
    dynastysea  
       16 小时 13 分钟前
    国内云就是这样,如果是 aws 出问题,他们就会知道反思了。。
    sampeng
        58
    sampeng  
       6 小时 16 分钟前 via iPhone
    鬼故事,很多公司上云数据库都是自建的。美其名曰:节省成本。
    wzw
        59
    wzw  
       6 小时 1 分钟前
    阿里云 rds 小系统有必要上 高可用系列吗? 还是基础系列够了,

    - 基础系列 数据安全吧
    - 基础系列 在线率也很高吧

    有用过的 , 有经验的分享一下, 谢谢
    Miao18
        60
    Miao18  
       5 小时 59 分钟前
    但问题是,阿里已经是国内最好的选择了。难不成还能选华为?
    而且,就最近两周,aws ,azure 也连着炸。
    xscanqianmeng666
        61
    xscanqianmeng666  
       5 小时 50 分钟前
    这种一看就是没运维,或者后端兼运维。最基本的都没整好,而且还在乎成本 不上 rds
    xiaomushen
        62
    xiaomushen  
       4 小时 50 分钟前
    还是避雷这样的企业吧。。。
    NoString
        63
    NoString  
       4 小时 45 分钟前
    数据库为啥不用 RDS POLARDB ?有能力自建做 SLA 的方案吗?没有就是抽奖,要避雷的是提这种方案的人吧
    LaLy
        64
    LaLy  
       4 小时 9 分钟前
    @boringwheat 确实,腾讯云里面的东西乱到你怀疑人生,可以感觉到他们内部管理十分混乱。
    shanelau
        65
    shanelau  
    PRO
       4 小时 1 分钟前
    如果你选 RDS 主从各一台机器的方案,也不至于今天来发帖。不管什么神仙公司,硬件都可能会坏的。

    如果你不是老板,肯定选择最保险的方案,花钱也是花老板的钱
    CheckMySoul
        66
    CheckMySoul  
       3 小时 54 分钟前
    @wzw #58 基础只有通用规格( CPU 共享、单可用区部署)肯定不如独占规格稳定,负载不高用着也没啥感觉,功能没有大的区别,能接受就用基础,再把库表恢复、异地备份都打开足够了。遇到异常提工单换独占换 polardb 呗。
    realpg
        67
    realpg  
    PRO
       3 小时 16 分钟前
    什么企业连个灾备都没有

    云服务本身就不能视为高可用的东西...
    jhdxr
        68
    jhdxr  
       2 小时 15 分钟前
    @wzw 在线率正常情况都不低的,非正常情况。。。以现在的主流云的素质是不挂则已,一挂全挂。。。

    至于数据安全,如果你说是 OP 这种丢不丢数据,那么如果你的数据丢了无所谓(不是说彻底没了,而是假定比如你配合每日备份的策略,丢失一天内的数据可以接受),那我觉得最基础的就行


    回到 OP 的帖子,这纯属你们的研发菜/老板抠门(当然更可能是两者同时发生,毕竟抠门的老板找到的研发可能也不懂)
    virjay
        69
    virjay  
       1 小时 53 分钟前
    早就避雷了,云主机会因为内存直接宕机,天翼云、腾讯云、华为云都不会
    wzw
        70
    wzw  
       1 小时 28 分钟前
    @CheckMySoul @jhdxr 目前看 基础款 没有故障过, [国内] https://status.aliyun.com/

    数据安全依赖存储, 99.99% 所以可以接受故障停机一会, 而数据不丢, 应该小站应该是可以考虑的吧
    hatch
        71
    hatch  
       1 小时 25 分钟前
    ![这就不得说]( https://imgur.com/qzwTJ37)
    azh7138m
        72
    azh7138m  
       51 分钟前
    @wzw
    数据可用和服务可用并不是一回事

    一个地域通常有很多可用区,只要其中存在可以服务的可用区,它都不算服务宕机,基础系列单可用区部署,万一正好遇到在用的可用区挂了,就寄了。
    kfpenn
        73
    kfpenn  
       39 分钟前
    啊,自建数据库这么多隐患吗?我待的几家公司,包括现在的,都是自己搭的数据库,没买 rds
    wzw
        74
    wzw  
       10 分钟前
    @azh7138m 可用区不可用的时候, 能接受的时候, 选基础版应该是够的, 数据相对是安全的了, 整列+每天凌晨备份
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   5312 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 32ms · UTC 07:32 · PVG 15:32 · LAX 23:32 · JFK 02:32
    ♥ Do have faith in what you're doing.