V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Distributions
Ubuntu
Fedora
CentOS
中文资源站
网易开源镜像站
dante6733
V2EX  ›  Linux

一个运维可以管理 5 万台服务器吗?怎么管?

  •  
  •   dante6733 · 28 天前 · 10570 次点击

    理性讨论,如果有 5 万台服务器,虚拟机和物理机都行,一个人能管好吗?如果一个人管不好,那怎么管?

    有没有大佬有这么多台服务器的管理经验?也希望能够分享一下经验,改进大家的运维效率。

    112 条回复    2021-10-21 16:13:16 +08:00
    1  2  
    liuxu
        101
    liuxu   27 天前
    既然 100 条了,那我翻个页
    wangyzj
        102
    wangyzj   27 天前
    假设每天坏一块硬盘
    yidingz
        103
    yidingz   27 天前
    这么说吧,一台机器的寿命是三年算 1000 天,就算这五万台机器都是能运行三年不出错不坏,轮流着换。平均每天要下线 50 台机器,上线五十台。

    一个人,就每天拔两个机架 50 台机器的网线电线,拉出来,装 50 台新机器进去,插线,(假设系统都是自动 provisioning ),嗯我估计够呛。就给你 50 台 1U 的机器让你拉去仓库,你就累残了。

    实际机器跑个一年半载的可能就要维护,实际每天硬件维护超过 100 台机器,嗯 996 估计是不行,007 都扛不住。
    gvhao001
        104
    gvhao001   27 天前 via Android
    管理?什么叫管理!开机关机算不?保持清洁算不?
    js8510
        105
    js8510   26 天前   ❤️ 1
    看你怎么定义 “运维”。。
    我是 oncall 过比五万台更多的机器的服务。高度自动话以后。。其实 5 万还是 10 万台机器,差距不大。manual operations 也不是很多。。甚至有>50%的时间写代码,开会什么的。更多的就是:
    - 工作时间 alert 都看一看。
    - 非工作时间 高 priority 的 alerts 看一看。低的直接忽略。
    - 出事了有各种 data set, logging 。 有经验的话很快就能找到问题大致方向。熟悉了(因为出了 SEV 都要 review 的)也能知道大致会经常遇到的问题。
    - 搞不定就把别的 oncall 拉起来。怀疑 downstream 拉 downstream .怀疑是谁的 change 就把谁叫起来问。纯粹需要帮助也可以拉别人起来。
    - oncall 结束以后总结一下,noisy alerts 想办法调一调。有些简单的问题想一想能不能搞个 auto remediation(比如有些情况明显是 auto-scale 有问题,那就在这种条件下让他自己关了 and scale to max size 等第二天上班时间再解决。这样你非工作时间就不用搞这些了。。还有比如某些 feature 还不问题也不中要,那你监控到它挂了直接给他关了然后把 alert forward 给 onwer 等天亮了再说 等等等).

    所以我觉得是需要点经验的事情。。但是多数时间一个人搞的定的。当然偶尔也有倒霉的时候。
    guo4224
        106
    guo4224   26 天前
    5 台和 5 万台没区别吧
    flyingghost
        107
    flyingghost   26 天前
    老板:公司成立起来了,广告也打出去了,客户也忽悠到了。现在就差开工干活了。
    小王,公司现在已经有 5w 台服务器了,你得出个方案,负责管好。
    小王:我才刚入职就我一个运维怎么管 5w 台?唔。。。先上 V2 求个方案吧。
    xingtian
        108
    xingtian   26 天前
    5 万台运维我不知道,但是我现在一个人管理 10 万台终端跟服务器的网络安全跟中毒的问题,还能成天摸鱼
    jsion
        109
    jsion   26 天前
    真搞笑,一个运维连传话筒都做不了,每天审批工单就够整活了,别说在庞大机群规模底下做运维。感觉就是打广告拿需求的。
    你们充其量也就一个做监控平台的,难道也想把整个 IaaS 所有管理层面的工作都给抹平了,你真给想屁吃,先追齐深信服的云解决方案再说吧,最多就上层运维平台的一个子系统,各种虚拟化计算、存储、网络管理、流程引擎、服务编排、迁移和灾难恢复、计费治理等基础资源纳管能力都没有,谈什么服务器管理,真就当服务器管理就开关机 /遇障重启呗
    而想要靠一个平台系统来解决这些问题几乎是不可能的,功能能齐备就很不容易了,更何况各公司架构和技术栈千奇百态,光采购适配就有的搞,一般大点公司都是自研的,外采管理压根就不用想,出了问题都是自己的命,哪敢交给别人
    一个人,如果没有完整成熟且高度自动化的基础平台支撑各项业务,那么可以在那等死了
    billwang
        110
    billwang   25 天前
    5w 台服务器,其实不用讨论答案,lz 你到有 5w 台服务器的机房看一看自己就会有答案了。光说数字真的感觉不出什么。
    dream10201
        111
    dream10201   25 天前
    每周挖一天
    LuBenwei6p
        112
    LuBenwei6p   1 天前
    别吹了真的 吹有个度,如果都是矿机 客户的机器 你还管毛阿坏了就坏了,如果是公司自己的产品 你一个人来给我维护 50000 台试试 别说 50000 台 5000 台都是问题
    1  2  
    关于   ·   帮助文档   ·   FAQ   ·   API   ·   我们的愿景   ·   广告投放   ·   感谢   ·   实用小工具   ·   2296 人在线   最高记录 5497   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 13:32 · PVG 21:32 · LAX 06:32 · JFK 09:32
    ♥ Do have faith in what you're doing.