V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
naoh1000
V2EX  ›  云计算

AWS Lightsail 生产服务器频繁断网如何排查?

  •  
  •   naoh1000 · 2021-03-06 09:59:40 +08:00 via iPhone · 5285 次点击
    这是一个创建于 1365 天前的主题,其中的信息可能已经有所发展或是发生改变。
    个人项目,规模大了一个月前迁移到 AWS Lightsail,用了 2 台 VPS,8c32g 跑业务,4c16g 跑数据库,都是 Ubuntu 20.04 LTS,都跑在 Docker 容器里。最近发现每隔 5 天左右 8c32g 那台机器就会断网,SSH 和业务都连接不上,必须重启才能恢复正常。现在想到的应急解决方案是用 4c16g 那台监控 8c32g 那台,发现掉线就调 API 重启。请问可能是什么问题,有没有更好的解决方案?机器都是自己账号正价买的,没用过任何码。
    22 条回复    2021-03-07 21:30:44 +08:00
    msg7086
        1
    msg7086  
       2021-03-06 10:09:27 +08:00
    固定 IP 还是 DHCP ?换一下试试。
    另外连接数大不大? 1:1 NAT 可能会炸。
    sampeng
        2
    sampeng  
       2021-03-06 10:11:32 +08:00 via iPhone
    aws 没这么脆弱。带宽是 5G…你能跑满?
    大概率是 cpu 跑满了。所以 ssh 都回不去了
    wancaibida
        3
    wancaibida  
       2021-03-06 10:30:06 +08:00 via iPhone
    CPU 用超了吧
    kerro1990
        4
    kerro1990  
       2021-03-06 11:05:24 +08:00 via iPhone
    估计是 cpu 积分用完了吧
    celeron533
        5
    celeron533  
       2021-03-06 11:08:42 +08:00
    我记得 lightsail 虽然便宜,但是对于 CPU 使用有一定限制
    aec4d
        6
    aec4d  
       2021-03-06 11:09:07 +08:00 via iPhone
    lightsail 适合开发,或者低占用场景,长时间高负载就会无响应 https://forums.aws.amazon.com/thread.jspa?threadID=269360
    jadec0der
        7
    jadec0der  
       2021-03-06 11:48:57 +08:00
    lightsail 背后是低成本,可以应付突发性能的 T 实例,平时 CPU 用的很少的时候给你加积分,CPU 高的时候扣积分,如果积分用完了就要卡死了。如果需要持续使用 CPU,建议换成 EC2 的 M 实例或者 C 实例
    jadec0der
        8
    jadec0der  
       2021-03-06 11:54:53 +08:00
    你看一下 lightsail Manage - Metrics 里的 CPU,如果 Remaining CPU burst capacity 没有了,那 CPU 性能就只能维持在 sustainable zone 区间
    naoh1000
        9
    naoh1000  
    OP
       2021-03-06 12:51:07 +08:00 via iPhone
    感谢回复,刚才看了下 `Remaining CPU burst capacity` 还有 40%,应该不是 CPU 的问题。跑的是普通 Web 服务,端对端加密是在客户端实现的,应该不需要太高服务器 CPU 性能。

    @sampeng
    @wancaibida
    @kerro1990
    @celeron533
    @aec4d
    @jadec0der
    kerro1990
        10
    kerro1990  
       2021-03-06 13:02:54 +08:00 via iPhone
    @naoh1000 那就是 ubuntu 的问题,换成 centos 试试
    jadec0der
        11
    jadec0der  
       2021-03-06 13:27:09 +08:00
    @naoh1000 40% 不算高了,把时间拉到 2 weeks 最低的时候有多少?
    Kinnice
        12
    Kinnice  
       2021-03-06 13:53:04 +08:00 via Android
    感觉是内存泄露,检查一下程序吧,开个监测,看一下出问题的时候,各项系统占用
    iamv2er
        13
    iamv2er  
       2021-03-06 14:22:40 +08:00 via iPhone
    不好用 买了退了
    chenqh
        14
    chenqh  
       2021-03-06 14:45:13 +08:00
    个人项目,14C48G,估计挣了钱了,什么时候我能有副业呀
    isCyan
        15
    isCyan  
       2021-03-06 15:00:07 +08:00
    SSH 连不上的话很难排查啊,先 ping 确认一下到底是断网还是程序问题?
    whitehack
        16
    whitehack  
       2021-03-06 15:04:33 +08:00
    查监控记录,查各项指标. 然后针对性的去排查.
    另外逻辑上应该也有日志的吧.这种问题只能一个一个慢慢排查


    另外大佬这项目可不小
    wangxn
        17
    wangxn  
       2021-03-06 15:10:31 +08:00
    假如 CPU 不超,那就是内存超了吧。内存超了,也会导致完全卡死,只能重启。我也踩过这个坑。
    bullfrog
        18
    bullfrog  
       2021-03-06 15:15:30 +08:00
    @naoh1000 40%不多,正常应该一直是 100%,除非偶尔执行个 cronjob 可能会降下来点
    huson
        19
    huson  
       2021-03-06 16:06:20 +08:00
    开一台 EC2 同配置的 一台 lightsail 同时跑 看看 ec2 挂不挂 如果 ec2 挂那就是 lightsail 的问题 不需要折腾了 直接换 ec2

    如果 2 个都挂 那说明是你程序问题 直接查 bug 或者环境配置问题 你先把问题大类给分了
    bullfrog
        20
    bullfrog  
       2021-03-06 17:37:58 +08:00
    对,我能想到比较笨的排查方法就是把 cpu 和内存占用每几秒钟就写到 log 里,死机之后查看
    sampeng
        21
    sampeng  
       2021-03-06 20:27:16 +08:00 via iPhone
    cpu,内存,磁盘 io 。都看一下。网络基本很难你能把 aws 的弄满了。
    defunct9
        22
    defunct9  
       2021-03-07 21:30:44 +08:00 via iPhone
    开 ssh,让我上去看看
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2828 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 07:40 · PVG 15:40 · LAX 23:40 · JFK 02:40
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.