V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
工单节点使用指南
• 请用平和的语言准确描述你所遇到的问题
• 厂商的技术支持和你一样也是有喜怒哀乐的普通人类,尊重是相互的
• 如果是关于 V2EX 本身的问题反馈,请使用 反馈 节点
kenshin912
V2EX  ›  全球工单系统

阿里云,你家的 NAS 是不是有问题呀

  •  
  •   kenshin912 · 2017-08-21 09:19:08 +08:00 · 6071 次点击
    这是一个创建于 2656 天前的主题,其中的信息可能已经有所发展或是发生改变。
    ticketId=3E8D6E7

    从昨天凌晨开始 , 连续有服务器内出现
    Aug 20 13:37:14 iZbp17ci9xxxxxxx kernel: nfs: server xxxxxxxxx-iyd10.cn-hangzhou.nas.aliyuncs.com not responding, still trying
    Aug 20 13:49:17 iZbp17ci9xxxxxxx kernel: nfs: server xxxxxxxxx-iyd10.cn-hangzhou.nas.aliyuncs.com not responding, timed out

    不能这么玩呀 , 已经严重影响我司的业务了啊!
    能赶紧看看嘛?
    15 条回复    2017-08-22 10:01:16 +08:00
    odirus
        1
    odirus  
       2017-08-21 10:02:51 +08:00
    检查了一下我司的,还好没有受影响

    NAS 是该被吐吐槽了,居然不支持备份,我咨询工程师说只能自己备份,该功能以后可能会发布
    kenshin912
        2
    kenshin912  
    OP
       2017-08-21 10:08:34 +08:00
    @odirus
    我是真的无力吐槽了啊 .
    昨天凌晨 1 点多,一台服务器出现这个问题,我早上被报警搞醒, 以为是偶然出现的问题,解决了以后发了工单请工程师帮忙看看什么原因,就出去玩了.

    昨天下午 5 点多再次收到报警,另一台服务器出现同样的问题 , 赶紧找了个网吧 , 连入公司内网登录服务器解决.

    今早上班途中接到公司技术总监的电话说又出问题了 , 到公司发现第三台服务器出现了这个问题 , 刚解决 ,第四台服务器也出现问题了.都是同样的问题 , NAS 无故就连不上了.

    真的,心好累....
    odirus
        3
    odirus  
       2017-08-21 10:17:33 +08:00
    @kenshin912 表示理解

    他这个方案目前看起来并不是特别成熟,很多功能都不完善,我们目前主要是共享一些软件、项目的配置文件,这些配置文件加载了之后就不需要再次加载了,所以 NAS 对我们影响不大

    BTW:
    会不会因为网络的原因导致的呢?如果使用的经典网络需要考虑这个问题,因为经典网络里面经常会有一些流量互相攻击的情况,普通用户的网络难免受到影响。我们现在已经全部迁移到 VPC 里面去了,这几个月比较踏实,没出现什么故障。
    kenshin912
        4
    kenshin912  
    OP
       2017-08-21 10:26:52 +08:00
    @odirus
    确实是用的经典网络 , 感谢您提供的思路 , 我工单里问问阿里云好了.
    我们主要是用在 web 服务上 , 共享一些配置文件 , 部分缓存什么的.

    顺便请教一下 , 有没有什么无缝迁移到 VPC 的经验呀...
    mudenng
        5
    mudenng  
       2017-08-21 11:42:36 +08:00
    可能是经典网络被攻击了,能私信我提供下联系方式吗?我帮你反馈下,稍后会有人联系你的
    kenshin912
        6
    kenshin912  
    OP
       2017-08-21 11:58:36 +08:00
    @mudenng
    谢谢~已经有工作人员电话联系我了. 说是开发那边在看呢.
    工单的 ID 是 3E8D6E7
    感谢~
    odirus
        7
    odirus  
       2017-08-21 12:46:49 +08:00   ❤️ 2
    @kenshin912

    迁移中遇到最大的问题就是数据 RDS、缓存 Redis 之类的;域名相关的都可以通过代理转发的方式发送到 VPC 进行处理,迁移完成之后统一修改域名解析,同一个地区的 VPC 和 经典网络,延迟会增加几毫秒的样子(我这边是来回增加了 4ms,晚上高峰期增加到 6ms 的样子)

    我在处理 RDS 迁移的时候,阿里云还不能保留经典网络地址,也就是说这个地址要么是 VPC 地址,要么是经典网络,所以我自建了 DNS 来处理内网地址映射到公网地址的事情(劣势就是有一边需要通过 RDS 公网地址来访问,增加了访问开销,优势就是全部应用不用修改任何的配置)。不过现在阿里云意识到这个问题了,解决方案是这个(保留以前经典网络的同时创建 VPC 网络地址,劣势就是 VPC 环境中的代码要修改 RDS 地址,如果项目很多,像我们这种几十个项目,每个项目都是多机部署,我建议还是考虑其他更加合适的方案): https://help.aliyun.com/document_detail/57947.html?spm=5176.product27706.6.608.pODIHf

    我在处理 Redis 迁移的时候,遇到的坑就是从经典网络到 VPC 之后,遇到故障不能切换回经典网络!!!(阿里云的工程师们,你们多花点时间,这个功能还是得有啊),那次把我吓惨了,不过还好我准备了备用方案,而且是在凌晨的时候实施的,没有明显地影响用户。

    如果要做迁移,最好用测试环境模拟一遍全部的迁移过程,把流程固定化,然后按部就班地迁移,否则很容易出错,那个时候心里一慌,更容易出事故。


    BTW:
    如果有任何疑问,可以咨询我,我上次迁移规模是二十多台服务器 + N 台 Redis + MongoDB (从 PHP、Python 到 Java ),所以总结出来的经验还是非常丰富的

    我不是专业运维,不过这几年我都是在负责开发和运维
    kenshin912
        8
    kenshin912  
    OP
       2017-08-21 13:27:26 +08:00
    @odirus
    感谢指导~我司大约 20 台左右的业务服务器 , 大部分是 Web , 剩下的 RDS 和 Redis 都买的阿里云的服务.
    我想过 , 迁移的时候必然要更换 RDS,Redis 的地址, 但是并没有想好该如何处理,没什么经验~
    还有那个虚拟交换机,我还真没用过有点害怕.
    我是挺想迁移到 VPC 的 , 不过我只是一个打杂运维,说不上话,能不给自己找麻烦还是不找麻烦了 , 如果要迁移到 VPC 的话,再请教您 , 感谢~~

    @mudenng 阿里云的工程师已经回复我说 , 因为 nas 服务网络列队出现拥塞导致的.
    希望别再出现这个问题啦 , 不然就要被老板找麻烦啦~

    我想说的是 , 我现在去烧个香 ,还来得及不...
    ysicing
        9
    ysicing  
       2017-08-21 13:49:34 +08:00
    有后续吗,我们也遇到 NAS 导致某些业务不可用
    kenshin912
        10
    kenshin912  
    OP
       2017-08-21 14:04:21 +08:00
    @ysicing
    啊 , 有后续 , 就是阿里云说是 NAS 服务网络队列拥塞导致的.
    让我们再观察...

    不多说了 , 我去找老板建议今年旅游地点选九华山 , 码农去求佛祖保佑代码没有 bug , 我去求佛祖保佑服务器不出问题, 销售去求佛祖保佑业绩暴涨......(天哪 , 我又开始做梦了,哪有什么旅游?)
    ysicing
        11
    ysicing  
       2017-08-21 14:53:04 +08:00
    @kenshin912 我提了工单,好长时间都没回馈。唉。
    mudenng
        12
    mudenng  
       2017-08-21 15:55:49 +08:00
    @ysicing 工单 ID 是多少? NAS 的问题是由于网络队列拥塞导致的,已经恢复了
    mudenng
        13
    mudenng  
       2017-08-21 15:57:18 +08:00   ❤️ 1
    @kenshin912 NAS 本身是支持经典网络和 VPC 同时使用的,你们可以创建一个 VPC 挂载点,然后把 ECS 全部切换到 VPC 后通过 VPC 挂载点访问文件系统。
    kenshin912
        14
    kenshin912  
    OP
       2017-08-21 16:01:12 +08:00
    @mudenng
    亲 , 我司还用到 RDS 和 Redis 呀 , 还涉及到反向代理里面诸多配置 , 牵一发动全身...
    如果要迁移到 VPC , 我去发工单能给个详细的解决方案不...(捂脸)
    ysicing
        15
    ysicing  
       2017-08-22 10:01:16 +08:00
    @mudenng 已经回了。但是没告知 NAS 的问题是由于网络队列拥塞导致的,就是是让我们试试,都好了让我试啥
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2871 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 15:16 · PVG 23:16 · LAX 07:16 · JFK 10:16
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.