V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
wangpugod2003
V2EX  ›  问与答

分布式的计算平台方案选择

  •  
  •   wangpugod2003 · 2023-12-01 11:57:35 +08:00 · 1234 次点击
    这是一个创建于 377 天前的主题,其中的信息可能已经有所发展或是发生改变。
    一个研究型机构的很多研究员,需要提交 C/C++,java 或 python 写的算法,然后进行计算密集型的运算,得到结果。

    目前都是在单机上进行,效率较低,通常一台服务器需要计算几小时甚至天,崩溃了不好维护,然后物理的资源又不够,闲置的时候又是浪费。

    现在想搭建一个云平台,目的是方便这些人提交算法任务,属于计算密集型的分布式计算,能否利用多台云服务器,搭建一个分布式的计算平台(因为分布式是趋势,所以也有经费的考虑(*^_^*)),可以叠加利用 CPU ,内存,存储等。但是目前的分布式系统(mapreduce/spark)主要在数据密集型上发挥作用吧?这种计算密集型的是否有合适的方案?

    是 hadoop + mapreduce ?还是 spark ,或者 k8s 呢?

    大家帮忙给点意见,谢谢!
    7 条回复    2023-12-03 10:29:09 +08:00
    rrfeng
        1
    rrfeng  
       2023-12-01 15:44:22 +08:00 via Android
    肯定是 k8s
    但是问题是怎么拆分你的任务,除非你的计算框架自己支持分布式
    jgh004
        2
    jgh004  
       2023-12-01 15:46:42 +08:00
    我记得天河还是哪个超算是开放的吧,你试试呗。
    jgh004
        3
    jgh004  
       2023-12-01 15:47:43 +08:00
    http://www.cngrid.org/yhfw/zhsq1/ 试用免费,1 个月。
    Philippa
        4
    Philippa  
       2023-12-01 16:00:53 +08:00
    k8s + ray
    litguy
        5
    litguy  
       2023-12-02 15:31:18 +08:00
    算法并行化的工作量不小
    先单机挖掘挖掘瓶颈吧
    就算上云,也可以 on-demand 方式临时租借高配置主机
    集群并行计算要有个路径规划
    dogcraft
        6
    dogcraft  
       2023-12-03 09:44:43 +08:00
    slurm
    joynvda
        7
    joynvda  
       2023-12-03 10:29:09 +08:00
    可考虑 MLOps 的框架,类似 Kubeflow 。虽然基于 k8s ,上层有为算法和学习优化的模块。
    实现这个也不容易,运维的要会写代码。

    至于多云,不要轻易尝试。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1205 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 17:41 · PVG 01:41 · LAX 09:41 · JFK 12:41
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.