V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
MiKing233
V2EX  ›  程序员

PVE 虛擬機添加 PCI 設備的問題求助

  •  
  •   MiKing233 · 45 天前 · 845 次点击
    这是一个创建于 45 天前的主题,其中的信息可能已经有所发展或是发生改变。
    簡單講一下基本情況
    OS: Proxmox VE 8.1.4 x86_64
    Kernel: 6.5.13-1-pve
    CPU: AMD Ryzen 7 7840HS w/ Radeon 780M Graphics (16) @ 5.293GHz
    GPU: AMD ATI c5:00.0 Phoenix1

    現在遇到一個非常不解的情況是,虛擬機添加 PCI 設備之後就無法再啓動,一直卡在啓動轉圈,强制停掉之後 CPU 功耗和溫度都會很高一直不下來,但是 CPU 又沒有負載,這種情況下如果重啓就會死掉沒辦法再起來只能拔電開機

    沒有執行實例時的功耗和溫度如下


    開啓一個實例后

    此時不包含 PCI 設備,啓動正常


    關機,嘗試添加 GPU




    然後再開機,此時虛擬機無法正常啓動
    點擊啓動第一次會報錯,再點擊第二次則進入無盡的轉圈圈


    此時查看 CPU 功耗和溫度


    强制終止掉轉圈圈的 VM103 啓動任務,功耗仍然不回落,并且整個系統不存在負債功耗卻很高

    最讓我不理解的是,當前情況下 reboot PVE 100%會徹底死掉起不來

    ping 可以通,但是 ssh 連接不上,通過插座功率可以發現功率仍然維持在 max

    得通過拔電再開機才可以

    嘗試過重裝 PVE 問題依舊,不只是添加 GPU 才會這樣,只要添加了任何 PCI 設備都會造成這種情況
    10 条回复    2024-03-14 08:54:38 +08:00
    ltkun
        1
    ltkun  
       45 天前
    这不应该去 proxmox 的论坛 估计 amd 的主板还是没有经过充分测试 某些驱动不兼容吧 我上次遇到 10g 网卡不能 ping 外网的 bug 结果换个卡就 ok
    yyzh
        2
    yyzh  
       45 天前 via Android
    核显直通没你想的那么简单的。
    新手还是直接上一件脚本吧
    https://bbs.x86pi.cn/thread?topicId=20
    Jirajine
        3
    Jirajine  
       45 天前
    你不会觉得 GPU 直通和 usb 直通一样简单吧。
    https://wiki.archlinux.org/title/PCI_passthrough_via_OVMF#Setting_up_IOMMU
    ZxykM
        4
    ZxykM  
       45 天前
    AMD 的核显 GPU 直通我记得挺麻烦的,没有 INTEL 那么简单
    bt7vip
        5
    bt7vip  
       45 天前 via Android
    proxmox 有专门的页面讲 PCI 直通,也可以用上面的脚本,PVE 还没做到点点就能用,很多场景要提前做好环境修改和检查。
    FrankAdler
        6
    FrankAdler  
       44 天前
    你留意添加界面的设备的 ID:0000:C5:00:0.1-4 ,这些设备都是一组的,PVE 里是无法单独分配一个给虚拟机的,只能一组整体分配,然后部分设备宿主机还在使用?虽然无法搞明白内部的资源抢夺,但是这么割裂肯定是有问题的。
    然而我的 G5420 ,核显的 ID 组就是独立的,就可以正常添加。
    FrankAdler
        7
    FrankAdler  
       44 天前
    @FrankAdler 比如这样,https://imgur.com/CHJGcXh 我可以分配 WiFi 、核显都是正常使用的。
    FrankAdler
        8
    FrankAdler  
       44 天前
    MiKing233
        9
    MiKing233  
    OP
       44 天前
    @FrankAdler 這個我有注意到,但是我似乎沒法單獨分配,就是我分配了 0000:c5:00.0 ,點確認了之後顯示爲 0000:c5:00,pcie=1 ,然後我再添加 0000:c5:00.1 ,確認了之後還是顯示一樣的 0000:c5:00,pcie=1 ,并且我再點擊編輯裏面顯示的不是我添加的 1 而變成 0 ,另外這個 GPU 資源沒有分配給其他 VM ,我嘗試分配 WIFI 網卡是可以正常使用的,看起來確實是 GPU 的問題
    MiKing233
        10
    MiKing233  
    OP
       44 天前
    @bt7vip 我修改過的:/etc/default/grub 裏面 GRUB_CMDLINE_LINUX_DEFAULT="quiet amd_iommu=on iommu=pt"
    /etc/modules 裏面添加四行:echo -e "vfio\nvfio_iommu_type1\nvfio_pci\nvfio_virqfd" >> /etc/modules
    除此之外還有其他地方嗎,我看各種教程講 PVE8.1 也只有改這兩處而已,BIOS 裏面 IOMMU 也已經 enable 了,但是一啓動虛擬機就失敗然後 GPU 滿功耗在跑,關機還關不掉...
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   1969 人在线   最高记录 6543   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 28ms · UTC 16:14 · PVG 00:14 · LAX 09:14 · JFK 12:14
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.