V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX  ›  gridsah  ›  全部回复第 3 页 / 共 8 页
回复总数  143
1  2  3  4  5  6  7  8  
楼上那些说 SecureCRT+FX 有 Linux 版的,我一个正版用户难道不知道吗
@LonnyWong #19
@LindsayZhou #20

我现在的思路是,用 python 自带的 curses 库写一个 tui ,每行根据 .ssh/config 显示一个配置,上下键选定按下 enter 直接调 openssh 建立连接。基本逻辑不是很复杂,最复杂的应该也只是搜索了吧,所以 curses 虽然简陋点但也够用。

在我的规划里,这个工具应该是一个简单的脚本,最多几百行,而不是一个 project ,所以 tssh 太重了。
@LonnyWong #8 这个看起来符合我管理上的需求,但是我更偏向于自己造轮子 :b

@LindsayZhou #9 和我现在的思路差不多。我想要实现的是那种 tui 方向键选定然后按回车键打开链接的那种,有没有啥思路?另外,图炸了
更新:

#21 的问题解决了,问题出在我不会用 iostat 上 😅

目前决定,PVE 保留 ZFS ,NAS 用 btrfs
( 有冷备说话就是硬气 😆
201 天前
回复了 gridsah 创建的主题 程序员 请教各位 Linux 下 OpenZFS 的奇怪的 I/O 表现
@oldshensheep #9 额,原来是这么回事。感谢解答。
我已经准备上 btrfs 的灵车了 😂😂
( PVE 还继续用 ZFS
201 天前
回复了 gridsah 创建的主题 程序员 请教各位 Linux 下 OpenZFS 的奇怪的 I/O 表现
@oldshensheep #7 zpool iostat 显示的是实时负载吧?
我看 zpool 没有负载之后 zpool iostat 1 显示的一直是 0 值。
更新:

系统选好,zpool 配好,导数据速度正常,但是发现了在 zpool iostat 显示没有负载的情况下,sysstat 中的 iostat 显示有负载的问题。
https://www.v2ex.com/t/978894
查很久文档没有结论。

最后决定,去 TMD OpenZFS ,上灵车!
btrfs 文档阅读中......
201 天前
回复了 gridsah 创建的主题 程序员 请教各位 Linux 下 OpenZFS 的奇怪的 I/O 表现
@oldshensheep #5 我注意到了,但是 zpool iostat 显示负载消失之后,physical I/O 展示的负载依旧和负载消失前的值一样,并且,一直都显示有负载,关键这个值还在跳动,就像是真的有这样的负载一样。我查了一晚上文档,没有头绪。
地铁、老头、看手机.jpg
202 天前
回复了 gridsah 创建的主题 程序员 请教各位 Linux 下 OpenZFS 的奇怪的 I/O 表现
果然,我把数据线插到了 usb 2.0 的接口上。
Gen10 背面 4 个 usb 接口长得一样,两两排布,左边的是 3.0 右边的是 2.0 。
现在第一个问题解决了。

第二个问题,sysstat 包中的 iostat 报告的 I/O 不对。还是没有头绪。
202 天前
回复了 gridsah 创建的主题 程序员 请教各位 Linux 下 OpenZFS 的奇怪的 I/O 表现
这 20M/s 的速度让我有一个可怕的想法.....
是不是我脑残地把 usb 3.0 的线插到了 usb 2.0 的接口上.....
等我去翻翻惠普的产品说明......
202 天前
回复了 gridsah 创建的主题 程序员 请教各位 Linux 下 OpenZFS 的奇怪的 I/O 表现
@kokutou #1 你还真别说..... 我把 zpool 里的一个盘格成了 ext4 ,冷备盘往这个盘里拷数据,写性能一样....

这让我想起来 Gen10 的板载 raid 卡有 bug 来着,所有的 3.5 寸硬盘都接在这个 raid 卡上。
@kqz901002 没有,在 CentOS 7 及之前的版本中,CentOS 要跟 RHEL 的 patch ,但不是马上跟,CentOS 会等 RHEL 的 patch 推送到用户一段时间之后再跟。

如果 RHEL 推的 patch 有问题,那么 RHEL 很快会修,如果 CentOS 步步紧跟,那么 CentOS 也得跟着 RHEL 推新 patch 。但如果 CentOS 等 RHEL 的 patch 在用户那验证过没有问题之后,再把这个 patch 拿过来推给 CentOS 的用户,工作量就小很多,而且会让用户有 CentOS 比 RHEL 有更少 patch (or bug) 的错觉。
204 天前
回复了 wyzh97 创建的主题 Linux Debian 还是 Ubuntu server
我个人所有的系统都是 Debian ,公司新项目能上 Debian 的我都上 Debian ,还有很多 EulerOS 2.2 。旧项目很多 CentOS 7 ,还有一点 RockyLinux 8 。
这里发一下选系统的流程给后来人做个参考。

从惠普那找到 Gen10 的 QuickSpecs 文档,发现官方确定兼容的系统是 REHL 7.4 ,去红帽那里下载好对应版本。装上去,导出启动日志。

我想用 Debian12 ,装上去,导出启动日志。

最后两个日志汇总 warning 和 error ,以 RHEL 7.4 日志为基准,按照出错的功能/硬件,有:

FADT field Pm2ControlBlock has valid Length but zero Address......
Ignoring BGRT: failed to map image memory

-pmd_set_huge: Cannot satisfy [mem 0xf8000000-0xf8200000] with a huge-page mapping due to MTRR override.

[Firmware Bug]: HEST: Table contents overflow for hardware error source: 2.

-[Firmware Bug]: ACPI: No _BQC method, cannot determine initial brightness
-pci 0000:05:03.0: ASPM: Could not configure common clock

pnp 00:04: disabling [mem 0xfeb00000-0xfeb00fff] because it overlaps
usb: port power management may be unreliable

+device-mapper: core: CONFIG_IMA_DISABLE_HTABLE is disabled. Duplicate IMA measurements will not be record
+pstore: ignoring unexpected backend 'efi'

sp5100-tco sp5100-tco: Watchdog hardware is disabled

-random: systemd: uninitialized urandom read (16 bytes read)
-usb 2-4.1: device descriptor read/64, error -32

kfd kfd: error getting iommu info. is the iommu enabled?
kfd kfd: Error initializing iommuv2 for device (1002:9874)
kfd kfd: device (1002:9874) NOT added due to errors

以短横线 - 开头的是 RHEL 7.4 独有的报错,以加号 + 开头的是 Debian12 独有的报错。其他是两个系统共有的报错。

一通 google 之后,发现以 + 开头的 2 条信息都是些不影响它作为 NAS 使用的小问题,RHEL 上独有的报错不确定会影响啥。

我需要用 USB 外接 SATA3 硬盘来做冷备,两个系统都有的 USB 电源管理的报错倒不重要,毕竟传完数据就把 USB 线拔走了,耗电不耗电不重要,反正不会烧设备。但是 RHEL 独有的那个 usb 报错就让我心里没底。

至于其他共有的报错,惠普说 RHEL 7.4 没问题,那就姑且认为这些报错不影响使用吧。

决定使用 Debian12 。

启动日志读下来,感觉 HPE Microserver Gen10 这个设备就像是一个半成品,Gen10 plus 才是成品。

官方宣称兼容的 RHE 7.4 都有这么多报错,而且有些出错的 ACPI 功能实际上是 iLO 要用的功能,而 Gen10 没有 iLO 。

此外,如果在 BIOS 里面开了 iommu ,那么板载的 raid 卡就出问题,需要在内核参数中加入 iommu=pt 或者 iommu=soft 才能让系统正常认到板载 raid 卡里的四块硬盘。但我又不开虚拟机,所以在 BIOS 里面把 iommu 关了,不会触发板载 raid 卡的 bug 。

感觉上来说,Gen10 的 BIOS 固件压根没用心做。



最终,目前 Gen10 作为 NAS 的方案是,200G intel S3710 (uefi+lvm+ext4) + 4*8T HC320 (raidz2) + 2*16G 傲腾 (SLOG) + 256G NVMe SSD (200G as cache)。

这次迁移发现,我有可靠的冷备方案,可以接受 raid5 连炸两块盘,决定抽点时间把 raidz2 重建成 raidz 。

在查资料的过程中,我还是认为支持 COW 文件系统才是未来趋势。ZFS 现在在 Oracle 手里,就我对 Oracle 的了解,它绝对不会把 ZFS 的 CDDL 改成 GPL ,进入 Linux 内核的只有 btrfs 一枝独苗。RH 的 stratis 只是把现有的方案整合了一下假装是个 '下一代文件系统',并不是一个新的 fs 。所以我再给了 btrfs 一次机会,把群晖上的文件系统从 ext4 切成了 btrfs ,性能差是差,倒也基本够用。目前一切正常。
@nuk #18 不搞了,硬盘上的 FreeBSD 已经没了,被我换成了 Debian12 。这几天正在看看 journalctl -b 里面报的错有什么是我能修的。
@nuk #12 看起来这个 hard reset 是由 watchdog 出发的,因为我在 Debian12 的日志里找到了

kernel: sp5100-tco sp5100-tco: Watchdog hardware is disabled

但是要修这玩意得改 BIOS.....
207 天前
回复了 evancn 创建的主题 NAS J3455 跑 pve 装双路由加群晖能带动么
我不推荐你把网络和存储混在一块。网络设备一定要独立出来,你可以看看我发过的帖子,虽然我手里的机器足以做的一台机器搞定所有,但是遇上 bug 或者其他需要远程调试的情况的时候就很痛苦
@MeteorCat 不存在什么突然断电,所有机器都接了 ups
单网口,配静态地址,不带链路聚合也能触发 bug ....
@mantouboji 我查了 RHEL 7-9 的文档,都没说 mdadm 可以防止静默错误。我问了华为存储设备的售后,他们只是说,他们的盘阵有定期巡检来修复静默错误,但不是 mdadm 。

倒是这篇文章提 mdadm 和静默错误了,但它只是加了个检测静默错误的中间层,无法自动修复。检测到静默错误整个文件系统直接 read only 了。
https://www.redhat.com/en/blog/what-bit-rot-and-how-can-i-detect-it-rhel

mdadm 那个校验阵列的 timer 叫啥?我去看看它配置文件咋写的
1  2  3  4  5  6  7  8  
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   我们的愿景   ·   实用小工具   ·   4350 人在线   最高记录 6543   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 20ms · UTC 05:33 · PVG 13:33 · LAX 22:33 · JFK 01:33
Developed with CodeLauncher
♥ Do have faith in what you're doing.