robbaa 最近的时间轴更新
robbaa

robbaa

V2EX 第 594402 号会员,加入于 2022-09-15 13:13:39 +08:00
robbaa 最近回复了
关键是习惯,养成习惯 vscode 都行
74 天前
回复了 jedeft 创建的主题 程序员 搞一台 4090 服务器放客厅怎么样?
@jedeft 考虑下室外,开空调都是烤火
@kitazawa 学校作业,有时间点,有实现功能就好了。

jsp 写个信息管理系统,安卓套一下 h5 搞定,几个页面:注册、登录、退出、列表、发布、更新
217 天前
回复了 techdai 创建的主题 生活 大家有什么泡水喝不腻的❓
吨吨杯+酸梅汤
@leeum 测试版还是有问题,结果不理想。

70b
单次请求:17~20s
并行 4 ,4 个请求,4 个成功,平均 30s
并行 6 ,6 个请求,6 个成功,平均 33s
并行 8 ,8 个请求,8 个成功,平均 41s
并行 9 ,9 个请求,9 个成功,平均 130s (确实如此)
并行 10 ,10 个请求,10 个成功,平均 142s
并行 11 ,11 个请求,11 个成功,平均 150s

8b
并行 8 ,8 个请求,8 个成功,平均 14s
并行 9 ,9 个请求,6 个成功,平均 25s
并行 10 ,10 个请求,10 个成功,平均 32s
并行 11 ,11 个请求,11 个成功,平均 34s
并行 12 ,返回异常

测试多了,还会出现“话痨”现象。正常回复在 40k 左右,“话痨”状态在 380k 以上

======

@imFu 我初学状态
ab -c 10 -n 10 -p ./testchat.json -T "application/json" -H 'Content-Type: application/json' http://localhost:11434/api/chat

testchat.json 中内容
```
{
"model": "llama3:70b",
"stream": true,
"frequency_penalty": 0,
"presence_penalty": 0,
"temperature": 0.6,
"top_p": 1,
"messages": [
{
"content": "安排一个南京的 2 天的旅游攻略,用中文回答",
"role": "user"
}
]
}
```
@ispinfx ollama 目前是单线程模型。
ab 工具测试 10 并发 10 请求,耗时 312 秒, 没有并发可言
给你个参考:
环境:双 3090 + nvlink + docker
命令:ollama run llama3:70b --verbose
刚刚好可以塞下。

ollama-1 | ggml_cuda_init: found 2 CUDA devices:
ollama-1 | Device 0: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | Device 1: NVIDIA GeForce RTX 3090, compute capability 8.6, VMM: yes
ollama-1 | llm_load_tensors: ggml ctx size = 0.83 MiB
ollama-1 | llm_load_tensors: offloading 80 repeating layers to GPU
ollama-1 | llm_load_tensors: offloading non-repeating layers to GPU
ollama-1 | llm_load_tensors: offloaded 81/81 layers to GPU
ollama-1 | llm_load_tensors: CPU buffer size = 563.62 MiB
ollama-1 | llm_load_tensors: CUDA0 buffer size = 18821.56 MiB
ollama-1 | llm_load_tensors: CUDA1 buffer size = 18725.42 MiB


测试三次结果:

total duration: 25.820168178s
load duration: 1.436783ms
prompt eval count: 14 token(s)
prompt eval duration: 483.796ms
prompt eval rate: 28.94 tokens/s
eval count: 448 token(s)
eval duration: 25.203697s
eval rate: 17.78 tokens/s


total duration: 30.486672187s
load duration: 1.454596ms
prompt eval count: 479 token(s)
prompt eval duration: 2.025687s
prompt eval rate: 236.46 tokens/s
eval count: 496 token(s)
eval duration: 28.322837s
eval rate: 17.51 tokens/s


total duration: 21.176605423s
load duration: 2.629646ms
prompt eval count: 529 token(s)
prompt eval duration: 2.325535s
prompt eval rate: 227.47 tokens/s
eval count: 324 token(s)
eval duration: 18.622355s
eval rate: 17.40 tokens/s
248 天前
回复了 heng0226 创建的主题 南京 五一去南京旅游需要注意什么
别来,本地人都挤的没地方去了 T_T
299 天前
回复了 zooo 创建的主题 生活 话说 正月里能不能理发?
建议别剪,人言可畏
关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2203 人在线   最高记录 6679   ·     Select Language
创意工作者们的社区
World is powered by solitude
VERSION: 3.9.8.5 · 13ms · UTC 00:18 · PVG 08:18 · LAX 16:18 · JFK 19:18
Developed with CodeLauncher
♥ Do have faith in what you're doing.