自编译最新版llama适配sm_61

yuridexiaoyu 发表于 2026-5-27 11:01

本帖最后由 yuridexiaoyu 于 2026-6-2 15:58 编辑

很久之前入了张P102-100，最近得知Qwen3.6-35B-A3B-UD-Q4_K_M可以让低显存显卡运行大参数的模型。由于ollama调用mmproj会莫名报错，所以下载llama，但是问题来了，llama虽然能运行，但是预编译的llama已然不支持老架构（sm_61），全程CPU算，慢成蜗牛，所以只能自己编译以支持老卡。

现分享编译后的成品，理论讲帕斯卡的卡能直接用。结合32G内存和E5CPU，千问3.6 35B的模型上下文拉满，速度14t/s左右，效果不错，对于只折腾不生产力的人来说，够够的。后续打算接入Claude Code看看效果如何{:301_998:}

识图：

生成文章：

留下你们的CB吧！
免费的评分点一点啊~！
https://paniyoo-one.lanzoue.com/ioPmL3qgee6f
密码:52pj

二编：openclaw不行，首响应过久（不知道是不是PCIE1.1x4导致的）导致openclaw返回报错。我现在试试别的agent。

三编：openclaw可以，但是要用小模型，应该是显卡的问题。好显卡才能上大模型。目前测试成功的模型为：AgenticQwen-8B.Q6_K.gguf

yuridexiaoyu 发表于 2026-5-27 11:44

mao2046 发表于 2026-5-27 11:29
请教一下，如何使用这个成品？

可以直接问AI，比我说更直观。{:301_1009:}

以下是我的启动参数，你下载好对应的模型，修改路径bat或者cmd运行即可。

E:\llama.cpp\llama-server.exe ^
-m "E:\llama.cpp\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "E:\llama.cpp\models\mmproj-BF16.gguf" ^
-ngl 99 ^
--n-cpu-moe 999 ^
--flash-attn on ^
--jinja ^
-c 32768 ^
-t 12 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080

yuridexiaoyu 发表于 2026-5-27 16:18

kartzhang 发表于 2026-5-27 12:44
但是你又跑了个35B的模型，而且还跑到14T，即使用Q4-K-M的量化版，少说也要20G显存吧？而且你的启动命令 ...

我就是了解到这个新技术（反正我才了解到的，就是新技术！哈哈），就是35B的模型，它只用了3B级别的计算成本，所以才有了这个帖子。实际显存占用只有5-6G。内存占用30G，CPU满载。GPU显存占用5-6G，90%核心占用。你下这个模型看看：Qwen3.6-35B-A3B-UD-Q4_K_M。

ihaveyou 发表于 2026-5-27 11:04

来贡献CB了~

zhouz848 发表于 2026-5-27 11:07

太厉害了，谢谢楼主

mao2046 发表于 2026-5-27 11:29

请教一下，如何使用这个成品？{:1_893:}

kartzhang 发表于 2026-5-27 12:40

大佬，建议你报一下你的电脑配置吧，不然肯定会有很多人来问的。毕竟低显存到底是多低？然后A卡还是N卡呢？理论上说，你的卡应该不会低于30系列吧，可能显存只有6GB

kartzhang 发表于 2026-5-27 12:44

但是你又跑了个35B的模型，而且还跑到14T，即使用Q4-K-M的量化版，少说也要20G显存吧？而且你的启动命令还是 -ng 99全量显卡运行，这......这.......真不懂了，小弟4G A卡，研究了一个星期了，最多只能流畅跑4B，7B纯聊天，多模型的几乎跑不了

kartzhang 发表于 2026-5-27 12:47

P102-100对应GTX 1080系列，理论显存5GB，魔改10G的款？那也差了一半的显存啊，而且也不支持CUDA

q1wv 发表于 2026-5-27 14:17

百元战神啊，P106竟然就行{:1_893:}

shiwx01 发表于 2026-5-27 15:09

电脑的风扇起飞了吗？

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

自编译最新版llama适配sm_61