自编译最新版llama适配sm_61
本帖最后由 yuridexiaoyu 于 2026-6-2 15:58 编辑很久之前入了张P102-100,最近得知Qwen3.6-35B-A3B-UD-Q4_K_M可以让低显存显卡运行大参数的模型。由于ollama调用mmproj会莫名报错,所以下载llama,但是问题来了,llama虽然能运行,但是预编译的llama已然不支持老架构(sm_61),全程CPU算,慢成蜗牛,所以只能自己编译以支持老卡。
现分享编译后的成品,理论讲帕斯卡的卡能直接用。结合32G内存和E5CPU,千问3.6 35B的模型上下文拉满,速度14t/s左右,效果不错,对于只折腾不生产力的人来说,够够的。后续打算接入Claude Code看看效果如何{:301_998:}
识图:
生成文章:
留下你们的CB吧!
免费的评分点一点啊~!
https://paniyoo-one.lanzoue.com/ioPmL3qgee6f
密码:52pj
二编:openclaw不行,首响应过久(不知道是不是PCIE1.1x4导致的)导致openclaw返回报错。我现在试试别的agent。
三编:openclaw可以,但是要用小模型,应该是显卡的问题。好显卡才能上大模型。目前测试成功的模型为:AgenticQwen-8B.Q6_K.gguf
mao2046 发表于 2026-5-27 11:29
请教一下,如何使用这个成品?
可以直接问AI,比我说更直观。{:301_1009:}
以下是我的启动参数,你下载好对应的模型,修改路径bat或者cmd运行即可。
E:\llama.cpp\llama-server.exe ^
-m "E:\llama.cpp\models\Qwen3.6-35B-A3B-UD-Q4_K_M.gguf" ^
--mmproj "E:\llama.cpp\models\mmproj-BF16.gguf" ^
-ngl 99 ^
--n-cpu-moe 999 ^
--flash-attn on ^
--jinja ^
-c 32768 ^
-t 12 ^
-b 512 ^
-ub 128 ^
--cache-type-k q4_0 ^
--cache-type-v q4_0 ^
--mlock ^
--host 127.0.0.1 ^
--port 8080 kartzhang 发表于 2026-5-27 12:44
但是你又跑了个35B的模型,而且还跑到14T,即使用Q4-K-M的量化版,少说也要20G显存吧?而且你的启动命令 ...
我就是了解到这个新技术(反正我才了解到的,就是新技术!哈哈),就是35B的模型,它只用了3B级别的计算成本,所以才有了这个帖子。实际显存占用只有5-6G。内存占用30G,CPU满载。GPU显存占用5-6G,90%核心占用。你下这个模型看看:Qwen3.6-35B-A3B-UD-Q4_K_M。 来贡献CB了~ 太厉害了,谢谢楼主 请教一下,如何使用这个成品?{:1_893:} 大佬,建议你报一下你的电脑配置吧,不然肯定会有很多人来问的。毕竟低显存到底是多低?然后A卡还是N卡呢? 理论上说,你的卡应该不会低于30系列吧,可能显存只有6GB
但是你又跑了个35B的模型,而且还跑到14T,即使用Q4-K-M的量化版,少说也要20G显存吧?而且你的启动命令还是 -ng 99全量显卡运行,这......这.......真不懂了,小弟4G A卡,研究了一个星期了,最多只能流畅跑4B,7B纯聊天,多模型的几乎跑不了 P102-100对应GTX 1080系列,理论显存5GB,魔改10G的款?那也差了一半的显存啊,而且也不支持CUDA 百元战神啊,P106竟然就行{:1_893:} 电脑的风扇起飞了吗?