编程

DeepSeek R1 Distill Codestral 22B DeepSeek Coder v2

文本推理

Microsoft Phi4/Phi3.5 Gemma 9B Calme-3.2-instruct-78b

翻译

Ministral 8B Gemma 9B SakuraLLM 14B

逻辑推理

DeepSeek R1 Distill OpenAI O1 API Qwen 2.5 32B

编程

DeepSeek R1 Distill Codestral 22B DeepSeek Coder v2

基准测试
APPS
MBPP
PTQ10
人工测试

DeepSeek R1 Distill 个人推荐用推理模型进行debug,它的思考过程可以帮助识别很多bugs,很有用GGUF仓库: bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF

Codestral 22B 需求理解正确,代码质量高,擅长数据科学和Python,但是默认使用英文回答
GGUF仓库: lmstudio-community/Codestral-22B-v0.1-GGUF
DeepSeek Coder v2 新兴的产品,擅长前端不擅长算法,
此外不能仅仅修改一片逻辑,会重写全部
GGUF仓库: lmstudio-community/DeepSeek-
Coder-V2-Lite-Instruct-GGUF

StarCoder 不推荐! 难以理解中文指令,已读乱回

CodeGeex4 不推荐! 除了跨语言转换,经常有错误

文本推理

Microsoft Phi4/Phi3.5 Gemma 9B Calme-3.2-instruct-78b

基准测试
MUSR
GRE-3000
翻译的GRE3000
人工测试

Microsoft Phi4/Phi3.5 个人觉得极好的文本推理模型GRE-3000正确率望尘莫及,小说文学水平极高GGUF仓库: microsoft/phi-4-gguf

Gemma 9B 谷歌的Gemini之下的小模型,擅长的文本类型较多,多语言支持更好,也可以用于翻译GGUF仓库: lmstudio-community/gemma-2-9b-it-GGUF

Calme-3.2-instruct-78b 跑分大王,训练内容非常广泛,
在Llama之外的另一个适合微调的模型
GGUF仓库: bartowski/calme-3.2-instruct-78b-
GGUF

Llama 3.2 不推荐! 中文理解能力较差,英文尚可

Qwen 2.5 不推荐! 知识面太窄,容易拒绝回答

翻译

Ministral 8B Gemma 9B SakuraLLM 14B

Ministral 8B 多语言支持的大模型,中/英/日一般内容
的翻译通吃,懒得换模型的人就他了
GGUF仓库: bartowski/Ministral-8B-Instruct-
2410-GGUF
基准测试
LNMT
GRE-3000翻译
人工测试

Gemma 9B 谷歌的Gemini之下的小模型,擅长的文本类型较多,多语言支持更好,中翻译英极好GGUF仓库: lmstudio-community/gemma-2-9b-it-GGUF

SakuraLLM 14B 日中专用的Gal/轻小说翻译模型,训练内容较为狭窄,但是领域内能力较好,不能聊天GGUF仓库: SakuraLLM/Sakura-14B-Qwen2.5-v1.0-GGUF

DeepSeek R1 Distill 翻译能力也不差,但是思考时间过长,且需要达到14B/32B能力才显著优于无思考模型

Qwen 2.5 还是不推荐!知识面太窄,容易拒绝回答 By NathMath bilibili

逻辑推理

DeepSeek R1 Distill OpenAI O1 API Qwen 2.5 32B

基准测试MATH 500MMLU人工测试

DeepSeek R1 Distill 推理模型且开源的天花板, 擅长纯逻辑题、数学题、研究方向探索、代码Debug;32B显然好于更低版本,使用官方API也可以(等它上线)GGUF仓库: bartowski/DeepSeek-R1-Distill-Qwen-32B-GGUF

OpenAI O1 API 微软子公司OpenAI的第一代推理模型,Preview时候能力惊人(帮我做密码学研究呢),后来限制思考时间后能力衰退不少;API对思考时间限制少官方API站点: platform.openai.com

Qwen 2.5 32B 中国开源模型,在不需要思考的模型中推理已经足够了,虽然有所限制,但是中文理解较好GGUF仓库:bartowski/deepseek-r1-qwen-2.5-32B-ablated-GGUF

QwQ 32B 不推荐!官方没给metrics,本人重跑复现数字太低,建议老老实实用DeepSeek R1

By NathMath bilibili

如何自己比较模型?

比较严谨的方法是从hugging face上找开源的基准测试题库,例如MATH 500, APPS,然后使用API开始投喂题目,逐个测试或者进行@64pass测试,最后收集百分比的结果
不太严谨的方法是在本地部署模型后,使用自己曾经问过Chat GPT或者DeepSeek R1的问题,进行与Chat GPT或者DeepSeek R1模型的A/B比较
Hugging Face上很多公开的模型比较空间有着较大的可操作嫌疑,排名高的可能有过拟合嫌疑,实际表现不好。不建议参考,例如:Open LLM Leaderboard

如何设置对应的提示词?

UP主已经提供了上述主流任务(包括花活)下如何编写提示词,参考一键包v3.9版本中Document/System Prompt文件夹下不同的示例,例如:

【风格】你是一位擅长武侠小说的作家,你需要使用各类细节描写写出生动引人入胜的剧情,请回顾上下文继续推进剧情,并保持文章连贯

【核心设定】

时间:崇祯十三年深秋,北方大旱引发流民潮,锦衣卫与东厂势力渗透江湖地点:潼关外五十里破败的"龙门客栈",房梁悬着七盏残破的青铜风灯核心冲突:救命之恩与身份之谜的双重困境

【人物深化】

苏秦(代号"千机雪")武器:三十六枚冰魄寒星针(藏于乌木发簪) + 缠腰软剑"青蛇引"致命伤:左肩被凤家"赤炎掌"所伤,每日寅时经脉灼痛

The Temperature Parameter

The default value of temperature is 1.0.

· We recommend users to set the temperature according to their use case listed in below.

USE CASETEMPERATURE
Coding / Math0.0
Data Cleaning / Data Analysis1.0
General Conversation1.3
Translation1.3
Creative Writing / Poetry1.5

DS