互动

最近评论

<p>暴风雨结束后</p><p>你不会记得自己是怎样活下来的</p><p>你甚至不确定暴风雨是否真的结束了</p><p>但有一件事是确定的</p><p>当你穿过了暴风雨</p><p>你早已不再是原来那个人</p>

本本到手，从此世界不再是远方

驾照到手，世界从此不再是远方

梦想是注定孤独的旅程不一样的选择决定不一样的过程和结果，忍受，加油，爆发

阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸阿狸

不知该说什么了，现在我只想能够安安静静的躺着，等着天塌下来。

标签

寻找感兴趣的领域

文章

微信
支付宝

原创人工智能

人工智能产品经理

LLM 推理常见参数

临渊字数: 3981 阅读耗时: 9 分钟 2025/04/29 2025/04/29 博客独享热度: 621 评论: 0

1. 核心采样参数

`top_k`

类型：整数（默认：None）
作用：限定采样时仅考虑概率最高的前 k 个词。例如，若 top_k=50，则从概率最高的50个词中随机选择下一个词。
效果：减少极端低概率词的干扰，提升生成文本的合理性。

`top_p`

类型：浮点数（默认：None）
作用：按概率累积筛选词。例如，top_p=0.9 表示选择概率总和达到90%的最小词集合。
效果：相比 top_k 更灵活，适合概率分布不均匀的场景。

`temperature`

类型：浮点数（范围：0.0~100.0，默认：1.0）
作用：控制采样随机性。
- 1.0：常规采样（按概率分布随机选择）。
- →0：趋近确定性（选最高概率词）。
- →100：趋近均匀分布（随机性强，可能降低连贯性）。
注意：通常温度参数上限为1，此处允许更高值可能为特殊实现，需谨慎调整。

`repetition_penalty`

类型：浮点数（范围：0.0~100.0，默认：None）
作用：惩罚重复出现的词，降低其被再次选中的概率。
效果：防止生成重复内容（如“你好你好”），数值越大惩罚越强。

2. 输出控制参数

`max_new_tokens`

类型：整数（范围：0~250，默认：None）
作用：限制生成的新词数量（不含输入长度）。例如，输入50词 + max_new_tokens=100 → 总输出150词。
注意：生成词越多，响应时间越长。

`max_time`

类型：浮点数（范围：0~120秒，默认：None）
作用：设置最大生成时间（软限制），需配合 max_new_tokens 使用。

3. 其他配置

`return_full_text`

类型：布尔值（默认：True）
作用：是否返回原始输入+生成内容。设为 False 可简化后续提示处理。

`num_return_sequences`

类型：整数（默认：1）
作用：生成多个候选回复（如 3 则返回3种不同版本）。

`do_sample`

类型：布尔值（默认：True）
作用：启用采样（随机性）或贪婪解码（确定性）。
- True：引入多样性（推荐用于创作）。
- False：严格按最高概率生成（可能单调）。

关键组合策略

高创造性 ：temperature=1.2 + top_p=0.9。
防重复 ：repetition_penalty=1.2。
快速响应 ：max_new_tokens=50 + max_time=30。

打赏作者

感谢你赐予我前进的力量

微信
支付宝

赞赏者名单

因为你们的支持让我意识到写文章的价值🙏

人工智能 20 产品经理 24

原创 LLM 推理常见参数

LLM 推理常见参数

本文是原创文章，采用 CC BY-NC-ND 4.0 协议，完整转载请注明来自临渊

阅读建议

全新 AI工具库重制上线！🎉（ 8/21更新）

如何对人脸识别模型进行增量预训练

编写易于AI可理解的PRD

Claude 内部系统提示词-2025-05-06

基于 MCP（模型上下文协议）的AI 应用客户端交互原理

深入浅出智能体工作流（Agentic workflow）

评论

匿名评论隐私政策

你无需删除空行，直接评论以获取最佳展示效果

你好啊！我是

杨达

一枚产品设计师，持续精进的求知者，梦想改变世界的年轻人。