LLM运行机制
以下知识整理来自网络。一、自回归生成Autoregressive GenerationLLM基于用户提供的上下文每次只“补”一个 Token文本碎片然后把这个碎片加进上下文再预测下一个如此循环直到生成完整回答这个过程叫自回归生成。Token文本碎片。Temperature/Top-p/Top-k模型选择Token的策略。Max Tokens允许模型最多“补”多少步。二、Token估算英文1 Token 大约对应 3~4 个字符。中文1 Token 大约对应 1~2 个汉字。Token 成本与 Tokenizer 版本强相关。精确计数时建议使用模型对应的官方 Tokenizer 工具。三、上下文窗口上下文窗口是 LLM 的“工作记忆”Working Memory。它决定了模型在单次对话可以处理或“记住”的文本量以 Token 为单位。上下文窗口并非越大越好它受限于Transformer 架构的自注意力机制Self-Attention。上下文窗口包括System Prompt调节模型行为的系统指令对用户隐藏但占用窗口。工具调用 Schema函数定义与参数结构。User Prompt业务数据与指令。多轮对话历史过往的消息记录。RAG 检索片段从外部知识库检索到的补充信息。格式开销特殊字符、换行符、Markdown 标记等。模型生成的输出 Token输出也占用上下文窗口。四、Prompt CachingPrompt Caching 是供应商会缓存请求中“可复用的前缀部分”。下次请求如果前缀相同这部分就不重新计费只收“缓存读取”的费用通常是正常价格的 10%~50%。降低Token成本的建议把不变的内容放前面System Prompt、工具定义、RAG Context把变化的内容放后面User Prompt。监控cache_read_tokens和cache_creation_tokens指标验证缓存命中率。批量任务尽量在缓存时间窗口内完成不同模型的缓存时长不一样。五、Logits到概率采样模型每一步会给词表中每个候选 Token 打一个分数叫logits分数越高说明模型越觉得这个词应该出现在这里。原始分数经过一次数学变换softmax变成每个候选Token被选中的概率。最后模型按这个概率分布“抽签”采样决定输出哪个 Token。解码参数Temperature、Top-p、Top-k 等就是在这个“打分 → 概率 → 抽签”的过程中施加控制Temperature调整概率分布的“形状”让高分选项更突出或者让各选项更均匀。Top-p / Top-k直接砍掉不靠谱的候选项缩小“抽签池”。Penalty 系列对已经出现过的词降分防止“复读机”。5.1Temperature 的工作原理在 softmax 之前先把所有分数除以温度值 T。温度越低输出越确定温度越高输出越随机。Temperature词表里所有 Token 理论上都有被选中的可能。5.2Top-k 5只保留概率最高的 5 个候选Token。Top-p 0.8从高到低累加概率保留累计刚好达到 80% 的最小Token集合。六、Penalty与复读问题Penalty 参数用来缓解这类问题模型反复输出同一句话或者在长回答里不断重复相同观点。方法是在解码时降低已出现 Token 的分数参数作用Repetition Penalty降低所有已出现 Token 的概率Presence Penalty只要 Token 出现过就扣分不看次数Frequency PenaltyToken 出现次数越多扣分越重建议如果不确定这些参数的精确语义不同供应商定义可能不同建议保持默认值。用低温 更强 Prompt 约束 更短输出来获得稳定性比调 Penalty 更可控。七、首字延迟TTFTTime-To-First-Token价值改善用户体验。批量处理图片时TTFT会显著增加。上下文变长后TTFT会显著增加。八、参数配置建议场景TemperatureTop-pPenalty其他JSON / 结构化输出0-0.31.0保持默认配合 Strict Mode 重试策略代码评审 / 技术分析0.4-0.70.9保持默认结合 CoT(Chain of Thought) Prompt多轮对话0.6-0.80.9适度开启控制历史消息长度创意写作 / 头脑风暴0.8-1.20.95按需开启接受输出多样性做好后处理思维链模型不支持--通过prompt控制

相关新闻

毕业设计 深度学习yolo藻类细胞检测识别(科研辅助系统)(源码+论文)

毕业设计 深度学习yolo藻类细胞检测识别(科研辅助系统)(源码+论文)

文章目录0 前言1 项目运行效果2 课题背景2.1 水环境监测的重要性2.2 传统检测方法的局限性2.3 技术发展趋势2.4 项目研究价值2.5 国内外研究现状2.5.1 国际进展2.5.2 国内现状2.6 技术挑战3 设计框架3.1 整体架构图3.2 技术栈组成3.3 模型训练模块3.3.1 数据处理流程3.3.2 训练…

2026/6/23 15:54:57阅读更多 →
SQL必知必会——使用游标

SQL必知必会——使用游标

使用游标1、游标2、使用游标2.1、创建游标2.2、使用游标2.3、关闭游标1、游标 SQL检索操作返回一组称为结果集的行,这组返回的行都是与SQL语句相匹配的行(零行到多行)​。简单地使用SELECT语句,没有办法得到第一行、下一行或前10…

2026/6/23 15:54:57阅读更多 →
Kimi    LeetCode 3343. 统计平衡排列的数目 Java实现

Kimi LeetCode 3343. 统计平衡排列的数目 Java实现

以下是 LeetCode 3343. 统计平衡排列的数目的 Java 实现。这道题的核心思路是:记忆化搜索 组合数学。题目分析- 平衡排列定义:偶数位(0,2,4...)数字之和等于奇数位(1,3,5...)数字之和 - 设字符串长度为 n&…

2026/6/23 15:54:57阅读更多 →
为什么选择UnrealEngineSkyAtmosphere?对比主流天空渲染方案的优势分析

为什么选择UnrealEngineSkyAtmosphere?对比主流天空渲染方案的优势分析

为什么选择UnrealEngineSkyAtmosphere?对比主流天空渲染方案的优势分析 【免费下载链接】UnrealEngineSkyAtmosphere Unreal Engine Sky Atmosphere Rendering Technique 项目地址: https://gitcode.com/gh_mirrors/un/UnrealEngineSkyAtmosphere UnrealEngi…

2026/6/23 17:00:09阅读更多 →
游戏开发教学革命:Unfinished-asteroids如何模拟真实工作环境加速学习

游戏开发教学革命:Unfinished-asteroids如何模拟真实工作环境加速学习

游戏开发教学革命:Unfinished-asteroids如何模拟真实工作环境加速学习 【免费下载链接】unfinished-asteroids IT STARTS HERE ---> 项目地址: https://gitcode.com/gh_mirrors/un/unfinished-asteroids Unfinished-asteroids是一个创新的游戏开发教学项目…

2026/6/23 17:00:09阅读更多 →
Medium Editor Markdown快速入门:5分钟实现富文本到Markdown的实时转换

Medium Editor Markdown快速入门:5分钟实现富文本到Markdown的实时转换

Medium Editor Markdown快速入门:5分钟实现富文本到Markdown的实时转换 【免费下载链接】medium-editor-markdown :pencil: A Medium Editor extension to add markdown support. 项目地址: https://gitcode.com/gh_mirrors/me/medium-editor-markdown 你是否…

2026/6/23 17:00:09阅读更多 →
DriveAGI性能优化技巧:大规模驾驶视频处理的7个最佳实践

DriveAGI性能优化技巧:大规模驾驶视频处理的7个最佳实践

DriveAGI性能优化技巧:大规模驾驶视频处理的7个最佳实践 【免费下载链接】DriveAGI [CVPR 2024 Highlight] GenAD: Generalized Predictive Model for Autonomous Driving 项目地址: https://gitcode.com/gh_mirrors/dr/DriveAGI 想要高效处理1700小时的大规…

2026/6/23 17:00:09阅读更多 →
Topiary高级技巧:解决Markdown代码块格式化难题的3个实用方法

Topiary高级技巧:解决Markdown代码块格式化难题的3个实用方法

Topiary高级技巧:解决Markdown代码块格式化难题的3个实用方法 【免费下载链接】topiary 项目地址: https://gitcode.com/gh_mirrors/to/topiary Topiary是一个基于Tree-sitter的统一代码格式化工具,专门解决多语言代码块在Markdown文档中的格式化…

2026/6/23 17:00:09阅读更多 →
终极GDSDecomp实战指南:高效解密Godot游戏资源与脚本反编译

终极GDSDecomp实战指南:高效解密Godot游戏资源与脚本反编译

终极GDSDecomp实战指南:高效解密Godot游戏资源与脚本反编译 【免费下载链接】gdsdecomp Godot reverse engineering tools 项目地址: https://gitcode.com/GitHub_Trending/gd/gdsdecomp 你是否曾面对加密的Godot游戏PCK文件束手无策?是否遇到过需…

2026/6/23 16:55:08阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/23 7:04:52阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/23 1:55:32阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/23 5:55:37阅读更多 →
2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南

2026年京东云 618 活动 Hermes Agent/OpenClaw配置Token Plan新手必看指南。OpenClaw是开源的个人AI助手,Hermes Agent则是一个能自我进化的AI智能体框架。阿里云提供计算巢、轻量服务器及无影云电脑三种部署OpenClaw 与 Hermes Agent的方案、百炼Token Plan兼容主流…

2026/6/23 0:00:38阅读更多 →
2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

2026年北京电子沙盘制作公司深度评测:从技术选型到落地效果,谁在真正定义“数字+实体”的融合边界?

模块一:行业背景——百亿赛道爆发,北京市场的特殊性与选型困局2026年,电子沙盘行业已走过“要不要做”的讨论,进入“找谁做、怎么做”的深水区。据行业研究机构数据,2025年国内电子沙盘市场规模已突破85亿元&#xff0…

2026/6/23 0:00:38阅读更多 →
音视频场景下的 Java 开发者面试:技术与挑战

音视频场景下的 Java 开发者面试:技术与挑战

面试互联网大厂:从音视频场景看 Java 开发者的技能与挑战 在互联网大厂求职的面试中,Java 开发者往往需要面对严苛的技术问题。今天,我们将通过一位名叫燕双非的搞笑程序员与严肃的面试官之间的对话,看看在音视频场景下&#xff0…

2026/6/23 0:00:38阅读更多 →