Token(词元)，5分钟彻底搞懂-拓冰网站优化

如果你习惯看视频就看《4. Token(词元)看会动画敲下代码就彻底搞懂了》喜欢看文章就接着往下看。Token的优化过程如下大模型单次调用的总消耗 Token 由两部分组成总消耗 Token 输入 Token 输出 Token。其中输入 Token 的构成更为细致包括当前用户提问 Token、系统提示词 Token、历史对话上下文 Token以及消息格式开销 Token。需要注意的是Token 的实际切分由各模型厂商自研的 Tokenizer分词器独立完成因此相同文本在不同模型上会产生不同的 Token 数量与序列。以上提及的换算比例等数据均为行业通用估算参考。下面通过代码实战带你彻底搞懂。首先打开命令行窗口使用 pip 命令安装 transformers和PyTorch 开发库。pip install transformers torch安装完成后我们便可以借助 transformers 库加载主流的分词器直观地观察文本到 Token 的切分过程。以下是具体代码示例# 首先从 transformers 库中导入 AutoTokenizer 类它能自动适配不同大模型的分词规则 from transformers import AutoTokenizer # 接着从预训练权重加载 Qwen2 模型的分词器 # 注意 Qwen2_tokenizer是下载到本地自命名的分词器下载地址见文章最后链接 tokenizer AutoTokenizer.from_pretrained(Qwen2_tokenizer) # 定义待处理的输入文本 text 你好我是cool。 # --------------------------------------------------------- # 第1步分词 (Tokenization) # --------------------------------------------------------- # 使用 BPE算法将文本切分为“子词单元” # 规则是常见词为1个Token复杂词会拆开标点也算Token。 bpe_codes tokenizer.tokenize(text) # 先打印出来看一下结果 print(bpe_codes) # 为了让分词结果可读需要做一下处理 decoded_result [] for bpe_code in bpe_codes: # 先将子词转换为模型词汇表中的ID id tokenizer.convert_tokens_to_ids(bpe_code) # 再将单个ID解码回文本并将结果存起来 decoded tokenizer.decode([id]) decoded_result.append(decoded) # 输出最终的分词列表 print(分词结果, decoded_result) # --------------------------------------------------------- # 第2步向量化 (Numericalization) # --------------------------------------------------------- # 将字符串形式的 Token 列表转换为模型能处理的整数 ID 列表 # 这是大模型的“输入语言”模型只认识数字不认识文字 token_ids tokenizer.convert_tokens_to_ids(bpe_codes) print(向量ID, token_ids) # --------------------------------------------------------- # 第3步统计 Token 数量 # --------------------------------------------------------- # 计算 Token 总数 count len(token_ids) print(Token总数, count) # 将 ID 列表完整解码回原始文本

相关新闻

认知篇：正视焦虑，看清趋势（2）——项目的流程分工

这六个环节，是软件/互联网行业最标准的项目全生命周期（从获客到交付运维）。下面我帮你把每个环节的具体工作内容，以及对应的负责人/岗位分工拆解清楚。可以简单理解为：销售挖坑，产品画饼，开发填…

2026/6/25 13:58:10阅读更多 →

ComfyUI-Impact-Pack终极指南：从入门到精通的5大核心功能详解

ComfyUI-Impact-Pack终极指南：从入门到精通的5大核心功能详解【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地址: h…

2026/6/25 13:58:10阅读更多 →

神经免疫：CNS 三大顶刊接连刊发重磅研究

神经与免疫的交叉前沿正持续产出颠覆性发现，学科边界的融合不断刷新着学界对疾病机制的认知。近期，Cell、Nature、Science 三大顶级期刊相继发表多项神经免疫领域核心成果，从全新分子机制到创新治疗策略，为理解神经 - 免疫互作规律…

2026/6/25 13:58:10阅读更多 →

DeepSeek-R1 技术解析（四）：实验数据全景——R1 到底强在哪，弱在哪

先看清楚对手是谁论文在多个基准上做了系统对比，比较对象包括： DeepSeek-V3：自家的非推理型模型，671B MoEGPT-4o (2024-05-13)：OpenAI 的非推理型旗舰Claude-3.5-Sonnet (2024-10-22)：Anthropic 的非推理型…

2026/6/25 15:19:32阅读更多 →

如何精准匹配ML博士项目：从课程体系、导师共识到资金保障的实操指南

1. 这不是排名榜，而是一份“博士申请实操手记”：我如何用三年时间摸清ML博士项目的底层逻辑你点开这篇文章，大概率正站在人生一个关键岔路口：手握几封强推、GPA 3.7、有两段扎实的科研实习，但面对几十所顶尖高校的Ph.D…

2026/6/25 15:19:32阅读更多 →

OWASP Top 10核心漏洞深度解析：从原理到实战攻防与自动化检测

1. 项目概述：为什么OWASP Top 10是每个开发者和安全从业者的必修课在网络安全这个没有硝烟的战场上，攻击者每天都在寻找新的突破口，而防御者则必须时刻警惕那些最常见、最致命的威胁。如果你是一名Web开发者、运维工程师，或者刚刚…

2026/6/25 15:19:32阅读更多 →

免费领取各大平台通用8元现金券（附领取教程）

偶然发现可以领取千问新用户专属，口令：千问新用户专属860982领取了直接在卡包里能看见。很多地方都可以用。一分钟就能领取。操作还是非常简单的。

2026/6/25 15:19:32阅读更多 →

7个主流开源大模型中文实测：性能、部署与避坑指南

1. 项目概述：为什么这7个模型值得“封神实测”？最近两周，我把自己关在工作室里，把Kimi K2、GLM-5、DeepSeek-V3、Qwen3、Phi-4、Yi-Lightning、InternLM3这7个当前最活跃的开源大模型，从零开始完整跑了一遍。不是简单跑…

2026/6/25 15:19:31阅读更多 →

Apache Zeppelin CVE-2024-31861漏洞深度剖析与复现指南

1. 项目概述：一次对Apache Zeppelin命令执行漏洞的深度剖析最近在安全研究圈里，Apache Zeppelin的CVE-2024-31861漏洞讨论得挺热。这个漏洞本质上是一个未经身份验证的远程命令执行漏洞，攻击者可以利用它，在未授权的情况下&#x…

2026/6/25 15:14:30阅读更多 →

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM，WorkFlow，Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1）LLM2）Prompt3）Me…

2026/6/25 9:39:54阅读更多 →

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件：从原理到实战的深度解析在嵌入式系统开发中，图形用户界面（GUI）的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台，嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”，而是Google埋下的第一道技术门槛你看到标题里那个醒目的“$300美金”时，第一反应可能是：又一个免费额度？领完就完事？我亲手试过——这300美金根本不是红包，而是一张入场券&…

2026/6/25 9:01:34阅读更多 →

面试辅助工具横评：我试了5款AI面试工具，最后留下了OfferGo

上半年跳槽，面了十几家公司。说句实话，不是能力不行，是面试现场太容易崩了。明明准备了一周，面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。后来开始试市面上的AI面试辅助工具。前前后后装了5款，踩…

2026/6/25 11:52:11阅读更多 →

Claude Code 提示词设计：从塑造“人格”到建立“状态机”

当前 AI Agent 设计的核心痛点在于：大模型不缺写代码的能力，缺的是克制力、边界感和验证逻辑。Prompt 不再是用来塑造“人格”的，而是用来建立“状态机（State Machine）”和“行为门禁（Guardrails&#xff0…

2026/6/25 11:52:11阅读更多 →

MC-037 | 自定义 Skill 开发：创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发：创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列字数: 约 1400 字…

2026/6/25 11:52:11阅读更多 →