Token(词元),5分钟彻底搞懂
如果你习惯看视频就看《4. Token(词元)看会动画敲下代码就彻底搞懂了》喜欢看文章就接着往下看。Token的优化过程如下大模型单次调用的总消耗 Token 由两部分组成总消耗 Token 输入 Token 输出 Token。其中输入 Token 的构成更为细致包括当前用户提问 Token、系统提示词 Token、历史对话上下文 Token以及消息格式开销 Token。需要注意的是Token 的实际切分由各模型厂商自研的 Tokenizer分词器独立完成因此相同文本在不同模型上会产生不同的 Token 数量与序列。以上提及的换算比例等数据均为行业通用估算参考。下面通过代码实战带你彻底搞懂。首先打开命令行窗口使用 pip 命令安装 transformers和PyTorch 开发库。pip install transformers torch安装完成后我们便可以借助 transformers 库加载主流的分词器直观地观察文本到 Token 的切分过程。以下是具体代码示例# 首先从 transformers 库中导入 AutoTokenizer 类它能自动适配不同大模型的分词规则 from transformers import AutoTokenizer # 接着从预训练权重加载 Qwen2 模型的分词器 # 注意 Qwen2_tokenizer是下载到本地自命名的分词器 下载地址见文章最后链接 tokenizer AutoTokenizer.from_pretrained(Qwen2_tokenizer) # 定义待处理的输入文本 text 你好我是cool。 # --------------------------------------------------------- # 第1步分词 (Tokenization) # --------------------------------------------------------- # 使用 BPE算法将文本切分为“子词单元” # 规则是常见词为1个Token复杂词会拆开标点也算Token。 bpe_codes tokenizer.tokenize(text) # 先打印出来看一下结果 print(bpe_codes) # 为了让分词结果可读需要做一下处理 decoded_result [] for bpe_code in bpe_codes: # 先将子词转换为模型词汇表中的ID id tokenizer.convert_tokens_to_ids(bpe_code) # 再将单个ID解码回文本并将结果存起来 decoded tokenizer.decode([id]) decoded_result.append(decoded) # 输出最终的分词列表 print(分词结果, decoded_result) # --------------------------------------------------------- # 第2步向量化 (Numericalization) # --------------------------------------------------------- # 将字符串形式的 Token 列表转换为模型能处理的整数 ID 列表 # 这是大模型的“输入语言”模型只认识数字不认识文字 token_ids tokenizer.convert_tokens_to_ids(bpe_codes) print(向量ID, token_ids) # --------------------------------------------------------- # 第3步统计 Token 数量 # --------------------------------------------------------- # 计算 Token 总数 count len(token_ids) print(Token总数, count) # 将 ID 列表完整解码回原始文本

相关新闻

认知篇:正视焦虑,看清趋势(2)——项目的流程分工

认知篇:正视焦虑,看清趋势(2)——项目的流程分工

这六个环节,是软件/互联网行业最标准的项目全生命周期(从获客到交付运维)。下面我帮你把每个环节的具体工作内容,以及对应的负责人/岗位分工拆解清楚。 可以简单理解为:销售挖坑,产品画饼,开发填…

2026/6/25 13:58:10阅读更多 →
ComfyUI-Impact-Pack终极指南:从入门到精通的5大核心功能详解

ComfyUI-Impact-Pack终极指南:从入门到精通的5大核心功能详解

ComfyUI-Impact-Pack终极指南:从入门到精通的5大核心功能详解 【免费下载链接】ComfyUI-Impact-Pack Custom nodes pack for ComfyUI This custom node helps to conveniently enhance images through Detector, Detailer, Upscaler, Pipe, and more. 项目地址: h…

2026/6/25 13:58:10阅读更多 →
神经免疫:CNS 三大顶刊接连刊发重磅研究

神经免疫:CNS 三大顶刊接连刊发重磅研究

神经与免疫的交叉前沿正持续产出颠覆性发现,学科边界的融合不断刷新着学界对疾病机制的认知。近期,Cell、Nature、Science 三大顶级期刊相继发表多项神经免疫领域核心成果,从全新分子机制到创新治疗策略,为理解神经 - 免疫互作规律…

2026/6/25 13:58:10阅读更多 →
DeepSeek-R1 技术解析(四):实验数据全景——R1 到底强在哪,弱在哪

DeepSeek-R1 技术解析(四):实验数据全景——R1 到底强在哪,弱在哪

先看清楚对手是谁 论文在多个基准上做了系统对比,比较对象包括: DeepSeek-V3:自家的非推理型模型,671B MoEGPT-4o (2024-05-13):OpenAI 的非推理型旗舰Claude-3.5-Sonnet (2024-10-22):Anthropic 的非推理型…

2026/6/25 15:19:32阅读更多 →
如何精准匹配ML博士项目:从课程体系、导师共识到资金保障的实操指南

如何精准匹配ML博士项目:从课程体系、导师共识到资金保障的实操指南

1. 这不是排名榜,而是一份“博士申请实操手记”:我如何用三年时间摸清ML博士项目的底层逻辑你点开这篇文章,大概率正站在人生一个关键岔路口:手握几封强推、GPA 3.7、有两段扎实的科研实习,但面对几十所顶尖高校的Ph.D…

2026/6/25 15:19:32阅读更多 →
OWASP Top 10核心漏洞深度解析:从原理到实战攻防与自动化检测

OWASP Top 10核心漏洞深度解析:从原理到实战攻防与自动化检测

1. 项目概述:为什么OWASP Top 10是每个开发者和安全从业者的必修课 在网络安全这个没有硝烟的战场上,攻击者每天都在寻找新的突破口,而防御者则必须时刻警惕那些最常见、最致命的威胁。如果你是一名Web开发者、运维工程师,或者刚刚…

2026/6/25 15:19:32阅读更多 →
免费领取各大平台通用8元现金券(附领取教程)

免费领取各大平台通用8元现金券(附领取教程)

偶然发现可以领取千问新用户专属,口令:千问新用户专属860982领取了直接在卡包里能看见。很多地方都可以用。一分钟就能领取。操作还是非常简单的。

2026/6/25 15:19:32阅读更多 →
7个主流开源大模型中文实测:性能、部署与避坑指南

7个主流开源大模型中文实测:性能、部署与避坑指南

1. 项目概述:为什么这7个模型值得“封神实测”?最近两周,我把自己关在工作室里,把Kimi K2、GLM-5、DeepSeek-V3、Qwen3、Phi-4、Yi-Lightning、InternLM3这7个当前最活跃的开源大模型,从零开始完整跑了一遍。不是简单跑…

2026/6/25 15:19:31阅读更多 →
Apache Zeppelin CVE-2024-31861漏洞深度剖析与复现指南

Apache Zeppelin CVE-2024-31861漏洞深度剖析与复现指南

1. 项目概述:一次对Apache Zeppelin命令执行漏洞的深度剖析最近在安全研究圈里,Apache Zeppelin的CVE-2024-31861漏洞讨论得挺热。这个漏洞本质上是一个未经身份验证的远程命令执行漏洞,攻击者可以利用它,在未授权的情况下&#x…

2026/6/25 15:14:30阅读更多 →
【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体

【人工智能】一文搞定到底什么是智能体 一文搞定到底什么是智能体【人工智能】一文搞定到底什么是智能体一. LM,WorkFlow,Agent分别有什么么不同二. Agent的思考过程是怎样的三. Agent的五个核心部分1)LLM2)Prompt3)Me…

2026/6/25 9:39:54阅读更多 →
嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

嵌入式GUI控件实战:ROTARY、SCROLLBAR、SLIDER原理与应用

1. 嵌入式GUI控件:从原理到实战的深度解析在嵌入式系统开发中,图形用户界面(GUI)的设计与实现往往是项目从“能用”到“好用”的关键一跃。不同于资源充沛的PC或移动平台,嵌入式设备的GUI需要在有限的CPU性能、内存空间…

2026/6/25 2:52:24阅读更多 →
Google AI Studio 300美元额度的真相与实战指南

Google AI Studio 300美元额度的真相与实战指南

1. 这300美金不是“送钱”,而是Google埋下的第一道技术门槛 你看到标题里那个醒目的“$300美金”时,第一反应可能是:又一个免费额度?领完就完事?我亲手试过——这300美金根本不是红包,而是一张入场券&…

2026/6/25 9:01:34阅读更多 →
面试辅助工具横评:我试了5款AI面试工具,最后留下了OfferGo

面试辅助工具横评:我试了5款AI面试工具,最后留下了OfferGo

上半年跳槽,面了十几家公司。说句实话,不是能力不行,是面试现场太容易崩了。 明明准备了一周,面试官换个问法脑子就一片白。面完之后那个懊悔——其实我会的。 后来开始试市面上的AI面试辅助工具。前前后后装了5款,踩…

2026/6/25 11:52:11阅读更多 →
Claude Code 提示词设计:从塑造“人格”到建立“状态机”

Claude Code 提示词设计:从塑造“人格”到建立“状态机”

当前 AI Agent 设计的核心痛点在于:大模型不缺写代码的能力,缺的是克制力、边界感和验证逻辑。Prompt 不再是用来塑造“人格”的,而是用来建立“状态机(State Machine)”和“行为门禁(Guardrails&#xff0…

2026/6/25 11:52:11阅读更多 →
MC-037 | 自定义 Skill 开发:创建你的AI能力模块

MC-037 | 自定义 Skill 开发:创建你的AI能力模块

MONKEYCODE 教程系列 MonkeyCode教程及推广系列 MC-037 自定义 Skill 开发:创建你的AI能力模块 >官网链接注册更放心哦https://monkeycode-ai.com/?ic019e0aed-c823-783c-b08a-4f030f891e4e 系列: 不爱土豆唯爱马铃薯 MonkeyCode 教程系列 字数: 约 1400 字…

2026/6/25 11:52:11阅读更多 →