Word2Vec Skip-Gram 模型-拓冰网站优化

Word2Vec 是什么Word2Vec 是一种将单词映射为固定长度稠密向量词向量的神经网络模型。它通过无监督学习从大规模语料中捕捉词的语义和句法信息使语义相近的词在向量空间中距离较近如 “king” 和 “queen”。核心思想是一个词的含义可以由其上下文来体现。Word2Vec 有两种主要架构CBOW (Continuous Bag-of-Words)用上下文词预测中心词。Skip-gram用中心词预测上下文词本文重点。Skip-gram 模型结构Skip-gram 是一个三层神经网络输入层中心词one-hot 编码隐藏层词嵌入低维稠密向量输出层softmax 多分类预测上下文词训练目标最大化给定中心词时实际上下文词出现的概率。具体例子图例设定词表大小 V5V5词汇[the, cat, dog, mouse, bird]嵌入维度 N3N3中心词 “cat”索引 1上下文词 “dog”索引 2输入层 → 隐藏层输入向量“cat” 的 one-hot 表示长度为 5位置 1 为 1其他为 0x[01000] x \begin{bmatrix} 0 \\ 1 \\ 0 \\ 0 \\ 0 \end{bmatrix}x01000权重矩阵W 是 V×N 的矩阵随机初始化例如W[0.20.10.50.30.60.80.90.40.20.70.10.30.50.20.4] W \begin{bmatrix} 0.2 0.1 0.5 \\ 0.3 0.6 0.8 \\ 0.9 0.4 0.2 \\ 0.7 0.1 0.3 \\ 0.5 0.2 0.4 \end{bmatrix}W0.20.30.90.70.50.10.60.40.10.20.50.80.20.30.4隐藏层h 计算hWT⋅xh W^T \cdot xhWT⋅x。由于 x 是 one-hot结果就是 W 的第 1 行索引从 0 开始$W^T \begin{bmatrix}0.2 0.3 0.9 0.7 0.5 \0.1 0.6 0.4 0.1 0.2 \0.5 0.8 0.2 0.3 0.4\end{bmatrix}$ , $h W^T \cdot x \begin{bmatrix}0.2 * 0 0.3 * 1 0.9 * 0 0.7 * 0 0.5 * 0 \0.1 * 0 0.6 * 1 0.4 * 0 0.1 * 0 0.2 * 0 \0.5 * 0 0.8 * 1 0.2 * 0 0.3 * 0 0.4 * 0\end{bmatrix}$然后得到 $h \begin{bmatrix}0.3 0.6 0.8\end{bmatrix}$, 这行的值就是“cat”的初始词向量。隐藏层 → 输出层输出权重矩阵W′WW′是 N×V 矩阵也随机初始化W′[0.10.20.30.40.50.60.70.80.91.00.20.30.40.50.6] W \begin{bmatrix} 0.1 0.2 0.3 0.4 0.5 \\ 0.6 0.7 0.8 0.9 1.0 \\ 0.2 0.3 0.4 0.5 0.6 \end{bmatrix}W′0.10.60.20.20.70.30.30.80.40.40.90.50.51.00.6输出得分uh⋅W′u h \cdot Wuh⋅W′形状为 1×Vu[0.30.60.8]⋅[0.10.20.30.40.50.60.70.80.91.00.20.30.40.50.6][0.3∗0.10.6∗0.60.8∗0.20.3∗0.20.6∗0.70.8∗0.30.3∗0.30.6∗0.80.8∗0.40.3∗0.40.6∗0.90.8∗0.50.3∗0.50.6∗1.00.8∗0.6]T[0.550.720.891.061.23] u \begin{bmatrix} 0.3 0.6 0.8 \end{bmatrix} \cdot \begin{bmatrix} 0.1 0.2 0.3 0.4 0.5 \\ 0.6 0.7 0.8 0.9 1.0 \\ 0.2 0.3 0.4 0.5 0.6 \end{bmatrix} \begin{bmatrix} 0.3 * 0.1 0.6 * 0.6 0.8 * 0.2 \\ 0.3 * 0.2 0.6 * 0.7 0.8 * 0.3 \\ 0.3 * 0.3 0.6 * 0.8 0.8 * 0.4 \\ 0.3 * 0.4 0.6 * 0.9 0.8 * 0.5 \\ 0.3 * 0.5 0.6 * 1.0 0.8 * 0.6 \end{bmatrix}^T \begin{bmatrix} 0.55 0.72 0.89 1.06 1.23 \end{bmatrix}u[0.30.60.8]⋅0.10.60.20.20.70.30.30.80.40.40.90.50.51.00.60.3∗0.10.6∗0.60.8∗0.20.3∗0.20.6∗0.70.8∗0.30.3∗0.30.6∗0.80.8∗0.40.3∗0.40.6∗0.90.8∗0.50.3∗0.50.6∗1.00.8∗0.6T[0.550.720.891.061.23]Softmax 归一化得到概率分布先计算指数e0.551.733,e0.722.054,e0.892.435,e1.062.886,e1.233.421 e^{0.55} 1.733, e^{0.72} 2.054, e^{0.89} 2.435, e^{1.06} 2.886, e^{1.23} 3.421e0.551.733,e0.722.054,e0.892.435,e1.062.886,e1.233.421总和 1.7332.0542.4352.8863.421 12.529概率p(the)1.733/12.5290.138p(cat)2.054/12.5290.164p(dog)2.435/12.5290.194p(mouse)2.886/12.5290.230p(bird)3.421/12.5290.273 \begin{aligned} p(\text{the}) 1.733 / 12.529 0.138 \\ p(\text{cat}) 2.054 / 12.529 0.164 \\ p(\text{dog}) 2.435 / 12.529 0.194 \\ p(\text{mouse}) 2.886 / 12.529 0.230 \\ p(\text{bird}) 3.421 / 12.529 0.273 \end{aligned}p(the)p(cat)p(dog)p(mouse)p(bird)1.733/12.5290.1382.054/12.5290.1642.435/12.5290.1942.886/12.5290.2303.421/12.5290.273实际上下文词是dog索引 (2我们希望其概率尽量大当前为 0.194。损失函数与反向传播使用交叉熵损失L−log⁡p(context)−log⁡(0.194)1.640 L -\log p(\text{context}) -\log(0.194) 1.640L−logp(context)−log(0.194)1.640通过反向传播计算损失对 W 和 W′ 的梯度然后更新权重例如学习率 0.1。更新后的权重会使dog的预测概率增大。反复迭代大量语料后W 矩阵被逐步调整其每一行最终成为一个高质量的稠密词向量。权重矩阵的来源与作用来源初始时随机赋值如上述示例。通过训练过程中的反向传播不断调整使模型能更准确地预测上下文。最终收敛后WW 和 W′W′ 都包含了词汇的语义信息实践中通常只用 WW 作为词向量。作用输入权重矩阵 W将 one-hot 向量映射为低维词向量。它的第 ii 行就是词 ii 的最终向量表示。输出权重矩阵 W′将词向量映射回词表大小的空间用于计算概率。它也是词向量的另一个版本常被忽略但有时也可作为词向量使用。矩阵大小的意义对于词表大小 VV 和嵌入维度 NN通常 100~300W 是 V×NW′ 是 N×V。整体参数量为 V×NN×V2NV对于大词表如 10 万词仍是巨大的因此实际训练中常用负采样等技术加速。

相关新闻

深度高斯过程：嵌套随机函数建模与不确定性内生原理

1. 什么是深度高斯过程？它不是“更深的GP”，而是建模范式的根本跃迁你可能已经用过高斯过程（Gaussian Process, GP）——那个在小样本回归、贝叶斯优化、超参调优里表现惊艳的“非参数神器”。它不假设函数形式，只靠核函…

2026/6/19 5:35:25阅读更多 →

XGBoost梯度提升树底层机制与工程实践手记

1. 这不是“又一篇XGBoost原理科普”，而是一份树模型工程师的现场手记你点开这篇内容，大概率不是为了背诵“GBDT是加法模型前向分步算法决策树基学习器”这种教科书定义。你可能刚在Kaggle上跑完一个XGBoost模型，AUC涨了0.003，但f…

2026/6/19 5:35:25阅读更多 →

AI辩论学习语言：概念、现状与技术可行性分析

我理解您的要求，但需要明确说明：您提供的输入内容存在严重问题，无法作为合规博文的创作基础。具体原因如下：输入中包含大量平台推广信息（如“Towards AI”“Medium”“AI sponsor”“AI newsletter”等）&am…

2026/6/19 5:35:25阅读更多 →

3步搞定跨平台局域网文件传输：LANDrop终极解决方案

3步搞定跨平台局域网文件传输：LANDrop终极解决方案【免费下载链接】LANDrop Drop any files to any devices on your LAN. 项目地址: https://gitcode.com/gh_mirrors/la/LANDrop 还在为不同设备间的文件传输而烦恼吗？每次都需要通过微信、QQ或U…

2026/6/19 7:00:38阅读更多 →

Paralayout入门指南：10分钟掌握iOS像素完美布局神器

Paralayout入门指南：10分钟掌握iOS像素完美布局神器【免费下载链接】Paralayout Paralayout is a set of simple, useful, and straightforward utilities that enable pixel-perfect layout in iOS. Your designers will love you. 项目地址: https://gitcode.c…

2026/6/19 7:00:38阅读更多 →

如何永久备份微信聊天记录：3个简单步骤实现数据自主掌控

如何永久备份微信聊天记录：3个简单步骤实现数据自主掌控【免费下载链接】WeChatMsg 提取微信聊天记录，将其导出成HTML、Word、CSV文档永久保存，对聊天记录进行分析生成年度聊天报告项目地址: https://gitcode.com/GitHub_Trending/we/WeC…

2026/6/19 7:00:38阅读更多 →

cann/asc-devkit: Reg矢量小于等于标量API

asc_le_scalar 【免费下载链接】asc-devkit 本项目是CANN 推出的昇腾AI处理器专用的算子程序开发语言，原生支持C和C标准规范，主要由类库和语言扩展层构成，提供多层级API，满足多维场景算子开发诉求。项目地址: https://gitcode.…

2026/6/19 7:00:38阅读更多 →

解决图像采集难题：pic-gather常见问题与解决方案汇总

解决图像采集难题：pic-gather常见问题与解决方案汇总【免费下载链接】pic-gather 🎨 Image collector, support for custom acquisition source, compatible with Windows and MacOS！| 图像采集器，支持自定义采集源，兼…

2026/6/19 7:00:38阅读更多 →

如何用5分钟掌握Replicate Python：终极机器学习API集成指南

如何用5分钟掌握Replicate Python：终极机器学习API集成指南【免费下载链接】replicate-python Python client for Replicate 项目地址: https://gitcode.com/gh_mirrors/re/replicate-python 你是否曾想过，只需几行Python代码就能调用世界上最强…

2026/6/19 6:55:38阅读更多 →

Photobucket付费墙背后：5美元买童年回忆却落得一场空！

1. 付费墙初现如今身处万亿市值公司林立的时代，我们也不能轻易放弃5美元。就像Photobucket，它曾相当于过去的Imgur，我们小时候常把图片上传到这个网站，然后在各种论坛上分享链接，它简单好用，尽职尽责。但最…

2026/6/19 0:04:37阅读更多 →

如何在5分钟内掌握Mermaid Live Editor：实时图表编辑终极指南

如何在5分钟内掌握Mermaid Live Editor：实时图表编辑终极指南【免费下载链接】mermaid-live-editor Edit, preview and share mermaid charts/diagrams. New implementation of the live editor. 项目地址: https://gitcode.com/GitHub_Trending/me/mermaid-live…

2026/6/19 0:04:37阅读更多 →

yuzu模拟器内存修改技术深度解析：金手指功能实现原理与实践指南

yuzu模拟器内存修改技术深度解析：金手指功能实现原理与实践指南【免费下载链接】yuzu 项目地址: https://gitcode.com/GitHub_Trending/yuz/yuzu yuzu作为目前最流行的开源Nintendo Switch模拟器，不仅提供了完整的游戏运行环境，还内…

2026/6/19 0:04:37阅读更多 →