自媒体运用分析-作品特征构建
1 实验目的在实验7-1 清洗后的数据的基础上使用助睿ETL完成以下两类特征的计算与存储1标题特征与互动总数更新明细表计算互动总数total_interaction likes favorites shares coins提取5个标题特征标志字段has_best、has_lowcode、has_practice、has_tutorial、has_pit将计算结果更新到content_analysis表2关键词级别的汇总数据分别计算含每个关键词的作品的平均互动总数将互动汇总结果输出到title_feature_analysis表通过本实验学生应掌握理解特征工程在数据分析中的核心作用使用助睿ETL的“计算器”组件计算衍生指标使用“JavaScript代码”组件完成文本关键词的自动标注使用“插入/更新”组件回填数据不新建表、不覆盖已有基础数据使用“过滤聚合”组件组合完成分组统计计算2 实验环境实验平台助睿在线实验平台 https://lab.guilian.cn/本次实验使用助睿数智Uniplore 作为一站式数据科学平台。该平台覆盖从数据接入、ETL处理、机器学习建模到可视化展示的全链路零代码功能适用于数据分析教学与企业数据加工场景。助睿数智官网为 https://www.uniplore.com//数据处理工具助睿ETL数据集成平台助睿ETL核心优势全元数据驱动架构平台内所有对象类型均通过元数据标准化定义覆盖数据读取、处理、写入的全流程零代码拖拽式操作通过可视化方式完成数据的抽取Extract、转换Transform、加载Load无需编写复杂代码丰富的预处理组件内置筛选、填充、聚合、连接、字段选择等多种转换节点灵活应对各类数据清洗场景Pipeline转换机制面向数据流通处理的核心功能单元由多个不同功能的Transform步骤组合构成聚焦数据本身的加工转换操作开源内核高可用引擎基于开源内核的高可用引擎架构通过标准化插件体系可灵活扩展引擎能力本次实验使用的核心组件组件用途表输入读取content_analysis表中待处理的数据计算器计算互动总数likes favorites shares coinsJavaScript代码提取标题中的5个关键词特征标志插入/更新按id匹配更新content_analysis表中的特征字段过滤记录 聚合分别统计整体平均值和每个关键词的平均值增加常量为每个关键词分支添加名称标识合并记录将5个关键词的统计结果合并为5行表输出将互动数据汇总写入title_feature_analysis表3 核心设计思路本次实验构建两类特征并将数据更新到实验7-1 的content_analysis表中互动总数likes favorites shares coins反映作品的用户互动规模绝对值标题特征把标题中是否包含特定关键词提取为0/1标志字段后续量化对比这些词的实际效果数据处理流程4 实验步骤4.1 更新 content_analysis 表标题特征互动总数步骤1导入数据将实验7-1输出的content_analysis表作为输入拖入助睿ETL工作区。助睿ETL支持跨项目引用数据集可直接选择实验一输出的结果表。步骤2提取标题特征核心分析维度在JavaScript代码组件中可以直接使用JJavaScript代码对title字段进行关键词匹配生成5个标题特征标志字段。var title title; // 字段名直接作为变量使用 // 判断关键词 var has_best title.indexOf(保姆级) ! -1 ? 1 : 0; var has_lowcode title.indexOf(零代码) ! -1 ? 1 : 0; var has_practice title.indexOf(实战) ! -1 ? 1 : 0; var has_tutorial (title.indexOf(教程) ! -1 || title.indexOf(指南) ! -1) ? 1 : 0; var has_pit title.indexOf(踩坑) ! -1 ? 1 : 0; // 将结果赋值给新字段输出字段需在字段表中提前定义 has_best has_best; has_lowcode has_lowcode; has_practice has_practice; has_tutorial has_tutorial; has_pit has_pit;返回值说明字段返回值条件has_best1 / 0title中含保姆级为1否则为0has_lowcode1 / 0title中含零代码为1否则为0has_practice1 / 0title中含实战为1否则为0has_tutorial1 / 0title中含教程或指南为1否则为0has_pit1 / 0title中含踩坑为1否则为0设计思路这五个关键词在数据中高频出现且与“教学价值”“实操性”强相关是分析标题影响力的理想切入点。每个特征独立提取便于在BI中做分组对比。步骤3计算互动总数接入“计算器”组件新增interactions 字段interactions likes favorites shares coins步骤4数据更新使用“插入/更新”组件将计算好的特征数据回填到content_analysis表关键配置配置项设置目标表content_analysis查询关键字id匹配依据更新字段total_interaction, has_best, has_lowcode, has_practice, has_tutorial, has_pit字段映射流字段表字段ididinteractionstotal_interactionhas_besthas_besthas_lowcodehas_lowcodehas_practicehas_practicehas_tutorialhas_tutorialhas_pithas_pit“插入/更新” vs “表输出”的区别如果使用“表输出”每次运行都会新增行导致数据重复。“插入/更新”按id匹配如果id已存在则更新指定字段如果不存在才插入新行本例中id一定存在所以只做更新不新增行。这样本实验可以反复运行不会产生重复数据。步骤5执行转换流完整转换流如下点击运行数据结果4.2 输出关键词级别的汇总表步骤1创建目标表在助睿ETL中创建以下目标表用来存储本节最后输出的数据字段类型说明idINT自增主键platformVARCHAR(20)平台B站/CSDNfeature_nameVARCHAR(50)关键词名称avg_interactionDECIMAL(10,2)含该关键词的平均互动总数overall_avgDECIMAL(10,2)该平台整体平均互动总数sample_countINT含该关键词的作品数步骤2计算整体平均互动数接入“排序记录”、“分组”组件按id升序排序不设分组条件直接计算AVG(total_interaction)得到overall_avg。聚合完成后接入“增加常量”组件新增字段feature_name 保姆级为这一行数据贴上名称标签以便用于后续与关键词数据连接。步骤3计算关键词的平均互动数以“保姆级”为例表输入组件复制分发另一条分支先接“过滤记录”组件设置has_best 1只保留含“保姆级”的作品。然后接入“排序记录”、“分组”组件按id升序排序计算AVG(total_interaction)得到avg_interactionCOUNT(id)得到sample_count。聚合完成后接入“增加常量”组件新增字段feature_name 保姆级为这一行数据贴上名称标签。为什么要加这个常量因为聚合后的数据只有数值没有关键词名称。如果不加5个分支的数据合并后无法区分谁是谁。常量就是给每一行贴上一个“标签”告诉下游“这一行是保姆级的数据”。步骤4合并整体平均值和关键词平均值接下来将整体平均值和关键词平均值进行合并使用“记录集连接”组件匹配字段为feature_name由于2个分支都只有1行数据所以无需排序。步骤5数据入库用”表输出”组件将合并后的数据入库这里需要注意不勾选“裁剪表”因为还有其他关键词数据也要入库不用删除已有数据。步骤6执行转换流一个关键词的互动汇总数据加工转换流如下点击运行查看数据接下来加工其他关键词的数据复制粘贴整个分支然后只修改两处过滤条件如has_lowcode 1和常量值如零代码。其他组件配置完全相同。最后的完整数据情况如下5 实验输出输出表数据粒度用途content_analysis更新作品级排名、趋势、概况等明细分析title_feature_analysis新建关键词级标题特征互动分析

相关新闻

Jeepay开源支付系统深度解析:企业级分布式架构设计与生产部署最佳实践

Jeepay开源支付系统深度解析:企业级分布式架构设计与生产部署最佳实践

Jeepay开源支付系统深度解析:企业级分布式架构设计与生产部署最佳实践 【免费下载链接】jeepay Jeepay是一套适合互联网企业使用的开源支付系统,支持多渠道服务商和普通商户模式。已对接微信支付,支付宝,云闪付官方接口&#xff0…

2026/7/6 4:19:22阅读更多 →
AI生成GitHub小黑风格插画:从提示词工程到批量生产

AI生成GitHub小黑风格插画:从提示词工程到批量生产

🚀 30款热门AI模型一站整合,DeepSeek/GLM/Qwen 随心用,限时 5 折。 👉 点击领海量免费额度 最近在 GitHub 上看到一组非常火的小黑插画,风格简约又带点酷酷的趣味,很多开发者都把它用作头像或者项目 REA…

2026/7/6 4:19:22阅读更多 →
费马小定理实战: RSA 预备题的完整解析

费马小定理实战: RSA 预备题的完整解析

在密码学的学习过程中,费马小定理(Fermat’s Little Theorem)是一个极其重要的基础工具,尤其在 RSA 加密算法的理解和证明中扮演核心角色。本文将通过一道实际题目,展示如何利用该定理快速求解一个看似复杂的大指数模运…

2026/7/6 4:19:22阅读更多 →
英雄联盟终极指南:如何用League-Toolkit提升你的游戏体验

英雄联盟终极指南:如何用League-Toolkit提升你的游戏体验

英雄联盟终极指南:如何用League-Toolkit提升你的游戏体验 【免费下载链接】League-Toolkit An all-in-one toolkit for LeagueClient. Gathering power 🚀. 项目地址: https://gitcode.com/gh_mirrors/le/League-Toolkit 你是否厌倦了在英雄联盟中…

2026/7/6 5:29:26阅读更多 →
5分钟掌握音乐解锁:让加密音频重获播放自由的终极方案

5分钟掌握音乐解锁:让加密音频重获播放自由的终极方案

5分钟掌握音乐解锁:让加密音频重获播放自由的终极方案 【免费下载链接】unlock-music 在浏览器中解锁加密的音乐文件。原仓库: 1. https://github.com/unlock-music/unlock-music ;2. https://git.unlock-music.dev/um/web 项目地址: https…

2026/7/6 5:29:26阅读更多 →
电子墨水屏启动器:为你的电纸书打造简洁高效的Android桌面

电子墨水屏启动器:为你的电纸书打造简洁高效的Android桌面

电子墨水屏启动器:为你的电纸书打造简洁高效的Android桌面 【免费下载链接】E-Ink-Launcher E-reader Launcher for Android, Electronic paper book... 项目地址: https://gitcode.com/gh_mirrors/ei/E-Ink-Launcher 你是否觉得电纸书上的原生Android界面太…

2026/7/6 5:29:26阅读更多 →
音乐歌词批量获取神器:163MusicLyrics完整使用指南

音乐歌词批量获取神器:163MusicLyrics完整使用指南

音乐歌词批量获取神器:163MusicLyrics完整使用指南 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为音乐播放器缺少歌词而烦恼吗?想要一次性…

2026/7/6 5:29:26阅读更多 →
音乐歌词批量处理神器:163MusicLyrics完整使用指南

音乐歌词批量处理神器:163MusicLyrics完整使用指南

音乐歌词批量处理神器:163MusicLyrics完整使用指南 【免费下载链接】163MusicLyrics 云音乐歌词获取处理工具【网易云、QQ音乐】 项目地址: https://gitcode.com/GitHub_Trending/16/163MusicLyrics 还在为音乐播放器缺少歌词而烦恼吗?想要一次性…

2026/7/6 5:29:26阅读更多 →
APK安装器完全手册:Windows安卓应用安装终极指南

APK安装器完全手册:Windows安卓应用安装终极指南

APK安装器完全手册:Windows安卓应用安装终极指南 【免费下载链接】APK-Installer An Android Application Installer for Windows 项目地址: https://gitcode.com/GitHub_Trending/ap/APK-Installer 在Windows电脑上直接运行安卓应用,告别笨重模拟…

2026/7/6 5:24:26阅读更多 →
从GitHub安全案例解析常见漏洞与防护实践

从GitHub安全案例解析常见漏洞与防护实践

1. 项目概述:从GitHub Trending看安全实战 最近在GitHub Trending上看到一个项目,叫 skills4/skills ,它因为一些安全漏洞案例被大家讨论。这其实是一个挺典型的场景:一个旨在展示或教授某种技能的仓库,本身却成了安…

2026/7/6 4:26:20阅读更多 →
MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

MLT 2026启示:因果推理与概率建模驱动下一代LLM应用

# MLT 2026启示:因果推理与概率建模驱动下一代LLM应用## 一、背景与挑战:从“黑箱预测”到“可信推理”2026年6月,第7届机器学习与趋势国际会议(MLT 2026)将在悉尼召开。会议议程中,“因果与可解释机器学习…

2026/7/6 2:48:33阅读更多 →
通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

通达OA SQL注入漏洞深度剖析:从手工注入到自动化利用与防御

1. 项目概述与漏洞背景最近在梳理一些历史OA系统的安全风险时,通达OA v11.6版本中的一个老漏洞又进入了我的视线。这个漏洞位于/general/bi_design/appcenter/report_bi.func.php文件中,是一个典型的SQL注入点。虽然这个漏洞的利用方式看起来并不复杂&am…

2026/7/6 0:10:35阅读更多 →
Seraphine:基于LCU API的英雄联盟智能游戏助手技术解析与应用指南

Seraphine:基于LCU API的英雄联盟智能游戏助手技术解析与应用指南

Seraphine:基于LCU API的英雄联盟智能游戏助手技术解析与应用指南 【免费下载链接】Seraphine 英雄联盟战绩查询工具 项目地址: https://gitcode.com/gh_mirrors/se/Seraphine 技术架构先行:官方接口的合规应用 你是否曾在BP阶段手忙脚乱&#x…

2026/7/6 0:03:39阅读更多 →
多协议远程连接管理工具mRemoteNG:告别混乱,统一你的远程桌面管理

多协议远程连接管理工具mRemoteNG:告别混乱,统一你的远程桌面管理

多协议远程连接管理工具mRemoteNG:告别混乱,统一你的远程桌面管理 【免费下载链接】mRemoteNG mRemoteNG is the next generation of mRemote, open source, tabbed, multi-protocol, remote connections manager. 项目地址: https://gitcode.com/gh_m…

2026/7/6 0:03:39阅读更多 →
COUNT(DISTINCT) 与 GROUP BY 去重统计:5 亿数据量下的性能实测与选型指南

COUNT(DISTINCT) 与 GROUP BY 去重统计:5 亿数据量下的性能实测与选型指南

COUNT(DISTINCT) 与 GROUP BY 去重统计:5 亿数据量下的性能实测与选型指南在数据分析和处理领域,去重统计是最基础也是最频繁使用的操作之一。当数据量达到亿级规模时,不同的去重统计方法在性能上可能产生天壤之别。本文将基于 5 亿行数据的实…

2026/7/6 0:03:39阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/6 4:45:01阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/6 4:45:01阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/6 4:45:03阅读更多 →