毕业设计 大数据电商用户行为分析及可视化(源码+论文)
文章目录0 简介1. 数据集说明2. 数据处理2.1 数据导入2.2 数据清洗3.数据分析可视化3.1 用户流量及购物情况3.2 用户行为转换率3.3 用户行为习惯3.4 基于 RFM 模型找出有价值的用户3.5 商品维度的分析0 简介今天学长向大家介绍一个机器视觉的毕设项目大数据电商用户行为分析及可视化(源码论文)项目运行效果毕业设计 基于大数据淘宝用户行为分析项目分享见主页任意置顶文章1. 数据集说明这是一份来自淘宝的用户行为数据时间区间为 2017-11-25 到 2017-12-03总计 100,150,807 条记录大小为 3.5 G包含 5 个字段。2. 数据处理2.1 数据导入将数据加载到 hive, 然后通过 hive 对数据进行数据处理。-- 建表droptableifexistsuser_behavior;createtableuser_behavior(user_idstringcomment用户ID,item_idstringcomment商品ID,category_idstringcomment商品类目ID,behavior_typestringcomment行为类型枚举类型包括(pv, buy, cart, fav),timestampintcomment行为时间戳,datetimestringcomment行为时间)rowformat delimitedfieldsterminatedby,linesterminatedby\n;-- 加载数据LOADDATALOCALINPATH/home/getway/UserBehavior.csvOVERWRITEINTOTABLEuser_behavior;2.2 数据清洗数据处理主要包括删除重复值时间戳格式化删除异常值。--数据清洗去掉完全重复的数据insertoverwritetableuser_behaviorselectuser_id,item_id,category_id,behavior_type,timestamp,datetimefromuser_behaviorgroupbyuser_id,item_id,category_id,behavior_type,timestamp,datetime;--数据清洗时间戳格式化成 datetimeinsertoverwritetableuser_behaviorselectuser_id,item_id,category_id,behavior_type,timestamp,from_unixtime(timestamp,yyyy-MM-dd HH:mm:ss)fromuser_behavior;--查看时间是否有异常值selectdate(datetime)asdayfromuser_behaviorgroupbydate(datetime)orderbyday;--数据清洗去掉时间异常的数据insertoverwritetableuser_behaviorselectuser_id,item_id,category_id,behavior_type,timestamp,datetimefromuser_behaviorwherecast(datetimeasdate)between2017-11-25and2017-12-03;--查看 behavior_type 是否有异常值selectbehavior_typefromuser_behaviorgroupbybehavior_type;3.数据分析可视化3.1 用户流量及购物情况--总访问量PV总用户量UVselectsum(casewhenbehavior_typepvthen1else0end)aspv,count(distinctuser_id)asuvfromuser_behavior;--日均访问量日均用户量selectcast(datetimeasdate)asday,sum(casewhenbehavior_typepvthen1else0end)aspv,count(distinctuser_id)asuvfromuser_behaviorgroupbycast(datetimeasdate)orderbyday;--每个用户的购物情况加工到 user_behavior_countcreatetableuser_behavior_countasselectuser_id,sum(casewhenbehavior_typepvthen1else0end)aspv,--点击数sum(casewhenbehavior_typefavthen1else0end)asfav,--收藏数sum(casewhenbehavior_typecartthen1else0end)ascart,--加购物车数sum(casewhenbehavior_typebuythen1else0end)asbuy--购买数fromuser_behaviorgroupbyuser_id;--复购率产生两次或两次以上购买的用户占购买用户的比例selectsum(casewhenbuy1then1else0end)/sum(casewhenbuy0then1else0end)fromuser_behavior_count;小结2017-11-25 到 2017-12-03 这段时间PV 总数为 89,660,671 UV 总数为 987,991。从日均访问量趋势来看进入 12 月份之后有一个比较明显的增长猜测可能是因为临近双 12 电商活动引流产生另外2017-12-02 和 2017-12-03 刚好是周末也可能是周末的用户活跃度本来就比平常高。总体的复购率为 66.01%说明用户的忠诚度比较高。3.2 用户行为转换率--点击/(加购物车收藏)/购买 , 各环节转化率selecta.pv,a.fav,a.cart,a.fava.cartasfavcart,a.buy,round((a.fava.cart)/a.pv,4)aspv2favcart,round(a.buy/(a.fava.cart),4)asfavcart2buy,round(a.buy/a.pv,4)aspv2buyfrom(selectsum(pv)aspv,--点击数sum(fav)asfav,--收藏数sum(cart)ascart,--加购物车数sum(buy)asbuy--购买数fromuser_behavior_count)asa;小结2017-11-25 到 2017-12-03 这段时间点击数为 89,660,671 收藏数为 2,888,258加购物车数为5,530,446购买数为 2,015,807。总体的转化率为 2.25%这个值可能是比较低的从加到购物车数来看有可能部分用户是准备等到电商节日活动才进行购买。所以合理推断一般电商节前一段时间的转化率会比平常低。3.3 用户行为习惯-- 一天的活跃时段分布selecthour(datetime)ashour,sum(casewhenbehavior_typepvthen1else0end)aspv,--点击数sum(casewhenbehavior_typefavthen1else0end)asfav,--收藏数sum(casewhenbehavior_typecartthen1else0end)ascart,--加购物车数sum(casewhenbehavior_typebuythen1else0end)asbuy--购买数fromuser_behaviorgroupbyhour(datetime)orderbyhour;--一周用户的活跃分布selectpmod(datediff(datetime,1920-01-01)-3,7)asweekday,sum(casewhenbehavior_typepvthen1else0end)aspv,--点击数sum(casewhenbehavior_typefavthen1else0end)asfav,--收藏数sum(casewhenbehavior_typecartthen1else0end)ascart,--加购物车数sum(casewhenbehavior_typebuythen1else0end)asbuy--购买数fromuser_behaviorwheredate(datetime)between2017-11-27and2017-12-03groupbypmod(datediff(datetime,1920-01-01)-3,7)orderbyweekday;小结晚上21点-22点之间是用户一天中最活跃的时候凌晨 4 点则是活跃度最低的时候。一周中工作日活跃度都差不多到了周末活跃度有明显提高。3.4 基于 RFM 模型找出有价值的用户RFM 模型是衡量客户价值和客户创利能力的重要工具和手段其中由3个要素构成了数据分析最好的指标分别是R-Recency最近一次购买时间F-Frequency消费频率M-Money消费金额--R-Recency最近一次购买时间, R值越高一般说明用户比较活跃selectuser_id,datediff(2017-12-04,max(datetime))asR,dense_rank()over(orderbydatediff(2017-12-04,max(datetime)))asR_rankfromuser_behaviorwherebehavior_typebuygroupbyuser_idlimit10;--F-Frequency消费频率, F值越高说明用户越忠诚selectuser_id,count(1)asF,dense_rank()over(orderbycount(1)desc)asF_rankfromuser_behaviorwherebehavior_typebuygroupbyuser_idlimit10;--M-Money消费金额数据集无金额所以就不分析这一项对有购买行为的用户按照排名进行分组共划分为5组前 - 1/5 的用户打5分前 1/5 - 2/5 的用户打4分前 2/5 - 3/5 的用户打3分前 3/5 - 4/5 的用户打2分前 4/5 - 的用户打1分按照这个规则分别对用户时间间隔排名打分和购买频率排名打分最后把两个分数合并在一起作为该名用户的最终评分withcteas(selectuser_id,datediff(2017-12-04,max(datetime))asR,dense_rank()over(orderbydatediff(2017-12-04,max(datetime)))asR_rank,count(1)asF,dense_rank()over(orderbycount(1)desc)asF_rankfromuser_behaviorwherebehavior_typebuygroupbyuser_id)selectuser_id,R,R_rank,R_score,F,F_rank,F_score,R_scoreF_scoreASscorefrom(select*,casentile(5)over(orderbyR_rank)when1then5when2then4when3then3when4then2when5then1endasR_score,casentile(5)over(orderbyF_rank)when1then5when2then4when3then3when4then2when5then1endasF_scorefromcte)asaorderbyscoredesclimit20;小结可以根据用户的价值得分进行个性化的营销推荐。3.5 商品维度的分析--销量最高的商品selectitem_id,sum(casewhenbehavior_typepvthen1else0end)aspv,--点击数sum(casewhenbehavior_typefavthen1else0end)asfav,--收藏数sum(casewhenbehavior_typecartthen1else0end)ascart,--加购物车数sum(casewhenbehavior_typebuythen1else0end)asbuy--购买数fromuser_behaviorgroupbyitem_idorderbybuydesclimit10;--销量最高的商品大类selectcategory_id,sum(casewhenbehavior_typepvthen1else0end)aspv,--点击数sum(casewhenbehavior_typefavthen1else0end)asfav,--收藏数sum(casewhenbehavior_typecartthen1else0end)ascart,--加购物车数sum(casewhenbehavior_typebuythen1else0end)asbuy--购买数fromuser_behaviorgroupbycategory_idorderbybuydesclimit10;小结缺失商品维表所以没有太多分析价值。假如有商品维表可以再展开以商品纬度进行分析比如不同行业、不同产品的转化率还有竞品分析等等。项目运行效果毕业设计 基于大数据淘宝用户行为分析项目分享见主页任意置顶文章详细分析文档

相关新闻

版权保护知多少|守护创意,从尊重开始

版权保护知多少|守护创意,从尊重开始

每一份作品背后,都藏着创作者的心血与热爱。 尊重劳动、保护创新,是我们共同的底线,也是共同的使命。关于版权保护,你了解多少? 今天,我们一起把“版权”这件事说清楚👇📖 什么是版权…

2026/7/1 18:31:33阅读更多 →
GESP4级C++考试语法知识(二、指针与数组(3、二维数组与指针)

GESP4级C++考试语法知识(二、指针与数组(3、二维数组与指针)

第三课 《两层小火车站——二维数组与指针》🎯 本章学习目标学完本章,同学们能够:✅ 理解二维数组为什么也是连续存放✅ 理解二维数组名字表示什么✅ 理解为什么 map 表示第一行✅ 理解 map1✅ 理解 *(map1)✅ 理解map[i][j]为什么可以写成*(…

2026/7/1 18:26:32阅读更多 →
KMR221与PIC18F86J55高精度电压监测系统设计

KMR221与PIC18F86J55高精度电压监测系统设计

1. 项目概述:指尖上的电压管理方案在嵌入式系统开发中,电压管理一直是个既基础又关键的技术痛点。我最近用KMR221电压检测芯片搭配PIC18F86J55微控制器,搭建了一套高精度电压监测系统,实测误差控制在0.5%以内。这个方案特别适合需…

2026/7/1 18:26:32阅读更多 →
openEuler环境健康检查工具:企业级部署与运维实践指南

openEuler环境健康检查工具:企业级部署与运维实践指南

openEuler环境健康检查工具:企业级部署与运维实践指南 【免费下载链接】env_check A tool for "health checking" after operating system upgrade 项目地址: https://gitcode.com/openeuler/env_check 前往项目官网免费下载:https://a…

2026/7/1 19:51:44阅读更多 →
openEuler sync-bot Service 实战:Webhook 监听与自动化同步流程

openEuler sync-bot Service 实战:Webhook 监听与自动化同步流程

openEuler sync-bot Service 实战:Webhook 监听与自动化同步流程 【免费下载链接】sync-bot A tool for handling synchronization between branches 项目地址: https://gitcode.com/openeuler/sync-bot 前往项目官网免费下载:https://ar.openeul…

2026/7/1 19:51:44阅读更多 →
utwget核心功能揭秘:断点续传、递归下载与SSL安全实现

utwget核心功能揭秘:断点续传、递归下载与SSL安全实现

utwget核心功能揭秘:断点续传、递归下载与SSL安全实现 【免费下载链接】utwget utwget is a refactoring of wget. 项目地址: https://gitcode.com/openeuler/utwget 前往项目官网免费下载:https://ar.openeuler.org/ar/ utwget 是一个功能强大的…

2026/7/1 19:51:44阅读更多 →
X-diagnosis内核锁检测工具:rtnl_mutex死锁定位与解决方案终极指南

X-diagnosis内核锁检测工具:rtnl_mutex死锁定位与解决方案终极指南

X-diagnosis内核锁检测工具:rtnl_mutex死锁定位与解决方案终极指南 【免费下载链接】X-diagnosis OS debug toolkit 项目地址: https://gitcode.com/openeuler/X-diagnosis 前往项目官网免费下载:https://ar.openeuler.org/ar/ 在Linux系统运维和…

2026/7/1 19:51:44阅读更多 →
BetterNCM安装器完整指南:三步解锁网易云音乐隐藏功能

BetterNCM安装器完整指南:三步解锁网易云音乐隐藏功能

BetterNCM安装器完整指南:三步解锁网易云音乐隐藏功能 【免费下载链接】BetterNCM-Installer 一键安装 Better 系软件 项目地址: https://gitcode.com/gh_mirrors/be/BetterNCM-Installer 你是否想过,每天使用的网易云音乐客户端其实蕴藏着无限可…

2026/7/1 19:51:44阅读更多 →
openEuler-portal-mcp:一站式AI助手如何革新开源社区信息查询体验

openEuler-portal-mcp:一站式AI助手如何革新开源社区信息查询体验

openEuler-portal-mcp:一站式AI助手如何革新开源社区信息查询体验 【免费下载链接】openEuler-portal-mcp The repository of openEuler portal MCP Server 项目地址: https://gitcode.com/openeuler/openEuler-portal-mcp 前往项目官网免费下载:…

2026/7/1 19:46:43阅读更多 →
AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

AI Coding 六个月真实ROI账本:产品经理的血泪教训,研发的冷静忠告

6个月前的2025年12月,Boris Cherny 公开宣布自己卸载了 IDE。一时间,Vibe Coding 成了全行业最热的话题。6个月后,当我们回过头来拉一份真实账本,发现事情远没有"一句话生成一个App"那么浪漫。本文从产品经理和研发两个…

2026/7/1 4:42:14阅读更多 →
审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

审计来了,数据权限全开——审计走了,怎么确保权限全部关掉?

引言:审计结束三个月了,审计员的权限还没关某城商行每年按照监管要求开展至少一次数据安全审计。审计期间,内审部门需要抽样检查各类业务数据——交易流水、客户信息、员工操作日志、权限配置记录。这些数据分布在不同系统中,审计…

2026/7/1 5:19:01阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/1 0:01:44阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/1 0:01:44阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/1 0:01:44阅读更多 →
YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

YOLOv8推理性能优化:从1.2FPS到35FPS的全链路加速实践

如果你在部署 YOLOv8 时,发现推理速度只有可怜的 1-2 FPS,而别人的演示视频却能跑到 30 FPS 以上,那么问题很可能不在模型本身,而在于你的整个处理链路。很多开发者拿到一个训练好的 YOLOv8 模型后,会直接使用官方示例…

2026/7/1 0:01:44阅读更多 →
Coze与Dify对比指南:低代码AI应用开发从入门到实战

Coze与Dify对比指南:低代码AI应用开发从入门到实战

1. 从零到一:为什么你需要了解 Coze 和 Dify?如果你对 AI 应用开发感兴趣,但一看到“大模型”、“智能体”、“工作流”这些词就头疼,觉得门槛太高,那这篇文章就是为你准备的。很多开发者,包括我自己&#…

2026/7/1 0:01:44阅读更多 →
AI生图工具怎么选?2026年6月版实测对比

AI生图工具怎么选?2026年6月版实测对比

做自媒体的朋友应该都有体会:配图一直是个让人头疼的问题。2026年,AI生图工具已经非常成熟了,但工具太多反而不知道怎么选。以下是截至2026年6月我对主流AI生图工具的实测对比。Midjourney V8.1:速度之王2026年6月11日&#xff0c…

2026/7/1 0:01:44阅读更多 →