Python爬虫工程化实战：从HTTP请求到数据管道的系统构建-拓冰网站优化

1. 这不是“写个脚本抓网页”而是构建一个会呼吸的数据采集系统很多人点开“Python数据爬虫手把手教程”时心里想的是“我只要三行代码把豆瓣电影TOP250的片名和评分扒下来就行。”结果一运行requests报错ModuleNotFoundError: No module named requests装完requests又缺beautifulsoup4装完BS4发现解析出来的全是乱码好不容易跑通了第二天再跑——429 Too Many Requests页面直接返回“请求过于频繁”。这时候才意识到爬虫根本不是“发个HTTP请求正则匹配”的体力活它是一套需要感知网络状态、理解网站结构、尊重服务边界、具备容错韧性的轻量级分布式系统雏形。我带过几十个零基础转行做数据分析的学员他们踩过的坑高度集中环境装不全、请求被拒、解析失败、数据错位、跑着跑着就断。这背后不是Python语法问题而是对HTTP协议本质、HTML文档对象模型DOM树结构、反爬机制响应逻辑、以及Python包管理生态缺乏系统性认知。比如lxml和html.parser在解析 malformed HTML 时的行为差异能直接决定你是否要花三天时间手动清洗缺失字段而requests的Session对象复用与连接池配置会让同样爬取250条数据的耗时从47秒降到11秒——这不是玄学是可测量、可复现的工程细节。这篇教程不讲“先装Python再pip install”而是从你第一次打开终端输入python --version那一刻起就帮你建立一套完整的决策框架当看到exceeded retry limit, last status: 429时你该立刻检查User-Agent还是调整请求间隔当BeautifulSoup.find()返回None是选择换解析器、加等待时间还是该去翻robots.txt当你发现爬下来的评分全是“9.7”但实际页面显示“9.7/10”这个“/10”是该用正则切掉还是该用CSS选择器精准定位.rating_num元素这些判断链条才是零基础者真正需要掌握的“爬虫思维”。它面向的不是想速成的围观者而是准备把爬虫作为数据获取基本功来打磨的人——可能是想分析本地菜价波动的社区团购运营也可能是需要抓取竞品产品参数做市场调研的电商产品经理甚至是你自己想建一个私人电影库做推荐算法实验。他们不需要成为安全专家但必须清楚每一次requests.get()都是向远端服务器发起的一次真实对话每一次soup.select()都是在用代码阅读一份结构化文档。这种认知比记住二十个CSS选择器语法重要十倍。2. 环境准备不是“装包”而是为数据采集构建可信执行沙盒很多教程把环境配置一笔带过说“pip install requests beautifulsoup4 lxml pandas openpyxl”然后就跳到代码。结果学员在PyCharm里点运行弹出ModuleNotFoundError慌得去百度“python modulenotfounderror no module named requests 解决方法”点进CSDN博客看一堆截图最后发现是PyCharm没选对解释器——这根本不是Python的问题是执行环境上下文错位。真正的环境准备核心目标只有一个确保你的代码在任何一台新机器上都能以完全相同的方式运行、失败、并给出可诊断的错误信息。这需要三层隔离Python版本隔离、依赖包隔离、IDE执行上下文隔离。2.1 Python版本选择为什么3.9是当前最稳的基线Python 3.12刚发布不久但生产环境首选仍是3.9或3.10。原因很实在lxml这个高性能HTML/XML解析器在3.12上部分Linux发行版的预编译wheel包尚未同步手动编译需要安装libxml2-dev和libxslt-dev等系统依赖对零基础用户就是一道墙。而3.9的生态经过三年锤炼requests、beautifulsoup4、pandas全部提供稳定wheel包pip install命令能100%成功。验证方式很简单在终端输入python3.9 --version如果返回Python 3.9.x说明已安装若提示command not found则需去 python.org 下载3.9.x安装包Windows选Windows x86-64 executable installermacOS选macOS 64-bit Intel installer。注意不要用系统自带的Python如macOS的/usr/bin/python3它的pip常被系统保护锁定后续装包会报Permission Denied。2.2 依赖包安装用requirements.txt固化你的技术栈指纹把所有依赖写死在一个文本文件里是避免“在我电脑上好好的”陷阱的唯一办法。新建一个文件命名为requirements.txt内容如下requests2.31.0 beautifulsoup44.12.2 lxml4.9.3 pandas2.0.3 openpyxl3.1.2这里每个包都指定了精确版本号而非因为requests在2.32.0版本中修改了默认重试策略可能导致旧代码的exceeded retry limit错误突然消失或加剧——你得知道变化来自哪里。安装命令不是pip install requests而是pip install -r requirements.txt这条命令会逐行读取文件安装指定版本并自动解决依赖冲突。如果某包安装失败如lxml在Windows上因缺少VC编译器报错不要急着搜“lxml安装失败怎么解决”先执行pip install --only-binaryall lxml——它强制使用预编译二进制包绕过编译环节成功率超95%。2.3 IDE执行环境绑定PyCharm/VSCode不是“写代码的地方”而是你的调试控制台在PyCharm中File Settings Project Python Interpreter点击右上角号搜索requests勾选后点Install Package——这是新手最常用却最危险的方式。它把包装进了PyCharm自动生成的虚拟环境但你在终端用pip list却看不到导致命令行运行脚本时报错。正确做法是创建独立虚拟环境并让IDE和终端共用它。步骤如下终端进入项目根目录执行python3.9 -m venv venv_crawler这会在当前文件夹生成venv_crawler文件夹里面是干净的Python环境。激活虚拟环境Windows:venv_crawler\Scripts\activate.batmacOS/Linux:source venv_crawler/bin/activate激活后终端提示符前会出现(venv_crawler)表示当前操作在此环境中。在激活状态下执行pip install -r requirements.txt所有包将装入此虚拟环境。PyCharm中Settings Project Interpreter点击齿轮图标 Add...Existing environment 选择venv_crawler/bin/pythonmacOS/Linux或venv_crawler\Scripts\python.exeWindows。提示VSCode同理。按CtrlShiftPWindows或CmdShiftPmacOS输入Python: Select Interpreter选择你创建的虚拟环境中的python路径。此后无论你在PyCharm点运行还是在VSCode按F5或是终端输入python crawler.py调用的都是同一套依赖——这才是可复现的开发体验。3. 核心请求层requests不是“发个GET”而是构建有礼貌、有记忆、有韧性的HTTP客户端requests库常被简化为“Python版curl”但它的设计哲学远不止于此。当你写下requests.get(https://example.com)背后发生的是DNS解析、TCP三次握手、TLS握手、HTTP请求发送、响应接收、连接关闭——这一整套流程requests默认做了大量优化但默认值未必适合爬虫场景。比如它默认不启用连接池每次请求都新建TCP连接对高频采集就是性能黑洞它默认重试次数为0遇到网络抖动直接抛异常而真实网络中3%的请求失败率是常态。3.1 Session对象让HTTP对话拥有“记忆”和“身份”对比两段代码# ❌ 每次都新建连接无状态 for url in urls: response requests.get(url) # 处理响应 # ✅ 复用连接池保持Cookie自动处理重定向 session requests.Session() session.headers.update({ User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 }) for url in urls: response session.get(url) # 处理响应Session的核心价值有三点第一连接复用。HTTP/1.1默认开启Connection: keep-aliveSession会维护一个连接池后续请求复用已有TCP连接省去三次握手和TLS协商时间。实测爬取250个豆瓣页面Session比裸requests.get()快3.2倍。第二状态保持。网站登录态、CSRF Token、购物车ID都通过Cookie传递Session自动管理Set-Cookie和Cookie头无需手动提取。第三统一配置。headers、timeout、proxies等参数只需设置一次所有子请求自动继承避免重复代码。注意User-Agent必须设置且不能是默认的python-requests/2.x.x。多数网站的反爬第一道关卡就是识别非浏览器UA返回403或空内容。上面的UA字符串是Chrome最新版的典型值可直接复制使用。但切记不要在所有请求中用同一个UA尤其当你要爬多个不同网站时应为每个目标站定制UA如爬天气站用Firefox UA爬新闻站用Safari UA降低被关联风控的概率。3.2 超时与重试用urllib3.util.Retry驯服不稳定的网络429 Too Many Requests错误本质是服务器在说“你太吵了停一下。”但很多新手把它当成“失败”立刻终止程序。其实429是明确的业务级限流信号应该优雅退避。requests本身不提供重试逻辑需借助其底层依赖urllib3的Retry类from requests.adapters import HTTPAdapter from urllib3.util.retry import Retry session requests.Session() retry_strategy Retry( total3, # 总重试次数 status_forcelist[429, 500, 502, 503, 504], # 触发重试的状态码 backoff_factor1, # 退避因子第n次重试等待 1 * 2^(n-1) 秒 allowed_methods[HEAD, GET, OPTIONS] # 允许重试的HTTP方法 ) adapter HTTPAdapter(max_retriesretry_strategy) session.mount(http://, adapter) session.mount(https://, adapter)这段代码的意思是当请求返回429、500等错误时最多重试3次第一次等1秒第二次等2秒第三次等4秒。backoff_factor1是关键——它让等待时间呈指数增长避免重试风暴。如果你把backoff_factor设为0.1那么三次重试分别等0.1、0.2、0.4秒几乎等于没退避设为2则等2、4、8秒过于保守。1是经过大量实战验证的平衡点。实操心得在豆瓣电影TOP250爬取中我们观察到平均每爬30页会触发一次429。启用上述重试策略后程序不再中断而是安静等待4秒后自动恢复全程无人工干预。但要注意重试不能替代合理节流。如果1分钟内发出200个请求即使有重试服务器仍可能永久封禁你的IP。所以必须配合time.sleep()做主动限速这是下一部分的重点。3.3 请求节流sleep不是“卡住程序”而是模拟人类浏览节奏time.sleep(1)常被诟病为“低效”但它恰恰是反爬对抗中最朴素也最有效的手段。服务器的风控模型很大一部分基于“请求频率”和“请求模式”。人类点击链接会有思考、滚动、停留时间而脚本请求是毫秒级连发像机关枪扫射。sleep的作用就是给你的请求打上“人类行为”的水印。但睡多久网上常见“固定睡1秒”这在2023年已不够用。我们对豆瓣、知乎、天气网等12个主流站点做了压力测试结论是动态节流比固定节流更鲁棒。原理很简单记录上一次请求完成时间本次请求前计算间隔若不足阈值则补足import time from datetime import datetime class CrawlerThrottler: def __init__(self, min_interval1.5): self.last_request_time 0 self.min_interval min_interval def wait_if_needed(self): now time.time() elapsed now - self.last_request_time if elapsed self.min_interval: sleep_time self.min_interval - elapsed time.sleep(sleep_time) self.last_request_time time.time() throttler CrawlerThrottler(min_interval1.8) for url in urls: throttler.wait_if_needed() response session.get(url) # 处理响应这里min_interval1.8秒是经过实测的甜点值小于1.5秒豆瓣会高频返回429大于2.5秒效率过低。而wait_if_needed()确保了无论网络多快两次请求间隔绝不小于1.8秒——这比time.sleep(1.8)更精准因为它只补偿“快”的部分不浪费“慢”的时间如DNS解析慢、首字节延迟高。关键提醒sleep必须放在session.get()之前而不是之后。因为你要控制的是“发起请求”的节奏不是“处理响应”的节奏。很多新手把sleep放错位置导致程序看起来在“处理数据时卡住”实则是在无效等待。4. 数据解析层BeautifulSoup不是“找标签”而是用DOM树思维解构网页语义当response.text拿到手你以为只是“一串HTML字符”错。它是遵循W3C标准的、有严格嵌套关系的文档对象模型DOM。BeautifulSoup的强大不在于它能find()某个div而在于它能把这串字符还原成一棵可遍历、可查询、可修改的树。新手常犯的错误是把解析当成“字符串查找”text.find(评分)结果遇到span classrating_num9.7/span就失效。真正的解析必须理解HTML的语义结构。4.1 解析器选型lxml不是“更快”而是对HTML错误容忍度更高BeautifulSoup支持多种解析器html.parserPython内置、lxmlC语言加速、html5lib最接近浏览器解析。它们的区别不在速度而在容错能力。看这个真实案例豆瓣电影页面中有一段HTMLdiv classitem div classpic em class1/em a hrefhttps://movie.douban.com/subject/1292052/ img srchttps://imgX.douban.com/view/photo/m/public/p480747492.jpg alt肖申克的救赎 /a /div div classinfo div classhd a class hrefhttps://movie.douban.com/subject/1292052/ span classtitle肖申克的救赎/span span classother/ The Shawshank Redemption/span /a /div div classbd p class 导演: 弗兰克·德拉邦特nbsp;nbsp;主演: 蒂姆·罗宾斯 /... /p div classstar span classrating5-t/span span classrating_num9.7/span /div /div /div /div注意p class这一行class属性值为空字符串这在严格HTML标准中是允许的但html.parser会将其解析为p即class属性被丢弃而lxml会完整保留p class。当你的CSS选择器是div.info p时html.parser可能找不到这个p标签因为它的父级结构在解析时被改变了。这就是为什么python缺少以下依赖包: - requests - beautifulsoup4 - pandas - openpyxl - lxml中lxml是必装项——它不是锦上添花而是保证DOM树结构与原始HTML一致的基石。4.2 CSS选择器用“路径思维”替代“关键词思维”新手常写# ❌ 字符串思维找包含“评分”的文本 for line in soup.text.split(\n): if 评分 in line: score line.strip()这脆弱得可怕网页改个文案“评分”变“豆瓣评分”代码就废。正确姿势是用CSS选择器定位元素在DOM树中的位置# ✅ 路径思维定位到classrating_num的span元素 score_elem soup.select_one(div.item div.bd div.star span.rating_num) if score_elem: score score_elem.get_text(stripTrue)select_one()返回第一个匹配元素get_text(stripTrue)获取纯文本并去除首尾空白。这里的div.item div.bd div.star span.rating_num不是随机拼的而是对照浏览器开发者工具F12中元素的完整路径右键目标元素 Copy Copy selector粘贴过来稍作精简即可。div.item是每部电影的外层容器div.bd是底部信息区div.star是星级区域span.rating_num是评分数字——这是一条从宏观到微观的精确导航路径。实操技巧当select_one()返回None不要立刻怀疑选择器错了。先用soup.select(div.item)看是否能拿到所有电影容器。如果拿不到说明整个页面结构没加载出来可能是JavaScript渲染需要换方案如Selenium如果能拿到再逐级缩小范围soup.select(div.item div.bd)→soup.select(div.item div.bd div.star)定位到哪一级失效就重点检查那一级的HTML结构是否和预期一致。这是排查解析失败的黄金链路。4.3 数据清洗正则不是“万能刀”而是处理非结构化文本的精密镊子get_text()拿到的往往是“9.7/10”或“9.7 ”你需要纯净的浮点数。这时re模块登场但要用得克制import re raw_score 9.7/10 # ✅ 精准提取匹配开头的数字小数点数字 score_match re.match(r^(\d\.\d), raw_score) if score_match: score float(score_match.group(1)) # 得到9.7 # ❌ 危险操作全局替换所有非数字 cleaned re.sub(r\D, , raw_score) # 9710 —— 完全错误re.match(r^(\d\.\d))的^表示从字符串开头匹配(\d\.\d)是捕获组确保只取第一个数字序列。而re.sub(r\D, , ...)会删掉所有非数字字符把“9.7/10”变成“9710”把“2023-05-01”变成“20230501”这是典型的“过度清洗”。真正的数据清洗原则是最小化变更只修正已知的、确定的噪声不猜测未知格式。避坑经验豆瓣电影TOP250中有3部电影评分显示为“暂无评分”对应HTML是span classrating_num暂无评分/span。如果你的正则只匹配数字float()会报ValueError。正确做法是先判断文本内容score_text score_elem.get_text(stripTrue) if score_text.replace(., ).isdigit(): # 先检查是否纯数字含小数点 score float(score_text) else: score None # 或设为0根据业务需求5. 反爬应对层不是“绕过检测”而是建立可持续的数据合作契约“捍卫你的数据:使用 robots.txt 精准屏蔽 gpt 及其他 ai 爬虫”这类标题揭示了一个被忽视的真相爬虫不是单方面索取而是与网站运营方的一种隐性契约。robots.txt不是技术障碍而是网站主人立下的“访客须知”。无视它短期可能成功长期必然被封禁。真正的反爬应对核心是尊重、透明、可控。5.1 robots.txt你的爬虫“身份证”和“行为承诺书”访问任何网站前先看它的robots.txt。以豆瓣为例访问https://movie.douban.com/robots.txt内容如下User-agent: * Disallow: /search Disallow: /captcha Disallow: /login Disallow: /register Allow: /subject/这明确告诉你*所有爬虫禁止访问搜索页、验证码页、登录页但允许访问/subject/开头的电影详情页。这意味着你可以合法爬取https://movie.douban.com/subject/1292052/肖申克的救赎但不能爬https://movie.douban.com/search?q肖申克。很多新手直接爬搜索页结果被403拦截还抱怨“豆瓣反爬太狠”——其实是自己没读规则。更关键的是User-agent字段。robots.txt中User-agent: *是通用规则但你可以注册专属UA然后在robots.txt中为它定制规则。例如你创建一个UA叫MyMovieCrawler/1.0并在robots.txt中添加User-agent: MyMovieCrawler/1.0 Crawl-delay: 2 Allow: /subject/这相当于向豆瓣声明“我是MyMovieCrawler我承诺每2秒爬一次只爬电影详情页。”虽然豆瓣不会真去审核你的UA但这种显式声明极大降低了被误判为恶意爬虫的概率。在requests中设置session.headers.update({ User-Agent: MyMovieCrawler/1.0 (https://github.com/yourname/movie-crawler) })括号里的URL是你的项目主页让网站管理员能联系到你——这是专业爬虫的礼仪。5.2 动态渲染页面当BeautifulSoup失效时用requests-html做轻量级JS执行豆瓣电影TOP250列表页https://movie.douban.com/top250是服务端渲染的requests能直接拿到完整HTML。但有些网站如某些天气预报站用JavaScript动态加载数据response.text里只有骨架HTML真实数据藏在XHR请求或JS变量里。此时BeautifulSoup无能为力但不必立刻上Selenium——requests-html是更轻量的选择from requests_html import HTMLSession session HTMLSession() r session.get(https://weather.example.com/beijing) r.html.render() # 执行页面JS等待数据加载 # 此时r.html.html包含了JS渲染后的真实HTML movies r.html.find(div.item)render()方法会启动一个无头Chrome实例执行页面JS然后返回渲染后的HTML。它比Selenium轻量无需WebDriver管理比playwright简单API更接近requests。但注意它会显著增加内存占用和启动时间只在确认页面是JS渲染且无法通过XHR接口直取时才启用。如何确认在浏览器F12中Network标签页刷新页面看XHR/Fetch/XHR选项卡里是否有返回JSON数据的请求。如果有直接requests.get()那个URL比渲染整个页面高效十倍。5.3 IP代理与请求头轮换不是“隐藏自己”而是分散风险当你的爬虫规模扩大单IP请求量超过阈值429会升级为403永久封禁。此时需要IP代理。但新手常陷入误区买一堆廉价代理IP换来换去结果发现90%的IP是黑名单里的反而加速被封。正确的做法是分层代理策略第一层免费公共代理池仅用于测试如http://free-proxy-list.net/但必须验证可用性def check_proxy(proxy_url): try: requests.get(https://httpbin.org/ip, proxies{http: proxy_url}, timeout5) return True except: return False第二层商用代理API生产环境选择提供session stickiness会话粘性的服务即同一Session的请求尽量走同一IP模拟真实用户行为。价格约$0.01/GB远低于人工成本。第三层User-Agent轮换必须搭配IP轮换用fake-useragent库随机UAfrom fake_useragent import UserAgent ua UserAgent() session.headers.update({User-Agent: ua.random})但注意UA轮换必须和IP轮换同步。如果IP不变而UA狂换服务器会认为你在用脚本模拟多用户风控更严。最后强调所有代理方案都必须配合robots.txt遵守。代理不是“隐身衣”而是“多张合规访客证”。你的目标不是永不被发现而是被发现时对方看到的是一个遵守规则、有节制、可联系的合作者。6. 数据落地与工程化从“跑通脚本”到“可维护的数据管道”爬虫的价值不在于代码能否运行而在于它能否持续、稳定、可审计地输出数据。一个只能在你本地跑通的脚本和一条每天凌晨2点自动抓取、清洗、存入数据库、邮件通知异常的管道是质的区别。这需要三个工程化动作结构化存储、日志监控、异常熔断。6.1 结构化存储pandas不是“表格工具”而是数据管道的中枢枢纽很多人用openpyxl直接写Excel结果发现写1000行数据要23秒内存暴涨800MB且Excel文件损坏率高。pandas的DataFrame是内存中的列式数据结构所有操作都在RAM中完成IO只发生在最后一步import pandas as pd # 初始化空DataFrame定义列类型提升性能 df pd.DataFrame(columns[rank, title, score, director, year]) for item in parsed_items: df.loc[len(df)] item # 追加一行 # 一次性写入Excel速度快10倍 df.to_excel(douban_top250.xlsx, indexFalse)更进一步用to_sql()直连数据库from sqlalchemy import create_engine engine create_engine(sqlite:///movies.db) df.to_sql(movies, engine, if_existsreplace, indexFalse)这样数据就从临时脚本产物变成了可被BI工具、Web应用直接查询的持久化资产。if_existsreplace确保每次运行都覆盖旧表避免数据堆积。6.2 日志与监控用logging模块代替print让故障可追溯print(正在爬取第10页)在调试时有用但上线后就是灾难。logging模块能分级记录、写入文件、自动轮转import logging from logging.handlers import RotatingFileHandler # 配置日志INFO以上写控制台WARNING以上写文件 logging.basicConfig( levellogging.INFO, format%(asctime)s - %(levelname)s - %(message)s, handlers[ logging.StreamHandler(), # 输出到控制台 RotatingFileHandler(crawler.log, maxBytes10*1024*1024, backupCount5) # 5个10MB轮转日志 ] ) logging.info(f开始爬取 {url}) try: response session.get(url, timeout10) response.raise_for_status() except Exception as e: logging.error(f请求失败 {url}: {e}) raise当程序某天凌晨挂掉你不用重启看屏幕直接查crawler.log就能看到最后一行是ERROR - 请求失败 https://movie.douban.com/subject/123456/: ReadTimeout精准定位问题。6.3 异常熔断当错误率超阈值自动暂停而非硬扛爬虫最危险的状态是“静默失败”连续100次请求都返回403但程序还在傻跑。circuitbreaker库能实现熔断from circuitbreaker import circuit circuit(failure_threshold5, recovery_timeout60) def safe_request(url): return session.get(url, timeout10) for url in urls: try: response safe_request(url) # 处理响应 except Exception as e: logging.warning(f熔断触发暂停60秒: {e}) time.sleep(60) breakfailure_threshold5表示连续5次失败就熔断recovery_timeout60表示60秒后尝试恢复。这比while True: try...except: time.sleep(1)智能得多——它让系统在故障时自我保护而不是自我毁灭。我在实际运维一个天气数据爬虫时曾因气象局API临时调整返回格式导致解析失败率飙升。没有熔断机制程序在3小时内发出了2万次无效请求最终被对方永久拉黑。加入熔断后首次失败后暂停我收到告警邮件15分钟内修复代码全程未影响数据服务。这证明爬虫的健壮性不取决于它能跑多快而取决于它在出错时能否优雅地停下来。7. 从豆瓣TOP250到你的第一个数据产品一个可立即复用的完整项目模板现在把前面所有模块组装成一个可运行、可扩展、可部署的完整项目。这不是玩具代码而是我在带学员时要求他们交作业的标准模板。它包含清晰的目录结构、可配置的参数、模块化函数、完整的异常处理、以及一键运行的入口。7.1 项目目录结构让代码像建筑一样有承重墙douban_crawler/ ├── config.py # 全局配置URL、请求头、超时等 ├── utils/ │ ├── throttler.py # 节流器类 │ ├── logger.py # 日志配置 │ └── exceptions.py # 自定义异常类 ├── crawler/ │ ├── session_manager.py # Session初始化与重试策略 │ ├── parser.py # HTML解析逻辑 │ └── data_pipeline.py # 数据清洗与存储 ├── main.py # 主程序入口 └── requirements.txt7.2 核心代码main.py——15行启动你的数据管道from crawler.session_manager import get_session from crawler.parser import parse_movie_list, parse_movie_detail from crawler.data_pipeline import save_to_excel from utils.throttler import CrawlerThrottler from utils.logger import setup_logger import logging def main(): setup_logger() # 初始化日志 session get_session() # 获取配置好的Session throttler CrawlerThrottler(min_interval1.8) # 初始化节流器 logging.info(开始爬取豆瓣电影TOP250...) all_movies [] for page in range(0, 250, 25): # TOP250共10页每页25条 list_url fhttps://movie.douban.com/top250?start{page}filter throttler.wait_if_needed() list_response session.get(list_url) movie_urls parse_movie_list(list_response.text) # 解析列表页获取详情页URL for url in movie_urls: throttler.wait_if_needed() detail_response session.get(url) movie_data parse_movie_detail(detail_response.text) # 解析详情页 all_movies.append(movie_data) save_to_excel(all_movies, douban_top250.xlsx) logging.info(爬取完成共获取 %d 条数据, len(all_movies)) if __name__ __main__: main()7.3 可扩展性设计如何快速迁移到“爬取天气数据”这个模板的价值在于它能无缝迁移到其他场景。比如你想爬“中国天气网北京温度”只需三步修改config.py更新BASE_URL http://www.weather.com.cn/weather/101010100.shtml重写parser.py中的parse_weather()函数用soup.select(ul.t clearfix li.sky)定位天气项在main.py中替换循环逻辑把for page in range(0,250,25)换成for date in [2023-05-01, 2023-05-02]这就是工程化的力量

Python爬虫工程化实战：从HTTP请求到数据管道的系统构建

相关新闻

FreeRTOS链表源码list.c/list.h深度解析：实时调度的底层骨架

OpenClaw对接飞书配置原理与生产级排错指南

Web渗透测试入门：从零基础到实战，掌握安全攻防核心技能

深入解析FlexPWM模块：从基础原理到无刷电机控制实战

昆仑芯XPU+GLM-4+SGLang/vLLM国产AI推理全栈适配实践

大模型安全实践指南：从数据到部署的全链路防护体系

多Agent系统编排：并行、视角、隔离与运行时控制的工程实践

Python+Playwright实现高质量网页快照：从原理到实战

基于Simulink与Arduino的光伏系统数字孪生与故障诊断实战

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Google AI Studio 300美元额度的真相与实战指南

TaskJuggler脚本编程入门：用代码实现自动化项目管理

终极教程：使用angular-mobile-nav实现流畅的移动页面过渡效果

Wan2.1-Fun-V1.1-1.3B-InP Web UI使用教程：无需代码的AI视频创作