Selenium UI自动化测试入门：从零编写第一个Python脚本-拓冰网站优化

1. 项目概述为什么我们需要UI自动化测试如果你是一名测试工程师或者是一名开发人员最近被重复的、枯燥的页面点击和表单填写搞得焦头烂额那么“UI自动化测试”这个词对你来说一定不陌生。简单来说它就是用代码模拟人的操作去自动执行那些在浏览器里需要手动完成的测试步骤。而Selenium就是实现这个目标最经典、最广泛使用的工具之一。它不是什么高深莫测的黑科技本质上就是一个能通过代码控制浏览器的“遥控器”。我刚开始接触自动化测试时也走过不少弯路。总觉得这玩意儿配置复杂脚本动不动就报错维护成本高不如手动点几下来得快。但当你负责的模块越来越大回归测试的用例从几十个膨胀到几百个时你就会发现凌晨两点还在机械地点击同一个按钮只为验证一个简单的修改没有破坏其他功能是多么低效且痛苦。Selenium的价值就在于它能把这些重复劳动固化下来一次编写多次运行。无论是每日构建后的冒烟测试还是上线前的全量回归它都能不知疲倦地执行把我们从重复劳动中解放出来去关注更复杂的业务逻辑和探索性测试。所以这篇内容的目标很明确面向零基础或稍有编程经验的朋友抛开那些复杂的概念和框架直接上手用最短的路径跑通你的第一个Selenium UI自动化测试脚本。我们会从环境搭建的每一个细节开始到写出一个能真正在浏览器里运行的脚本并解释清楚每一步背后的“为什么”。过程中我会分享那些官方文档里不会写的坑以及如何让脚本更健壮的小技巧。2. 环境准备与核心组件解析在开始写代码之前我们必须把“战场”布置好。Selenium UI自动化测试依赖于几个核心组件协同工作理解它们的关系至关重要这能帮助你在遇到问题时快速定位。2.1 核心三件套语言、Selenium库与浏览器驱动你可以把自动化测试想象成一场木偶戏编程语言如Python你就是幕后的操纵者负责编写指令脚本。Selenium客户端库如selenium package它是你手中的控制线和语言翻译官。你用Python写的命令如find_element,click由这个库翻译成WebDriver协议能听懂的语言。浏览器驱动如ChromeDriver它是连接在木偶浏览器身上的具体操纵装置。它接收WebDriver协议的命令并转化为对真实浏览器的底层操作。浏览器如Chrome最终执行动作的木偶。为什么是Python对于入门而言Python语法简洁库丰富社区活跃遇到问题容易找到解决方案。本文将以Python为例但Selenium支持Java、C#、JavaScript等多种语言原理相通。2.2 详细安装与配置步骤接下来我们一步步完成环境搭建。我会以Windows系统下的Chrome浏览器为例其他系统或浏览器如Firefox思路类似。步骤一安装Python与pip如果你还没有Python请前往 Python官网下载安装。务必在安装时勾选“Add Python to PATH”这样可以在命令行中直接使用python和pip命令。安装完成后打开命令行CMD或PowerShell输入以下命令验证python --version pip --version如果能正确显示版本号说明安装成功。步骤二安装Selenium客户端库通过pip安装Selenium库非常简单pip install selenium这条命令会从Python的官方包索引中下载并安装最新稳定版的Selenium库。步骤三下载与配置浏览器驱动最易踩坑环节这是新手最容易出错的地方。你必须使用与你本地安装的Chrome浏览器版本号匹配的ChromeDriver。查看Chrome版本打开Chrome浏览器点击右上角三个点 - 帮助 - 关于Google Chrome。记下版本号例如124.0.6367.91。下载ChromeDriver访问 ChromeDriver官方下载站或更直接的下载地址。对于新版本Chrome推荐使用后者它提供了更清晰的版本匹配。找到与你Chrome主版本号一致的驱动进行下载例如Chrome是124.x就下载124.x.x.x版本的驱动。放置驱动文件下载的是一个可执行文件如chromedriver.exe。你有三种处理方式方式A推荐将其放在一个固定的目录如C:\WebDriver\然后将此目录路径添加到系统的PATH环境变量中。这是最一劳永逸的方法。方式B将其放在你的Python脚本所在的同一个目录下。方式C在代码中指定驱动的绝对路径。注意很多教程会告诉你把chromedriver.exe丢到Python的安装目录下这在某些情况下可行但并非最佳实践。特别是当你使用虚拟环境或有多个Python版本时容易造成混乱。我强烈推荐方式A管理清晰。验证安装环境就绪后我们可以用一个最简单的脚本来测试。创建一个名为test_demo.py的文件写入以下代码from selenium import webdriver # 如果驱动已加入PATH直接实例化即可 driver webdriver.Chrome() # 如果使用方式C需要指定路径 # driver webdriver.Chrome(executable_pathr‘C:\WebDriver\chromedriver.exe’) driver.get(“https://www.baidu.com“) # 打开百度 print(driver.title) # 打印页面标题 driver.quit() # 关闭浏览器运行这个脚本(python test_demo.py)。如果能看到一个Chrome浏览器窗口自动打开访问百度并在控制台打印出“百度一下你就知道”然后浏览器关闭那么恭喜你环境配置成功3. 第一个自动化脚本从打开浏览器到元素操作环境搞定我们来真正写一个有点用的脚本。假设我们要测试一个简单的登录流程打开一个测试网页输入用户名和密码点击登录按钮。3.1 脚本骨架与浏览器启动选项首先我们引入必要的模块并配置浏览器选项。有时我们不需要看到浏览器界面例如在服务器上运行或者需要禁用一些特性可以通过Options来配置。from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.common.keys import Keys from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time # 创建浏览器选项 options webdriver.ChromeOptions() # options.add_argument(‘--headless‘) # 无头模式不显示图形界面 # options.add_argument(‘--disable-gpu‘) # 禁用GPU通常配合无头模式使用 options.add_argument(‘--start-maximized‘) # 启动时最大化窗口 # 实例化驱动传入选项 driver webdriver.Chrome(optionsoptions)WebDriverWait和expected_conditions是处理等待的关键工具后面会详细讲。By用于指定元素定位方式。3.2 元素定位自动化测试的基石要让脚本操作页面上的元素输入框、按钮、链接第一步是找到它。Selenium提供了8种主要的定位方式掌握最常用的前几种就能应对90%的场景。定位方式示例代码By.XXX适用场景优先级IDBy.ID(“kw”)元素有唯一id属性时最快最准。★★★★★NAMEBy.NAME(“wd”)元素有name属性常用于表单。★★★★☆CLASS_NAMEBy.CLASS_NAME(“s_ipt”)通过CSS类名定位注意类名可能多个或有空格。★★★☆☆TAG_NAMEBy.TAG_NAME(“input”)通过标签名定位通常用于找多个同类元素。★★☆☆☆LINK_TEXTBy.LINK_TEXT(“新闻”)精确匹配超链接的完整文本。★★★☆☆PARTIAL_LINK_TEXTBy.PARTIAL_LINK_TEXT(“新”)匹配超链接的部分文本。★★★☆☆CSS_SELECTORBy.CSS_SELECTOR(“#kw”)功能强大语法灵活性能好。★★★★★XPATHBy.XPATH(‘//*[id“kw”]’)功能最强大可以遍历整个DOM但性能稍差易受结构变化影响。★★★★☆实操心得优先使用ID和NAME它们通常是唯一的且最稳定。就像人的身份证号。慎用CLASS_NAME页面样式调整时类名容易改变。而且如果一个元素有多个类如class“btn btn-primary”你需要使用其中一个完整的单词不能带空格。CSS_SELECTOR vs XPATH对于简单定位CSS选择器更简洁高效。例如#id、.class、input[name‘wd’]。XPATH在处理复杂层级关系如“找到某个div下的第三个table的第二个tr”时更有优势但写起来复杂且一旦页面结构微调就可能失效。入门建议先掌握CSS选择器。如何获取元素属性在浏览器中按F12打开开发者工具使用“检查”功能CtrlShiftC点击页面元素在Elements面板中元素标签上显示的id、name、class等属性都可以用于定位。3.3 编写完整的登录测试脚本假设我们有一个简单的测试登录页其HTML关键部分如下input type“text” id“username” placeholder“用户名” input type“password” id“password” placeholder“密码” button id“loginBtn”登录/button我们的自动化脚本可以这样写# 假设测试页面地址 login_url “http://your-test-site.com/login“ driver.get(login_url) # 1. 定位用户名输入框并输入 username_input driver.find_element(By.ID, “username”) username_input.send_keys(“testuser”) # 输入用户名 # 2. 定位密码输入框并输入 password_input driver.find_element(By.ID, “password”) password_input.send_keys(“secret123”) # 3. 定位登录按钮并点击 login_button driver.find_element(By.ID, “loginBtn”) login_button.click() # 4. 添加一个简单断言验证是否跳转到成功页面 time.sleep(2) # 等待2秒等待页面跳转这是初级做法后面会改进 assert “dashboard” in driver.current_url, “登录失败未跳转到预期页面” print(“登录流程测试通过”) # 5. 关闭浏览器 driver.quit()这个脚本完成了基本的“定位-操作-断言”流程。但其中使用了time.sleep(2)这是一个需要改进的坏习惯我们马上会讲到更好的方法。4. 核心进阶等待、断言与框架思维一个健壮的自动化脚本必须能优雅地处理页面加载、元素出现的延迟并能清晰地验证测试结果。4.1 告别time.sleep显式等待与隐式等待网络延迟、动态加载、前端框架渲染都会导致元素不会立即出现。盲目使用time.sleep(秒数)是一种固定等待无论元素是否已就绪脚本都会傻等设定的时间这极大地降低了测试效率。隐式等待 (Implicit Wait)在创建驱动后设置一次对整个驱动生命周期有效。它告诉WebDriver在查找任何元素时如果没立即找到就轮询DOM一段时间默认0.5秒检查一次直到找到或超时。driver.implicitly_wait(10) # 单位秒 element driver.find_element(By.ID, “someId”)注意隐式等待是全局设置可能会在某些场景下产生副作用比如当你确实需要检查一个元素不存在时。它也无法处理更复杂的条件如元素可点击、元素包含特定文本。显式等待 (Explicit Wait)这是推荐的最佳实践。它为某个特定的操作设置等待条件更加灵活和精确。from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC # 等待最多10秒直到ID为‘welcomeMsg’的元素出现在DOM中 element WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.ID, “welcomeMsg”)) ) # 等待最多10秒直到登录按钮变为可点击状态 login_button WebDriverWait(driver, 10).until( EC.element_to_be_clickable((By.ID, “loginBtn”)) ) login_button.click()expected_conditions模块提供了很多有用的条件例如presence_of_element_located: 元素存在于DOM。visibility_of_element_located: 元素存在且可见宽高大于0。element_to_be_clickable: 元素存在、可见且可点击。title_contains: 页面标题包含特定文字。alert_is_present: 出现了alert弹窗。我的经验混合使用以显式等待为主。我通常会在项目开始时设置一个较短的隐式等待如5秒作为兜底然后在所有关键交互步骤点击、输入、获取文本前使用显式等待来等待特定条件满足。这能最大程度保证脚本的稳定性和执行速度。4.2 测试断言验证自动化结果自动化测试不是“跑完就行”必须验证结果是否符合预期。断言就是我们的检查点。# 断言页面标题 assert driver.title “用户主页”, f“页面标题不符实际是{driver.title}” # 断言URL assert “/home” in driver.current_url # 断言元素文本内容 welcome_element driver.find_element(By.ID, “welcome”) assert welcome_element.text “欢迎回来testuser!”, f“欢迎信息错误{welcome_element.text}” # 断言元素是否存在/可见结合等待 try: error_msg WebDriverWait(driver, 5).until( EC.visibility_of_element_located((By.CLASS_NAME, “error”)) ) print(f“测试失败出现错误提示{error_msg.text}”) assert False, “登录失败时应有错误提示但内容可能不符” except: print(“未发现错误提示符合成功登录预期。”)断言失败时脚本会抛出AssertionError并停止。在实际测试框架中如pytest这些断言会被框架捕获并生成漂亮的测试报告。4.3 初步的框架思维让脚本可维护当你有超过10个测试用例时把所有的代码都写在一个文件里将是灾难。我们需要简单的组织结构。your_project/ ├── conftest.py (可选pytest的配置文件/夹具) ├── pages/ (页面对象模型) │ ├── __init__.py │ ├── login_page.py │ └── home_page.py ├── tests/ (测试用例) │ ├── __init__.py │ └── test_login.py ├── utils/ (工具类) │ ├── __init__.py │ └── driver_manager.py └── requirements.txt (项目依赖)页面对象模型 (Page Object Model, POM)是一种设计模式它将每个页面抽象成一个类页面的元素定位和基本操作封装在类的方法中。测试用例只关心业务逻辑不关心元素如何定位。pages/login_page.py示例from selenium.webdriver.common.by import By from selenium.webdriver.support.wait import WebDriverWait from selenium.webdriver.support import expected_conditions as EC class LoginPage: def __init__(self, driver): self.driver driver self.wait WebDriverWait(driver, 10) # 定位器 (Locators) USERNAME_INPUT (By.ID, “username”) PASSWORD_INPUT (By.ID, “password”) LOGIN_BUTTON (By.ID, “loginBtn”) ERROR_MSG (By.CLASS_NAME, “error”) # 页面操作方法 def open(self, url): self.driver.get(url) return self def enter_username(self, username): element self.wait.until(EC.visibility_of_element_located(self.USERNAME_INPUT)) element.clear() element.send_keys(username) return self # 支持链式调用 def enter_password(self, password): self.wait.until(EC.visibility_of_element_located(self.PASSWORD_INPUT)).send_keys(password) return self def click_login(self): self.wait.until(EC.element_to_be_clickable(self.LOGIN_BUTTON)).click() def get_error_message(self): try: return self.wait.until(EC.visibility_of_element_located(self.ERROR_MSG)).text except: return Nonetests/test_login.py示例import pytest from pages.login_page import LoginPage from utils.driver_manager import get_driver # 假设有一个管理驱动的工具 class TestLogin: def setup_method(self): self.driver get_driver() # 获取浏览器驱动实例 self.login_page LoginPage(self.driver) def teardown_method(self): self.driver.quit() def test_login_success(self): self.login_page.open(“http://your-test-site.com/login“) self.login_page.enter_username(“correct_user”) self.login_page.enter_password(“correct_pwd”) self.login_page.click_login() # 断言跳转或首页元素 assert “dashboard” in self.driver.current_url def test_login_failure(self): self.login_page.open(“http://your-test-site.com/login“) self.login_page.enter_username(“wrong_user”) self.login_page.enter_password(“wrong_pwd”) self.login_page.click_login() error_msg self.login_page.get_error_message() assert error_msg is not None assert “用户名或密码错误” in error_msg采用POM后如果登录页面的输入框ID改变了你只需要修改LoginPage类中的USERNAME_INPUT定位器所有用到这个定位器的测试用例都无需改动。这大大提升了代码的可维护性。5. 常见问题排查与实战技巧即使按照步骤操作你也一定会遇到各种问题。这里我总结了一些高频问题和解决思路。5.1 驱动与浏览器版本不匹配问题运行脚本时报错SessionNotCreatedException: Message: session not created: This version of ChromeDriver only supports Chrome version...解决这是最经典的问题。严格按照2.2节的方法核对并下载对应版本的ChromeDriver。可以使用chrome://version/查看浏览器精确版本。5.2 元素定位不到NoSuchElementException这是最常见的问题原因多种多样。等待不足元素还没加载出来就去定位。解决方案使用显式等待WebDriverWaitEC。iframe/Shadow DOM目标元素嵌套在iframe或Shadow DOM内部。解决方案需要先切换到对应的上下文。# 切换进iframe iframe driver.find_element(By.TAG_NAME, “iframe”) driver.switch_to.frame(iframe) # 操作iframe内的元素... # 操作完后切回主文档 driver.switch_to.default_content()动态ID/Class元素的标识符是每次刷新页面后随机生成的。解决方案使用其他稳定的属性如name、>element driver.find_element(By.ID, “someId”) driver.execute_script(“arguments[0].scrollIntoView(true);”, element) element.click()5.4 弹窗与多窗口处理JavaScript弹窗 (Alert/Confirm/Prompt)from selenium.webdriver.common.alert import Alert # 等待弹窗出现并切换到它 WebDriverWait(driver, 5).until(EC.alert_is_present()) alert Alert(driver) print(alert.text) # 获取弹窗文本 alert.accept() # 点击“确定” # alert.dismiss() # 点击“取消” # alert.send_keys(“输入文本”) # 适用于Prompt新窗口/标签页# 点击一个会打开新窗口的链接 main_window driver.current_window_handle # 记录当前窗口句柄 driver.find_element(By.LINK_TEXT, “新窗口”).click() # 切换到新窗口 WebDriverWait(driver, 5).until(lambda d: len(d.window_handles) 1) new_window [w for w in driver.window_handles if w ! main_window][0] driver.switch_to.window(new_window) # 在新窗口操作... # 操作完后关闭新窗口切回主窗口 driver.close() driver.switch_to.window(main_window)5.5 让脚本更健壮的技巧使用>def take_screenshot(driver, name“screenshot”): timestamp time.strftime(“%Y%m%d_%H%M%S”) filename f“{name}_{timestamp}.png” driver.save_screenshot(filename) print(f“截图已保存{filename}”) # 在断言失败或异常捕获处调用合理使用try…except不是所有失败都需要让整个测试套件停止。对于一些非核心的检查点可以捕获异常并记录日志。清理测试数据自动化测试可能会创建垃圾数据。确保用例之间有良好的setup准备和teardown清理机制保持测试环境的干净。6. 下一步从脚本到测试套件当你掌握了单个脚本的编写后自然会面临如何管理大量测试用例、生成报告、集成到持续集成CI流程中的问题。这时你需要引入测试框架。推荐组合Pytest Seleniumpytest是Python生态中最强大、最流行的测试框架之一它比自带的unittest更简洁灵活。安装pip install pytest编写测试函数以test_开头使用assert断言。夹具 (Fixture)用于提供测试依赖如浏览器驱动并管理setup/teardown逻辑。上面示例中的setup_method和teardown_method就可以用pytest的pytest.fixture更优雅地实现。运行与报告可以方便地选择运行部分用例并生成HTML、XML等格式的测试报告。持续集成 (CI)将你的自动化测试项目接入Git然后使用Jenkins、GitLab CI、GitHub Actions等工具配置在代码推送后或每天定时自动执行测试套件并将测试报告发送到邮箱或团队聊天工具。这才是UI自动化测试价值最大化的体现——守护质量及时反馈。UI自动化测试入门不难但写出稳定、可维护、有价值的自动化测试代码需要不断的实践和总结。从今天开始尝试为你手头项目中最枯燥的那部分手动测试编写一个自动化脚本吧迈出第一步你就已经领先了。

Selenium UI自动化测试入门：从零编写第一个Python脚本

相关新闻

3分钟搞定B站缓存视频转换：m4s转mp4的完整免费方案

工业仪表读数识别：YOLO目标检测 + OCR混合方案实战

从零构建PMSM伺服驱动器：FOC算法、硬件设计与DSP实现全解析

第01章｜登台远望：Claude Code 底层技术全景导览

3步彻底解决Windows 11界面不适：ExplorerPatcher让你的桌面回归高效工作区

Nintendo Switch大气层系统完整指南：从零开始打造个性化游戏体验

AI数据独角兽Databricks再融资，估值或达1750亿美元，它凭啥这么牛？

React Context 管理用户状态的正确姿势与避坑指南

基于ROS2与Qt6的嵌入式GUI开发：以NXP EasyEVSE充电站为例

【人工智能】一文搞定到底什么是智能体

嵌入式GUI控件实战：ROTARY、SCROLLBAR、SLIDER原理与应用

Google AI Studio 300美元额度的真相与实战指南

Codex本地AI编码代理与CC Switch协议适配实战

从MSP430到Flexis QE128：8/32位MCU无缝迁移与低功耗设计实战

大语言模型空间推理能力提升：TEXT2SPACE数据集与ASCII增强技术解析