python+selenium控件定位方法(技巧)
web控件定位方法
简介
在做 Web 自动化时,最根本的就是操作页面上的元素,首先要能找到这些元素,然后才能操作这些元素。工具或代码无法像测试人员一样用肉眼来分辨页面上的元素。那么要如何定位到这些元素,本章会介绍各种定位元素的方法。
web 控件定位
id 定位
driver.find_element(By.ID,'query')
name 定位
driver.find_element(By.NAME,'query')
通常来说 name 属性与 id 属性在页面中唯一,推荐使用这两个属性进行定位。
XPath定位
XPath 是一个定位语言,英文全称为:XML Path Language,用来对 XML 上的元素进行定位,但也适用于 HTML,下面来看一个例子。
要定位的元素是 Sogou 首页的搜索输入框。
首先寻找 id 为 sf 的 form 元素,然后再寻找它的子元素 span,span 的 class 属性为 sec-input-box,最后找 span 的子元素 input,以下代码演示。
driver.find_element(By.XPATH,"//form[@id='sf']/span[@class='sec-input-box']/input")
下面的定位也可以找到这个 input,请注意,这里使用了双斜杠//,它可以找到子孙节点,而但斜杠/只能找到子节点,以下代码演示。
driver.find_element(By.XPATH,"//form[@id='sf']//input[@id='query']")
XPath 表达式更多内容可参考下面表格。
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
. . | 选取当前节点的父节点。 |
@ | 选取属性。 |
如何检验 XPath 定位是否正确?可以使用 chrome 的检查模式 -> Console,输入$x(‘XPath 表达式’)即可。
通过 css_selector
XPath 可以定位绝大多数元素,但是 XPath 采用从上到下的遍历模式,速度并不快,而 css selector 采用样式定位,速度要优于 XPath,而且语法更简洁。下面是 Selenium 使用 css selector 的例子。
css selector 找到 class 属性值为 active 的元素,然后>表示找 class 属性为 active 的元素的子节点,以下代码演示。
driver.driver.find_element(By.CSS_SELECTOR,'.logo-big')
下表列出了常用的 css_selector 表达式的用法。
表达式 | 描述 |
---|---|
.intro | class=“intro” 的所有元素 |
#firstname | id=“firstname” 的所有元素 |
a[target=_blank] | 具有属性 target=“_blank” 的所有 a 元素 |
p:nth-child(2) | 属于其父元素的第二个 p 元素 |
使用 Chrome 的检查模式 -> Console 也可以在当前页面检测 css_selector 是否正确,输入$(‘css selector 表达式’)即可。
link 定位
link定位是专门用于定位超链接的,比如页面上显示文字且可以点击跳转的元素就可以算做是超链接,查看控制台可以看到这种元素一般都在标签后面。
代码如下:
driver.driver.find_element(By.LINK_TEXT, '新闻')
也可以采用部分匹配方式,不必写全:新闻”,以下是代码演示。
driver.driver.find_element(By.LINK_TEXT, '新')
tag_name 定位
DOM 结构中,元素都有自己的 tag,比如 input tag,button tag,anchor tag 等等,每一个 tag 拥有多个属性,比如 id,name,value class 等等。
下面的高亮部分就是 tag:
可以使用 tag 进行定位:
driver.driver.find_element(By.TAG_NAME,'input')
要注意,尽量避免使用 tag_name 定位元素,因为有大量重复的元素!
class_name 定位
可以通过元素的 class 属性值进行定位。
这里的 active 用的就是上图 class 的值。
driver.driver.find_element(By.CLASS_NAME, 'active')
推荐使用
- ID/Name 是最安全的定位选项。根据 W3C 标准,它在页面中是唯一的,ID 在树结构中也是唯一的。
- CSS Selector 语法简洁,搜索速度快于 XPath。
- XPath 定位功能强大,采用遍历搜索,速度略慢。
- link,class name, tag name:不推荐使用,无法精准定位。
常见操作
Selenium 常见操作有:
- 输入、点击、清除。
- 关闭窗口、浏览器。
- 获取元素属性。
- 获取网页源代码、刷新页面。
- 设置窗口大小。
输入、点击、清除
输入、点击、清除在 Selenium 中对应的方法分别是 send_keys、click、clear。
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http://www.baidu.***')
driver.find_element(By.NAME,'wd').send_keys('霍格沃兹测试学院')
driver.find_element(By.ID,'su').click()
driver.find_element(By.NAME,'wd').clear()
关闭窗口、浏览器
关闭当前句柄窗口(不关闭进程)close(),关闭整个浏览器进程 quit()。
#导入对应的依赖
from selenium import webdriver
#初始化webdriver
driver = webdriver.Chrome()
#访问网站
driver.get('http"//www.baidu.***')
#关闭当前窗口
driver.close()
#关闭浏览器
driver.quit()
获取元素属性
获取元素标签上的属性 get_attribute(‘value’),元素的坐标 location,元素的大小 size。
import logging
from selenium import webdriver
def test_baidu():
driver = webdriver.Chrome()
driver.get('https://www.baidu.***')
search = driver.find_element(By.ID,'su')
logging.basi***onfig(level=logging.INFO)
logging.info(search.get_attribute('value'))
#获取search的value属性值并打印
logging.info(search.get_attribute('value'))
#打印search的位置坐标
logging.info(search.location)
#打印search的元素大小
logging.info(search.size)
预期结果:
INFO:root:百度一下
INFO:root:百度一下
INFO:root:{'x':844,'y':188}
INFO:root:{'height':44,'width':108}
获取网页源代码、刷新页面
网页源代码 page_source,刷新页面 refresh()。
import logging
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http"//www.baidu.***')
#刷新页面
driver.refresh()
logging.basi***onfig(level=logging.INFO)
#打印当前页面的源代码
logging.info(driver.page_source)
设置窗口大小
设置窗口大小主要有最小化、最大化和自定义设置窗口具体的大小。
from selenium import webdriver
driver = webdriver.Chrome()
driver.get('http"//www.baidu.***')
#最小化窗口
driver.minimize_window()
#最大化窗口
driver.maximize_window()
#将浏览器设置为1000*1000的大小
driver.set_window_size(1000, 1000)