1、代码抽取内容
bsObj.findAll("table")[4].findAll("tr")[2].fin("td").findAll("div")[1].find("a")
网络爬虫可通过class属性值区分标签
<span class="green"></span>
<span class="red"></span>
2、BeautifulSoup的find()和findAll()
findAll(tag,attributes,recursive,text,limit,kewords)
find(tag,attributes,recursive,text,limit,kewords)
注:
标签参数tag:
可以传一个标签名称或多个标签名称组成python做标签参数
.findAll({"h1","h2","h3","h4","h5","h6"})
属性参数attributes:
用一个python字典封装标签若干属性与对应属性值
.findAll("span",{"class":{"green","red"}})
递归参数recursive:
布尔变量,默认值为True
3、导航树
bsObj.div.findAll("img")会找出文档中第一个div标签,获取div后代中所有img标签列表
寻找子标签
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page3.html")
bsObj=BeautifulSoup(html)
for sibling in bsObj.find("table",{"id":"giftlist"}).tr.next_siblings:
print(sibling)
4、正则表达式
正则字符串:任意用一系列现行规则构成的字符串
字母“a”至少出现一次;后面再跟字母“b”重复5次;后面再跟字母“c”重复任意偶数次;最后一位是字母“d”,也可以没有