45人加入学习
(0人评价)
CFTA三级全程班(课程有效期:两年)
价格 ¥ 8800.00

1、代码抽取内容

bsObj.findAll("table")[4].findAll("tr")[2].fin("td").findAll("div")[1].find("a")

网络爬虫可通过class属性值区分标签

<span class="green"></span>

<span class="red"></span>

2、BeautifulSoup的find()和findAll()

findAll(tag,attributes,recursive,text,limit,kewords)

find(tag,attributes,recursive,text,limit,kewords)

注:

标签参数tag:

可以传一个标签名称或多个标签名称组成python做标签参数

.findAll({"h1","h2","h3","h4","h5","h6"})

属性参数attributes:

用一个python字典封装标签若干属性与对应属性值

.findAll("span",{"class":{"green","red"}})

递归参数recursive:

布尔变量,默认值为True

3、导航树

bsObj.div.findAll("img")会找出文档中第一个div标签,获取div后代中所有img标签列表

寻找子标签

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj=BeautifulSoup(html)

for sibling in bsObj.find("table",{"id":"giftlist"}).tr.next_siblings:

print(sibling)

4、正则表达式

正则字符串:任意用一系列现行规则构成的字符串

字母“a”至少出现一次;后面再跟字母“b”重复5次;后面再跟字母“c”重复任意偶数次;最后一位是字母“d”,也可以没有

 

[展开全文]