45人加入学习
(0人评价)
CFTA三级全程班(课程有效期:两年)
价格 ¥ 8800.00

1、代码抽取内容

bsObj.findAll("table")[4].findAll("tr")[2].fin("td").findAll("div")[1].find("a")

网络爬虫可通过class属性值区分标签

<span class="green"></span>

<span class="red"></span>

2、BeautifulSoup的find()和findAll()

findAll(tag,attributes,recursive,text,limit,kewords)

find(tag,attributes,recursive,text,limit,kewords)

注:

标签参数tag:

可以传一个标签名称或多个标签名称组成python做标签参数

.findAll({"h1","h2","h3","h4","h5","h6"})

属性参数attributes:

用一个python字典封装标签若干属性与对应属性值

.findAll("span",{"class":{"green","red"}})

递归参数recursive:

布尔变量,默认值为True

3、导航树

bsObj.div.findAll("img")会找出文档中第一个div标签,获取div后代中所有img标签列表

寻找子标签

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://www.pythonscraping.com/pages/page3.html")

bsObj=BeautifulSoup(html)

for sibling in bsObj.find("table",{"id":"giftlist"}).tr.next_siblings:

print(sibling)

4、正则表达式

正则字符串:任意用一系列现行规则构成的字符串

字母“a”至少出现一次;后面再跟字母“b”重复5次;后面再跟字母“c”重复任意偶数次;最后一位是字母“d”,也可以没有

 

[展开全文]

1、网络爬虫:

执行便利/多次查询/完成传统引擎无法做到的事

2、API>网络爬虫

注:数据来源分散/所需数据小众/部分网站缺乏设施及技术建立API/API请求内容、次数、格式、数据类型限制、

3、网络数据采集(python程序编写)

数据库存储/数据可视化

4、网络连接

发送消息体/寻求服务器请求/互联网发送/数据中介游历/数据包接受/网络服务器应用/数据请求类型(GET请求/请求文件index.html)

代码:

from urlib.request import urlopen

html=urlopen("http://pythonscraping.com/pages/page1.html")

保存代码-终端运行命令($python scrapetest.py)

5、BeautifulSoup(单独安装)

Mac系统采取$sudo easy_install pip,安装Python的包管理器pip,然后运行:$pip install beautifulsoup4来进行安装

Windows安装须下载BeautifulSoup 4源代码,解压后进入文件执行:python setup.py install

6、BeautifulSoup使用

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://www.pythonscraping.com/pages/page1.html")

bsObj=BeautifulSoup(html.read())

print(bsObj.h1)

输出结果:

<h1>An Interesting Title</h1>

例:等效:bsObj.h1/bsObj.html.body.h1/bsObj.nody.h1/bsObj.html.h1(任何html(xml)文件任意节点信息可被提取,仅需目标信息旁边或附近存在标记)

7、可靠的网络连接

html=urlopen("http://www.pythonscraping.com/pages/page1.html")

两类异常:

网页服务器上不存在(获取页面出现错误)(返回http错误)

服务器不存在

8、重新组织代码

from urllib.request import urlopen

from urllib.error import HTTPError

from bs4 import BeautifulSoup

def getTitle(url):

try:

html=urlopen(url)

except HTTPError as e:

return None

try:

bsObj=BeautifulSoup(html.read())

title=bsObj.body.h1

except AttributeError as e:

return None

return title

title=getTitle("http://www.pythonscraping.com/pages/page1.html")

if title==None:

print("Title could not be found")

else:

print(title)

[展开全文]