45人加入学习
(0人评价)
CFTA三级全程班(课程有效期:两年)
价格 ¥ 8800.00

1、网络爬虫:

执行便利/多次查询/完成传统引擎无法做到的事

2、API>网络爬虫

注:数据来源分散/所需数据小众/部分网站缺乏设施及技术建立API/API请求内容、次数、格式、数据类型限制、

3、网络数据采集(python程序编写)

数据库存储/数据可视化

4、网络连接

发送消息体/寻求服务器请求/互联网发送/数据中介游历/数据包接受/网络服务器应用/数据请求类型(GET请求/请求文件index.html)

代码:

from urlib.request import urlopen

html=urlopen("http://pythonscraping.com/pages/page1.html")

保存代码-终端运行命令($python scrapetest.py)

5、BeautifulSoup(单独安装)

Mac系统采取$sudo easy_install pip,安装Python的包管理器pip,然后运行:$pip install beautifulsoup4来进行安装

Windows安装须下载BeautifulSoup 4源代码,解压后进入文件执行:python setup.py install

6、BeautifulSoup使用

from urllib.request import urlopen

from bs4 import BeautifulSoup

html=urlopen("http://www.pythonscraping.com/pages/page1.html")

bsObj=BeautifulSoup(html.read())

print(bsObj.h1)

输出结果:

<h1>An Interesting Title</h1>

例:等效:bsObj.h1/bsObj.html.body.h1/bsObj.nody.h1/bsObj.html.h1(任何html(xml)文件任意节点信息可被提取,仅需目标信息旁边或附近存在标记)

7、可靠的网络连接

html=urlopen("http://www.pythonscraping.com/pages/page1.html")

两类异常:

网页服务器上不存在(获取页面出现错误)(返回http错误)

服务器不存在

8、重新组织代码

from urllib.request import urlopen

from urllib.error import HTTPError

from bs4 import BeautifulSoup

def getTitle(url):

try:

html=urlopen(url)

except HTTPError as e:

return None

try:

bsObj=BeautifulSoup(html.read())

title=bsObj.body.h1

except AttributeError as e:

return None

return title

title=getTitle("http://www.pythonscraping.com/pages/page1.html")

if title==None:

print("Title could not be found")

else:

print(title)

[展开全文]