1、网络爬虫:
执行便利/多次查询/完成传统引擎无法做到的事
2、API>网络爬虫
注:数据来源分散/所需数据小众/部分网站缺乏设施及技术建立API/API请求内容、次数、格式、数据类型限制、
3、网络数据采集(python程序编写)
数据库存储/数据可视化
4、网络连接
发送消息体/寻求服务器请求/互联网发送/数据中介游历/数据包接受/网络服务器应用/数据请求类型(GET请求/请求文件index.html)
代码:
from urlib.request import urlopen
html=urlopen("http://pythonscraping.com/pages/page1.html")
保存代码-终端运行命令($python scrapetest.py)
5、BeautifulSoup(单独安装)
Mac系统采取$sudo easy_install pip,安装Python的包管理器pip,然后运行:$pip install beautifulsoup4来进行安装
Windows安装须下载BeautifulSoup 4源代码,解压后进入文件执行:python setup.py install
6、BeautifulSoup使用
from urllib.request import urlopen
from bs4 import BeautifulSoup
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
bsObj=BeautifulSoup(html.read())
print(bsObj.h1)
输出结果:
<h1>An Interesting Title</h1>
例:等效:bsObj.h1/bsObj.html.body.h1/bsObj.nody.h1/bsObj.html.h1(任何html(xml)文件任意节点信息可被提取,仅需目标信息旁边或附近存在标记)
7、可靠的网络连接
html=urlopen("http://www.pythonscraping.com/pages/page1.html")
两类异常:
网页服务器上不存在(获取页面出现错误)(返回http错误)
服务器不存在
8、重新组织代码
from urllib.request import urlopen
from urllib.error import HTTPError
from bs4 import BeautifulSoup
def getTitle(url):
try:
html=urlopen(url)
except HTTPError as e:
return None
try:
bsObj=BeautifulSoup(html.read())
title=bsObj.body.h1
except AttributeError as e:
return None
return title
title=getTitle("http://www.pythonscraping.com/pages/page1.html")
if title==None:
print("Title could not be found")
else:
print(title)