本帖最后由 龙舌兰 于 2020-8-26 17:38 编辑
urlib -网络库(stdlib)
requests -网络库
grab -网络库(基于pycurl)
pycurl -网络库(绑定libcurl)
ullib3 - Python HTTP库,安全连接池、支持文件post、可用性高
httplib2一网络库
RoboBrowser -一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页
MechanicalSoup一个与网站自动交互Python库
mechanize -有状态、可编程的Web浏览库
socket -底层网络接口(stdlib)
Unirest for Python - Unirest是一套可用于 多种语言的轻量级的HTTP库
hyper - Python的HTTP/2客户端
PySocks - SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征,作为socket模块的直接替换
网络爬虫框架
grab -网络爬虫框架(基 于pycur/multicur)
scrapy -网络爬虫框架(基 于twisted), 不支持Python3
pyspider -一个强大的爬虫系统
cola-一个分布式爬虫框架
其他
portia -基于Scrapy的可视化爬虫
restkit - Python的HTTP资源工具包,它可以让你轻松地访问HTTP资源,并围绕它建立的对象
demiurge -基于PyQuery的爬虫微框架
HTML/XML解析器
通用
lxml - C语言编写高效HTML/ XML处理库,支持XPath
cssselect -解析DOM树和CSS选择器
pyquery -解析DOM树和jQuery选择器
BeautifulSoup -低效HTML/ XML处理库,纯Python实现
html5lib -根据WHATWG规范生成HTML/ XML文档的DOM,该规范被用在现在所有的浏览器上
feedparser一解析RSS/ATOM feeds
MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串
xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块
xhtml2pdf -将HTML/CSS转换为PDF
untangle -轻松实现将XML文件转换为Python对象
清理
Bleach -清理HTML (需要html5lib)
|