Python库大全(上)
本帖最后由 小韩新人 于 2020-8-26 18:59 编辑Python编程通用
https://img3.doubanio.com/view/group_topic/l/public/p204233431.webp
urlib -网络库(stdlib)
requests -网络库
grab -网络库(基于pycurl)
pycurl -网络库(绑定libcurl)
ullib3 - Python HTTP库,安全连接池、支持文件post、可用性高
httplib2一网络库
RoboBrowser -一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页
MechanicalSoup一个与网站自动交互Python库
mechanize -有状态、可编程的Web浏览库
socket -底层网络接口(stdlib)
Unirest for Python - Unirest是一套可用于 多种语言的轻量级的HTTP库
hyper - Python的HTTP/2客户端
PySocks - SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征,作为socket模块的直接替换网络爬虫框架
grab -网络爬虫框架(基 于pycur/multicur)
scrapy -网络爬虫框架(基 于twisted), 不支持Python3
pyspider -一个强大的爬虫系统
cola-一个分布式爬虫框架其他
portia -基于Scrapy的可视化爬虫
restkit - Python的HTTP资源工具包,它可以让你轻松地访问HTTP资源,并围绕它建立的对象
demiurge -基于PyQuery的爬虫微框架
HTML/XML解析器通用
lxml - C语言编写高效HTML/ XML处理库,支持XPath
cssselect -解析DOM树和CSS选择器
pyquery -解析DOM树和jQuery选择器
BeautifulSoup -低效HTML/ XML处理库,纯Python实现
html5lib -根据WHATWG规范生成HTML/ XML文档的DOM,该规范被用在现在所有的浏览器上
feedparser一解析RSS/ATOM feeds
MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串
xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块
xhtml2pdf -将HTML/CSS转换为PDF
untangle -轻松实现将XML文件转换为Python对象清理
Bleach -清理HTML (需要html5lib)
sanitize -为混乱的数据世界带来清明。文本处理 用于解析和操作简单文本的库。
后续我会把这些库的下载链接整理出来
sdlyfxjjc 发表于 2020-8-26 16:36
爬虫的话 学习那个呢 大佬
网络爬虫框架 grab -网络爬虫框架(基 于pycur/multicur)。 scrapy -网络爬虫框架(基 于twisted), 不支持Python3。 pyspider -一个强大的爬虫系统。cola-一个分布式爬虫框架。其他 portia -基于Scrapy的可视化爬虫。 restkit - Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源,并围绕它建立的对象。 demiurge -基于PyQuery的爬虫微框架。HTML/XML解析器 通用 lxml - C语言编写高效HTML/ XML处理库。支持XPath。 cssselect -解析DOM树和CSS选择器。pyquery -解析DOM树和jQuery选择器。 BeautifulSoup -低效HTML/ XML处理库,纯Python实现。 html5lib -根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。 feedparser一解析RSS/ATOM feeds。 MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串。 xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。 xhtml2pdf -将HTML/CSS转换为PDF。 untangle -轻松实现将XML文件转换为Python对象。清理 Bleach -清理HTML (需要html5lib)。sanitize -为混乱的数据世界带来清明。文本处理 用于解析和操作简单文本的库。 本帖最后由 龙舌兰 于 2020-8-26 17:38 编辑
urlib -网络库(stdlib)
requests -网络库
grab -网络库(基于pycurl)
pycurl -网络库(绑定libcurl)
ullib3 - Python HTTP库,安全连接池、支持文件post、可用性高
httplib2一网络库
RoboBrowser -一个简单的、极具Python风格的Python库,无需独立的浏览器即可浏览网页
MechanicalSoup一个与网站自动交互Python库
mechanize -有状态、可编程的Web浏览库
socket -底层网络接口(stdlib)
Unirest for Python - Unirest是一套可用于 多种语言的轻量级的HTTP库
hyper - Python的HTTP/2客户端
PySocks - SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征,作为socket模块的直接替换
网络爬虫框架
grab -网络爬虫框架(基 于pycur/multicur)
scrapy -网络爬虫框架(基 于twisted), 不支持Python3
pyspider -一个强大的爬虫系统
cola-一个分布式爬虫框架
其他
portia -基于Scrapy的可视化爬虫
restkit - Python的HTTP资源工具包,它可以让你轻松地访问HTTP资源,并围绕它建立的对象
demiurge -基于PyQuery的爬虫微框架
HTML/XML解析器
通用
lxml - C语言编写高效HTML/ XML处理库,支持XPath
cssselect -解析DOM树和CSS选择器
pyquery -解析DOM树和jQuery选择器
BeautifulSoup -低效HTML/ XML处理库,纯Python实现
html5lib -根据WHATWG规范生成HTML/ XML文档的DOM,该规范被用在现在所有的浏览器上
feedparser一解析RSS/ATOM feeds
MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串
xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块
xhtml2pdf -将HTML/CSS转换为PDF
untangle -轻松实现将XML文件转换为Python对象
清理
Bleach -清理HTML (需要html5lib) 给楼主点赞! 楼主威武!!!希望坚持下来!!! originalyws 发表于 2020-8-26 15:46
楼主威武!!!希望坚持下来!!!
谢谢支持 python库也太多了,动不动就import{:1_886:} liujieboss 发表于 2020-8-26 15:59
python库也太多了,动不动就import
;www确实,我经常忘了加库结果错误我以为我写错了找了半天才知道没加import 爬虫的话 学习那个呢 大佬 sdlyfxjjc 发表于 2020-8-26 16:36
爬虫的话 学习那个呢 大佬
下面有写哪些爬虫的库 没有窑裤善