Python库大全（上）

小韩新人 · 发表于 2020-8-26 15:24

本帖最后由小韩新人于 2020-8-26 18:59 编辑

Python编程通用

urlib -网络库(stdlib)
requests -网络库
grab -网络库(基于pycurl)
pycurl -网络库(绑定libcurl)
ullib3 - Python HTTP库，安全连接池、支持文件post、可用性高
httplib2一网络库
RoboBrowser -一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页
MechanicalSoup一个与网站自动交互Python库
mechanize -有状态、可编程的Web浏览库
socket -底层网络接口(stdlib)
Unirest for Python - Unirest是一套可用于多种语言的轻量级的HTTP库
hyper - Python的HTTP/2客户端
PySocks - SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征，作为socket模块的直接替换网络爬虫框架
grab -网络爬虫框架(基于pycur/multicur)
scrapy -网络爬虫框架(基于twisted)，不支持Python3
pyspider -一个强大的爬虫系统
cola-一个分布式爬虫框架其他
portia -基于Scrapy的可视化爬虫
restkit - Python的HTTP资源工具包，它可以让你轻松地访问HTTP资源，并围绕它建立的对象
demiurge -基于PyQuery的爬虫微框架
HTML/XML解析器通用
lxml - C语言编写高效HTML/ XML处理库，支持XPath
cssselect -解析DOM树和CSS选择器
pyquery -解析DOM树和jQuery选择器
BeautifulSoup -低效HTML/ XML处理库，纯Python实现
html5lib -根据WHATWG规范生成HTML/ XML文档的DOM，该规范被用在现在所有的浏览器上
feedparser一解析RSS/ATOM feeds
MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串
xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块
xhtml2pdf -将HTML/CSS转换为PDF
untangle -轻松实现将XML文件转换为Python对象清理
Bleach -清理HTML (需要html5lib)
sanitize -为混乱的数据世界带来清明。文本处理用于解析和操作简单文本的库。
后续我会把这些库的下载链接整理出来

小韩新人 · 发表于 2020-8-26 17:25

sdlyfxjjc 发表于 2020-8-26 16:36
爬虫的话学习那个呢大佬

网络爬虫框架 grab -网络爬虫框架(基于pycur/multicur)。 scrapy -网络爬虫框架(基于twisted)，不支持Python3。 pyspider -一个强大的爬虫系统。cola-一个分布式爬虫框架。其他 portia -基于Scrapy的可视化爬虫。 restkit - Python的HTTP资源工具包。它可以让你轻松地访问HTTP资源，并围绕它建立的对象。 demiurge -基于PyQuery的爬虫微框架。HTML/XML解析器通用 lxml - C语言编写高效HTML/ XML处理库。支持XPath。 cssselect -解析DOM树和CSS选择器。pyquery -解析DOM树和jQuery选择器。 BeautifulSoup -低效HTML/ XML处理库，纯Python实现。 html5lib -根据WHATWG规范生成HTML/ XML文档的DOM。该规范被用在现在所有的浏览器上。 feedparser一解析RSS/ATOM feeds。 MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串。 xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块。 xhtml2pdf -将HTML/CSS转换为PDF。 untangle -轻松实现将XML文件转换为Python对象。清理 Bleach -清理HTML (需要html5lib)。sanitize -为混乱的数据世界带来清明。文本处理用于解析和操作简单文本的库。

龙舌兰 · 发表于 2020-8-26 17:34

本帖最后由龙舌兰于 2020-8-26 17:38 编辑

urlib -网络库(stdlib)
requests -网络库
grab -网络库(基于pycurl)
pycurl -网络库(绑定libcurl)
ullib3 - Python HTTP库，安全连接池、支持文件post、可用性高
httplib2一网络库
RoboBrowser -一个简单的、极具Python风格的Python库，无需独立的浏览器即可浏览网页
MechanicalSoup一个与网站自动交互Python库
mechanize -有状态、可编程的Web浏览库
socket -底层网络接口(stdlib)
Unirest for Python - Unirest是一套可用于多种语言的轻量级的HTTP库
hyper - Python的HTTP/2客户端
PySocks - SocksiPy更新并积极维护的版本,包括错误修复和一些其他的特征，作为socket模块的直接替换

网络爬虫框架
grab -网络爬虫框架(基于pycur/multicur)
scrapy -网络爬虫框架(基于twisted)，不支持Python3
pyspider -一个强大的爬虫系统
cola-一个分布式爬虫框架

其他
portia -基于Scrapy的可视化爬虫
restkit - Python的HTTP资源工具包，它可以让你轻松地访问HTTP资源，并围绕它建立的对象
demiurge -基于PyQuery的爬虫微框架
HTML/XML解析器

通用
lxml - C语言编写高效HTML/ XML处理库，支持XPath
cssselect -解析DOM树和CSS选择器
pyquery -解析DOM树和jQuery选择器
BeautifulSoup -低效HTML/ XML处理库，纯Python实现
html5lib -根据WHATWG规范生成HTML/ XML文档的DOM，该规范被用在现在所有的浏览器上
feedparser一解析RSS/ATOM feeds
MarkupSafe -为XML/HTML/XHTML提供了安全转义的字符串
xmltodict-一个可以让你在处理XML时感觉像在处理JSON一样的Python模块
xhtml2pdf -将HTML/CSS转换为PDF
untangle -轻松实现将XML文件转换为Python对象

清理
Bleach -清理HTML (需要html5lib)

skerry · 发表于 2020-8-26 15:41

给楼主点赞！

originalyws · 发表于 2020-8-26 15:46

楼主威武！！！希望坚持下来！！！

小韩新人 · 发表于 2020-8-26 15:51

originalyws 发表于 2020-8-26 15:46
楼主威武！！！希望坚持下来！！！

谢谢支持

liujieboss · 发表于 2020-8-26 15:59

python库也太多了，动不动就import

小韩新人 · 发表于 2020-8-26 16:01

liujieboss 发表于 2020-8-26 15:59
python库也太多了，动不动就import

确实，我经常忘了加库结果错误我以为我写错了找了半天才知道没加import

sdlyfxjjc · 发表于 2020-8-26 16:36

爬虫的话学习那个呢大佬

小韩新人 · 发表于 2020-8-26 17:24

sdlyfxjjc 发表于 2020-8-26 16:36
爬虫的话学习那个呢大佬

下面有写哪些爬虫的库

fanvalen · 发表于 2020-8-26 17:31

没有窑裤善

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] Python库大全（上）

免费评分

本帖被以下淘专辑推荐: