python爬虫笔记——解析库的安装

HOW2J · 发表于 2020-2-20 19:10

抓取网页代码之后，就是从网页中提取信息。提取方式有多种多样，可以使用正则来提取，但写起来比较繁琐。但是有很多强大得解析库，如lxml、Beautiful Soup、pyquery等。此外，还提供了非常强大得解析方法，如XPath解析和CSS选择器解析等，可以利用它们高效便捷地从网页中提取有效信息。

lxml的安装
lxml是python的一个解析库，支持HTML和XML的解析，支持XPath解析方式，解析效率高。
- pip安装
  命令如下：
  pip3 install lxml
  没有报错，则安装成功。如果出现报错，可以采用wheel方式安装。 (链接：http://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml) 下载对应的wheel文件，找到本地安装python版本和系统对应的lxml版本，然后进入到lxml文件目录，利用pip进行安装：
  pip3 install lxml-3.8.0-cp36-cp36m-win_ amd64.whl
- 安装验证
  可以载python命令下验证：
```
$ pyhton
>>> import lxml
```
Beautiiful Soup的安装
Beautiful Soup是python的一个HTML或XML的解析库，利用它可以方便地从网页中提取数据，它拥有强大的API和多种多样的解析方式。
- 准备工作
  Beautiful Soup的HTML和XML解析器是依赖lxml库的，请确保lxml库已经成功安装。

from bs4 import BeautifulSoup
soup = BeautifulSoup('<p>hello</p>', 'lxml')
print(soup.p.string)

运行结果如下：hello

然后安装tesserocr即可，使用pip安装：pip3 install tesserocr pillow

import tesseroct  
from PIL import image
image = lmage.open('image.png')
print(tesseroct.image_to_text(image))

运行结果： Python3WebSpider

还可以直接调用file_to_text()方法：

import tesserocr
print(tesserocr.file_to_text('image.png'))

运行结果： Python3WebSpider

zaijiankelu · 发表于 2020-2-20 19:11

提示: 作者被禁止或删除内容自动屏蔽

HOW2J · 发表于 2020-2-20 19:12

欢迎大家评论

戒酒的李白 · 发表于 2020-2-20 19:53

我觉得正则匹配还行

dlytang · 发表于 2020-2-20 20:11

ocr还是用api吧，这个库识别率好像不太行，百度的也都免费，识别率也高

ll996075dd · 发表于 2020-2-20 20:22

谢谢楼主分享，解决了库的问题

在线小学生 · 发表于 2020-2-20 20:45

跟随一起学习,收藏了,明天过来送热心,今天的热心没有了...

asasas · 发表于 2020-2-20 21:18

感谢，感觉这个好难，比c难学

帐号		自动登录	找回密码
密码			注册[Register]

zaijiankelu zaijiankelu 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	zaijiankelu 发表于 2020-2-20 19:11 提示: 作者被禁止或删除内容自动屏蔽
	【吾爱破解论坛总版规】 - [让你充分了解吾爱破解论坛行为规则]
	回复支持举报

[Python 转载] python爬虫笔记——解析库的安装