吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1566|回复: 7
收起左侧

[求助] Python如何获取从(网页、Word、Excel....)复制的所有内容(含格式)

[复制链接]
panison 发表于 2022-4-9 10:27
本帖最后由 panison 于 2022-4-9 11:07 编辑

如题,Python如何获取从(网页、Word、Excel....)复制的所有内容(含格式,例如:颜色、字体、表格、图片等)?使用什么模块?

=============================================================================
很抱歉,之前少了复制两个字。

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

gusong125 发表于 2022-4-9 10:35
这个貌似没有这样的第三方库
MyModHeaven 发表于 2022-4-9 10:51
应该没有吧。

别的我没有接触过,用过解析网页的:lxml, bs4,还有 selenium,获取网页中的文本,都只能得到文字本身。而且从原理上来看,也不能。因为在 HTML 文档中,文字的字体、颜色、大小等格式都是另外设置的,和文字本身不在一起,比如:

<font color=red> 【吾爱破解论坛总版规】 - [让你充分了解吾爱破解论坛行为规则]</font>

看这个节点,包含的文本就是中间的汉字,但是文本的颜色是 <font></font> 这个节点的一个属性,如果想同时得到文本和文本的格式的话,需要自己设置。就是说爬取文本的时候也要得到文本的格式,然后再写代码设置格式。


hs248613 发表于 2022-4-9 10:58
看看下面视频讲解对你有没有用(Word里获取文字、格式)
https://www.bilibili.com/video/BV1FC4y1Y7QC?spm_id_from=333.999.0.0
yuechaomax 发表于 2022-4-9 11:38
xpath可以用。
fanvalen 发表于 2022-4-9 11:58
跨平台关系,读取信息不是完全的。
比如网页,你从页面看到的和从代码上看到的完全部一样,代码分成源代码、css、js,data等几个部分组成,光拿到源代码显示的内容是没有字体大小样式字颜色位置类型和网格布局效果的
表格和文档你可以更改后缀为rar解压后你也会发现有css和样式的独立文件,
由于表格和网页是不同平台css规则不一样,不能完全通用
 楼主| panison 发表于 2022-4-9 15:17
hs248613 发表于 2022-4-9 10:58
看看下面视频讲解对你有没有用(Word里获取文字、格式)
https://www.bilibili.com/video/BV1FC4y1Y7QC?sp ...

谢谢!我是没表述清楚,漏了复制两个字。
 楼主| panison 发表于 2022-4-11 15:08
fanvalen 发表于 2022-4-9 11:58
跨平台关系,读取信息不是完全的。
比如网页,你从页面看到的和从代码上看到的完全部一样,代码分成源代码 ...

谢谢!我举个例子:我从网页复制文字到Word时,能把 字体的颜色等一并复制过来。但是不知道有没有这样的python模块能读取复制的内容,并把复制的内容按照原格式输出。
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 14:46

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表