吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4452|回复: 32
收起左侧

[Python 转载] 爬自己的网站。。。。。

  [复制链接]
zac7 发表于 2019-11-13 17:05
本帖最后由 zac7 于 2019-11-13 17:25 编辑

之前有转载一个文章,觉得写得挺好的,属于鸡汤文吧,然后就是格式让人很讨厌,我寻思就搞下来然后整理一下。
[Python] 纯文本查看 复制代码
#-*- coding:utf-8 -*-
# author:**Zac7**
# datetime:2019/11/13 12:29
# software: PyCharm
from lxml import etree
import requests
import csv

class Jt(object):
    def __init__(self):
        self.url = 'https://www.wyly.work/articles/26/'
        self.headers={
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"
        }
  
    def get_html(self):
        resp = requests.get(url=self.url,headers=self.headers).text
        html = etree.HTML(resp)
        pattern = '//div[@class="post-description"]//div//p/text()'
        content = html.xpath(pattern)
        # print(content)
        content_str = ''.join(content)
        new=content_str.replace('原文:', ' ')
        new1=new.replace('笔记:2016-12-07', ' ')
        new2=new1.replace('笔记:2016-12-08', ' ')
        new3 = new2.replace('笔记:2016-12-09', ' ')
        print(new3)
        self.save_f(new3)

    def save_f(self, new3):
        with open('saf.csv', 'w',newline='') as f:
            f.write(new3)
            f.close()

    def run(self):
        self.get_html()


if __name__ == '__main__':
    j=Jt()
    j.run()

这是网站上的WEB界面

这是网站上的WEB界面

这是我去掉字符串之后的

这是我去掉字符串之后的

免费评分

参与人数 1吾爱币 +1 热心值 +1 收起 理由
PetterQing + 1 + 1 用心讨论,共获提升!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| zac7 发表于 2019-11-13 17:08
我没找到那种一次去除多重特定字符的方法,所以只能用笨方法,如果谁会可以那种一次性去几种字符的方法,麻烦评论区回复一下,我好改进
fortytwo 发表于 2020-7-28 17:54
zac7 发表于 2019-11-13 17:08
我没找到那种一次去除多重特定字符的方法,所以只能用笨方法,如果谁会可以那种一次性去几种字符的方法,麻 ...

把要去的特定字符装数组里啊,遍历数组,然后循环去重就完事了。
list = ['要去的1','要去的2']
for item in list:
     new = new.replace(item, ' ')
阿里巴巴董事长 发表于 2019-11-15 00:39
学习了    ,感谢                                                   
2Burhero 发表于 2019-11-13 17:08
爬虫玩的溜的小心被请去喝茶
 楼主| zac7 发表于 2019-11-13 17:10
2Burhero 发表于 2019-11-13 17:08
爬虫玩的溜的小心被请去喝茶

我自己的网站,我不怕被请,哈哈
很久以前见过你 发表于 2019-11-13 17:18
厉害啊很可以
 楼主| zac7 发表于 2019-11-13 17:21

基操基操,见笑了
supermarioo 发表于 2019-11-13 17:22
这是有多无聊,自己爬自己,哈哈
zats167 发表于 2019-11-13 17:28
挺好的,学习了
WAITME66 发表于 2019-11-13 17:37
谢谢楼主分享,一定要顶起来
XiaoBaizzZ 发表于 2019-11-13 17:44
谢谢楼主分享,一定要顶起来厉害了,值得学习
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 01:22

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表