爬自己的网站。。。。。

zac7 发表于 2019-11-13 17:05

本帖最后由 zac7 于 2019-11-13 17:25 编辑

之前有转载一个文章，觉得写得挺好的，属于鸡汤文吧，然后就是格式让人很讨厌，我寻思就搞下来然后整理一下。

#-*- coding:utf-8 -*-
# author:**Zac7**
# datetime:2019/11/13 12:29
# software: PyCharm
from lxml import etree
import requests
import csv

class Jt(object):
def __init__(self):
   self.url = 'https://www.wyly.work/articles/26/'
   self.headers={
         "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36"
   }

def get_html(self):
   resp = requests.get(url=self.url,headers=self.headers).text
   html = etree.HTML(resp)
   pattern = '//div[@class="post-description"]//div//p/text()'
   content = html.xpath(pattern)
   # print(content)
   content_str = ''.join(content)
   new=content_str.replace('原文：', ' ')
   new1=new.replace('笔记：2016-12-07', ' ')
   new2=new1.replace('笔记：2016-12-08', ' ')
   new3 = new2.replace('笔记：2016-12-09', ' ')
   print(new3)
   self.save_f(new3)

def save_f(self, new3):
   with open('saf.csv', 'w',newline='') as f:
         f.write(new3)
         f.close()

def run(self):
   self.get_html()

if __name__ == '__main__':
j=Jt()
j.run()

zac7 发表于 2019-11-13 17:08

我没找到那种一次去除多重特定字符的方法，所以只能用笨方法，如果谁会可以那种一次性去几种字符的方法，麻烦评论区回复一下，我好改进

fortytwo 发表于 2020-7-28 17:54

zac7 发表于 2019-11-13 17:08
我没找到那种一次去除多重特定字符的方法，所以只能用笨方法，如果谁会可以那种一次性去几种字符的方法，麻 ...

把要去的特定字符装数组里啊，遍历数组，然后循环去重就完事了。
list = ['要去的1','要去的2']
for item in list:
new = new.replace(item, ' ')

阿里巴巴董事长 发表于 2019-11-15 00:39

学习了，感谢

2Burhero 发表于 2019-11-13 17:08

爬虫玩的溜的小心被请去喝茶

zac7 发表于 2019-11-13 17:10

2Burhero 发表于 2019-11-13 17:08
爬虫玩的溜的小心被请去喝茶

我自己的网站，我不怕被请，哈哈

很久以前见过你 发表于 2019-11-13 17:18

厉害啊很可以

zac7 发表于 2019-11-13 17:21

很久以前见过你发表于 2019-11-13 17:18
厉害啊很可以

基操基操，见笑了

supermarioo 发表于 2019-11-13 17:22

这是有多无聊，自己爬自己，哈哈

zats167 发表于 2019-11-13 17:28

挺好的，学习了

WAITME66 发表于 2019-11-13 17:37

{:301_998:}谢谢楼主分享，一定要顶起来

XiaoBaizzZ 发表于 2019-11-13 17:44

谢谢楼主分享，一定要顶起来厉害了，值得学习

页: [1] 2 3 4

吾爱破解 - 52pojie.cn's Archiver

爬自己的网站。。。。。