吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 973|回复: 5
收起左侧

[求助] 为什么直接none了 而不是打印标签内容

[复制链接]
一只凉不了 发表于 2020-9-16 23:24
本帖最后由 一只凉不了 于 2020-9-16 23:26 编辑

import requests

from lxml import etree

class Tieba(object):
   
    def __init__(self,name):
        self.url ="https://tieba.baidu.com/f?ie=utf-8&kw={}".format(name)
        self.headers = {
            "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36"
        }
    def get_data(self,url):
        response = requests.get(url,headers=self.headers)
      
        return response.content
        #返回响应
    def parse_data(self,data):
        
        data = data.decode().replace("<!--","").replace("-->","")
        # 在网页中;浏览器会注释掉网页源码 可能无法爬取需要的数据所以需要将网页源码中注释掉的代码进行启用
        # data这个参数接收decode这个方法接收的网页源码
        html = etree.HTML(data)
        el_list =html.xpath('//*[@id="thread_list"]/li[@class=" j_thread_list clearfix"]/div/div[2]/div[1]/div[1]/a')
      
        data_list=[]
        for el in el_list:
            temp ={}

            temp['title'] = el.xpath('./text()')[0]
            temp['link'] = 'https://tieba.baidu.com' + el.xpath('./@href')[0]
           
            data_list.append(temp)
         
        try:
            next_url = 'https:' + html.xpath('//*[contains(text(),"下一页>")]/@href')[0]
        except:
            next_url = None
        return data_list,next_url

    def save_data(self,data_list):
        for data in data_list:
            print(data)
            #接收数据
    def run (self):
   
        next_url=self.url
        while True:
        #发送请求
            data = self.get_data(next_url)
            #从响应中提取数据(数据和翻页的url)
            data_list,next_url=self.parse_data(data)
            self.save_data(data_list)
            print(next_url)
            #判断是否终结
            if next_url == None:
                break
if __name__ == '__main__':
    tieba = Tieba("西京")
    tieba.run()

结果

结果

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

南岸 发表于 2020-9-16 23:30
我怎么可以呀
QQ截图20200916233022.png
南岸 发表于 2020-9-16 23:31
EnterpriseSolu 发表于 2020-9-17 07:21
win111jack 发表于 2020-9-17 07:38
ip问题?
zheng10072 发表于 2020-9-17 09:33
先抓一些免费的代{过}{滤}理,用代{过}{滤}理爬虫。爬的时候请求间要适当的sleep一下,爬的太快容易封ip
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 12:18

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表