吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2738|回复: 7
收起左侧

[Python 转载] 新学python写一个爬虫玩玩

[复制链接]
小小的石头13 发表于 2021-1-28 10:59
刚学python,写了一个随着网页链接乱跳的爬虫,效果不是很理想老哥们看看哪里能改进。学习学习


打开输入网址就行了http://xxxx网址打全


[Python] 纯文本查看 复制代码
import requests
import re
import time
from bs4 import BeautifulSoup
import lxml
from random import randint,choice

global url_list
url_list = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.50'}
#uu = input(':-)')
def get_link(url):
    global url_list
    try:
        response = requests.get(url,headers = headers)
        bs0bj = BeautifulSoup(response.text,'lxml')
        reg = re.findall(r'(www..*?.com)',response.text)
        #print(reg)
        url1 = 'http://' + reg[randint(0,5)]
        #print(url1)
        
        if url1 not in url_list:
            url_list.append(url1)
        
            print(bs0bj.title.get_text(),'\n')
            print(bs0bj.h1.get_text(),'\n')
            print(bs0bj.h2.get_text(),'\n')
            print(bs0bj.p.get_text(),'\n')
            #time.sleep(1)
            print('*'*80)
            get_link(url1)

    except:
        get_link(choice(url_list))

get_link(input('输入url:'))

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| 小小的石头13 发表于 2021-1-28 11:00
顶顶顶,  老哥们加油
头像被屏蔽
diaozatian815 发表于 2021-1-28 11:03
thepoy 发表于 2021-1-28 11:37
如果是刚学python,写成这样不错了,没什么大毛病。
随着经验增长,你就能知道如何设计代码结构和逻辑了,还能知道  Obj 不是 0bj了。
kbqns2012 发表于 2021-1-28 11:43
爬虫有什么用?
fanvalen 发表于 2021-1-28 12:24
只能说引入的模块太多使用的太少,也不是专精,
 楼主| 小小的石头13 发表于 2021-1-28 13:45
刚开始学,毕竟不是很熟
YANXIA57 发表于 2022-5-8 18:27
这个爬什么
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 05:49

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表