新学python写一个爬虫玩玩

小小的石头13 发表于 2021-1-28 10:59

刚学python，写了一个随着网页链接乱跳的爬虫，效果不是很理想老哥们看看哪里能改进。学习学习{:1_893:}

打开输入网址就行了http://xxxx网址打全

import requests
import re
import time
from bs4 import BeautifulSoup
import lxml
from random import randint,choice

global url_list
url_list = []
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.96 Safari/537.36 Edg/88.0.705.50'}
#uu = input(':-)')
def get_link(url):
global url_list
try:
   response = requests.get(url,headers = headers)
   bs0bj = BeautifulSoup(response.text,'lxml')
   reg = re.findall(r'(www..*?.com)',response.text)
   #print(reg)
   url1 = 'http://' + reg
   #print(url1)

   if url1 not in url_list:
         url_list.append(url1)

         print(bs0bj.title.get_text(),'\n')
         print(bs0bj.h1.get_text(),'\n')
         print(bs0bj.h2.get_text(),'\n')
         print(bs0bj.p.get_text(),'\n')
         #time.sleep(1)
         print('*'*80)
         get_link(url1)

except:
   get_link(choice(url_list))

get_link(input('输入url:'))

小小的石头13 发表于 2021-1-28 11:00

顶顶顶，老哥们加油

diaozatian815 发表于 2021-1-28 11:03

thepoy 发表于 2021-1-28 11:37

如果是刚学python，写成这样不错了，没什么大毛病。
随着经验增长，你就能知道如何设计代码结构和逻辑了，还能知道Obj 不是 0bj了。

kbqns2012 发表于 2021-1-28 11:43

爬虫有什么用？

fanvalen 发表于 2021-1-28 12:24

只能说引入的模块太多使用的太少，也不是专精，

小小的石头13 发表于 2021-1-28 13:45

刚开始学，毕竟不是很熟

YANXIA57 发表于 2022-5-8 18:27

这个爬什么

页: [1]

吾爱破解 - 52pojie.cn's Archiver

新学python写一个爬虫玩玩