吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2615|回复: 2
收起左侧

[Python 转载] 【爬虫】简单的demo,去哪儿门票相关信息爬取

[复制链接]
huguo002 发表于 2019-10-15 21:02
【爬虫】简单的demo,去哪儿门票相关信息爬取
【爬虫】简单的demo,去哪儿门票相关信息爬取

注意频率不要太快,不然容易挂比,ε=(′ο`*)))唉
糟糕.jpg
[Python] 纯文本查看 复制代码
#去哪儿景点信息抓取

# -*- coding: UTF-8 -*-
import requests
import re,time,os
from bs4 import BeautifulSoup
from fake_useragent import UserAgent
import time

class Qner(object):
    def __init__(self):
        self.ua=UserAgent()
        self.headers={"User-Agent":self.ua.random}
        self.url='https://piao.qunar.com/ticket/list.htm?keyword='
        self.city=city
        self.pagemax=int()
        self.hrefs=[]


    def get_pagemax(self):
        url=f'{self.url}{city}'
        response=requests.get(url,headers=self.headers)
        if response.status_code==200:
            soup=BeautifulSoup(response.text,'lxml')
            a=soup.find('div',class_="pager").find_all('a')
            pagemax=a[-2].get_text()
            self.pagemax=int(pagemax)


    def get_urllist(self):
        for i in range(1,self.pagemax+1):
            url=f'{self.url}{city}&page={i}'
            print(url)
            response = requests.get(url, headers=self.headers)
            time.sleep(2)
            if response.status_code == 200:
                soup = BeautifulSoup(response.text, 'lxml')
                divs=soup.find_all('div',class_="sight_item_detail clrfix")
                for div in divs:
                    name=div.find('a',class_="name").get_text()
                    print(name)
                    address=div.find('p',class_="address color999").find('span').get_text()
                    print(address)
                    try:
                        price=div.find('span',class_="sight_item_price").find('em').get_text()
                        print(price)
                    except:
                        print("价格不详!")
                    href = div.find('h3',class_='sight_item_caption').find('a')['href']
                    href = f'https://piao.qunar.com{href}'
                    self.hrefs.append(href)
                print(self.hrefs)
                time.sleep(5)

if __name__ == '__main__':
    city="北京"
    spider=Qner()
    spider.get_pagemax()
    spider.get_urllist()


qunaer.gif

免费评分

参与人数 1吾爱币 +2 热心值 +1 收起 理由
苏紫方璇 + 2 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

ms8557 发表于 2019-10-15 21:42
哥们 这个啥用啊···
生如上善若水 发表于 2019-10-16 00:05
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 15:45

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表