吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 8506|回复: 51
收起左侧

[Python 转载] 新人一枚,学了几天PYTHON爬虫,爬了一下猫眼~

  [复制链接]
bboydandy 发表于 2018-11-19 22:28
没有写文件处理的方法,还是感觉XPATH做爬虫最简单


[Python] 纯文本查看 复制代码
import requests
from requests.exceptions import RequestException
from lxml import etree

def get_one_page(url):
    headers = {'User-Agent': 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_1) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36'}
    response = requests.get(url , headers = headers)
    try:
        if response.status_code == 200:
            return response.text
        return None
    except RequestException:
        print('You can not do it~')
def parse_one_page(html):
    movie_list = etree.HTML(html).xpath('//dl[@class="board-wrapper"]/dd')
    for movie in movie_list:
        yield{
            'index' : movie.xpath('./i/text()'),
            'name' : movie.xpath('.//div[@class="movie-item-info"]//a/text()')[0],
            'star' : movie.xpath('.//div[@class="movie-item-info"]//p[@class="star"]/text()')[0].replace('\n',''),
            'releasetime' : movie.xpath('.//div[@class="movie-item-info"]//p[@class="releasetime"]/text()'),
        }

def main(offset):
    url = 'http://maoyan.com/board/4?offset=' + str(offset)
    html = get_one_page(url)
    dy = parse_one_page(html)
    for i in dy:
        print(i)
if __name__ == '__main__':
    for i in range(10):
        offset = i * 10
        main(offset)

免费评分

参与人数 4吾爱币 +2 热心值 +2 收起 理由
莫浪 + 1 我很赞同!
jishengwen + 1 我很赞同!
皓皓皓 + 1 我很赞同!
虫二hsh + 1 用心讨论,共获提升!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

hugangtingQ 发表于 2018-11-21 11:15
你们新手怕不是都是有语言底子的,看了下次连新手都不能叫了
澧有兰 发表于 2019-3-11 16:07
hugangtingQ 发表于 2018-11-21 11:15
你们新手怕不是都是有语言底子的,看了下次连新手都不能叫了

肯定是python的新手啊,有底子学得快,当你学了C++,Java。再来看python就很容易了
 楼主| bboydandy 发表于 2018-11-19 22:31
新手一枚,也请大神多指点~
感觉star这个主演字段还能处理一下,求大家好的建议~
执念i_ 发表于 2018-11-19 22:53
加油,共同学习
zwg876 发表于 2018-11-20 04:13
共勉,同学中!!!
fangdongjiadema 发表于 2018-11-20 11:18
学习了,......................
flyCai 发表于 2018-11-20 14:03
学习.........
头像被屏蔽
我不是小号 发表于 2018-11-20 14:18
提示: 作者被禁止或删除 内容自动屏蔽
ieqqwicf 发表于 2018-11-21 10:26
共同学习
寂灵天堂 发表于 2018-11-21 11:05
学习了~也是基于java的语言?
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-16 15:43

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表