吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3993|回复: 33
收起左侧

[Python 转载] 【Python爬虫】学习新思想,争做新青年。

  [复制链接]
小涩席 发表于 2020-3-5 17:20
应某位坛友要求,提供的爬虫。可学习新思想,提高觉悟。代码如下
# -*- coding :'UTF-8' -*-
# http://dangjian.com/djw2016sy/djw2016wkztl/wkztl2016xihy/index.shtml
# Author:XSX

import requests
from lxml import etree
import os
import time

def GetHomeLinks(url, headers):
    HomepageLinks = []
    r = requests.get(url, headers=headers)
    html = etree.HTML(r.text)
    HomeLinks = html.xpath('//div[@class="main-left"]/ul/li/div/a/@href')
    for HomeLink in HomeLinks:
        htmlPage = 'http://dangjian.com/djw2016sy/djw2016wkztl/wkztl2016xihy' + str(HomeLink)[1:]
        HomepageLinks.append(htmlPage)
    print(HomepageLinks)
    return HomepageLinks

def DownloadPage(HomepageLinks, headers):
    if not os.path.exists("./News"):
        os.mkdir("./News")
    for HomepageLink in HomepageLinks:
        time.sleep(3)
        r1 = requests.get(HomepageLink, headers=headers)
        r1.encoding = r1.apparent_encoding
        html1 = etree.HTML(r1.text)
        Titles = html1.xpath('//div[@id="title_tex"]/text()')
        Textdatas = html1.xpath('//div[@class="TRS_Editor"]/p/text()')
        NeiRong = str(Titles) + '\n' + str(Textdatas).replace(r'\xa0', '').replace(r'\u3000', '')
        with open('./News/' + str(Titles).replace("['", "").replace("']", "") + '.txt', 'a')as f:
            f.write(NeiRong)
        print("已保存!")
    print("已全部下载!")

if __name__ == '__main__':
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.116 Safari/537.36',
        'Cookie': 'wdcid=7c80b781c03f1605; wdlast=1583386171'
    }
    url = "http://dangjian.com/djw2016sy/djw2016wkztl/wkztl2016xihy/index.shtml"
    DownloadPage(GetHomeLinks(url, headers), headers)

免费评分

参与人数 6吾爱币 +3 热心值 +6 收起 理由
wangzai + 1 热心回复!
hshcompass + 1 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
随缘而遇 + 1 反正免费的,奉上评分
catti518 + 1 + 1 我很赞同!
OceanJ4Nnn + 1 + 1 谢谢@Thanks!
haoweixl + 1 我很赞同!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

zucker 发表于 2020-3-5 17:56
萌新小白白 发表于 2020-3-5 17:48
大佬,我提示这个,这个怎么解决
No module named requests
Unresolved reference "lxml'

pip install,点下支持哦
 楼主| 小涩席 发表于 2020-3-5 17:34
Dimple 发表于 2020-3-5 17:28
学习到了,感谢楼主,以及向你提需求的那位朋友

一起提高。
Dimple 发表于 2020-3-5 17:28
学习到了,感谢楼主,以及向你提需求的那位朋友
GerMInChars 发表于 2020-3-5 17:36
可以,很强势的
OceanJ4Nnn 发表于 2020-3-5 17:40
謝謝分享,正準備研究自己寫爬蟲
lamjiarong 发表于 2020-3-5 17:44
remark.谢谢分享!
雨落惊鸿, 发表于 2020-3-5 17:48
爬的是什么?
萌新小白白 发表于 2020-3-5 17:48
大佬,我提示这个,这个怎么解决
No module named requests
Unresolved reference "lxml'
Unresolved reference 'etree'
ll996075dd 发表于 2020-3-5 18:00
萌新小白白 发表于 2020-3-5 17:48
大佬,我提示这个,这个怎么解决
No module named requests
Unresolved reference "lxml'

缺少模块,lxml这个解析
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 08:25

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表