吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3978|回复: 22
收起左侧

[Python 原创] 东方财富 股吧 爬虫

  [复制链接]
han5562877 发表于 2023-1-4 14:51

东方财富帖子爬取—以上证指数吧为例

概述

最近在学习文本情感分析, 找了很多作为案例的论坛贴吧作为爬取对象

本次的对象是东方财富的股吧

image-20230104144527987

代码

import requests
from lxml import etree
from time import sleep
import random
from fake_useragent import UserAgent

ua = UserAgent()

for p in range(4710):
    try:
        url = f'http://guba.eastmoney.com/list,zssh000001_{p + 1}.html'
        headers = {'User-Agent': ua.random}
        page = requests.get(url=url, headers=headers).content.decode('utf-8')
        tree = etree.HTML(page)

        for li in tree.xpath('//div[@id="articlelistnew"]/div')[1: -2]:
            try:
                popper = li.xpath('./span[@class="l4 a4"]/a/@data-popper')[0]
                if popper not in ['3006113720930996', '3006113720930996', '7428111481466798', '6712111507146464', '6255325874333310']:
                    read = li.xpath('./span[@class="l1 a1"]/text()')[0]
                    com = li.xpath('./span[@class="l2 a2"]/text()')[0]
                    title = li.xpath('./span[@class="l3 a3"]/a/text()')[0]
                    date = li.xpath('./span[@class="l5 a5"]/text()')[0]
                    row = f'{read},{com},{title},{date}'
                    print(row)
                    with open('上证指数吧.csv', 'a', encoding='utf-8-sig') as f:
                        f.write(row + '\n')
            except Exception as e:
                print(str(e))
    except Exception as e:
        print(str(e))
    finally:
        print(str(p))
        sleep(0.1 + random.random() / 10)

运行状况

image-20230104144901424

运行结果

image-20230104145026467

免费评分

参与人数 4吾爱币 +2 热心值 +4 收起 理由
小傲宇 + 1 + 1 会写爬虫就多写点,我爱看,也爱给你评分
ccc2 + 1 谢谢@Thanks!
zhaoqingdz + 1 谢谢@Thanks!
坐久落花多 + 1 + 1 看着挺有意思

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

白云云云 发表于 2023-1-4 17:43
nuoan 发表于 2023-1-4 15:43
出现ModuleNotFoundError: No module named 'fake_useragent', 好像用pip install 也装不上fake_useragent ...

刚测试不用ua也没有问题, 4,7,12行删掉, 13行内headers=headers删掉, 可以正常运行
echoxx 发表于 2023-1-4 15:50
nuoan 发表于 2023-1-4 15:43
出现ModuleNotFoundError: No module named 'fake_useragent', 好像用pip install 也装不上fake_useragent ...

可以给错误贴出来看看
qwerdf4567 发表于 2023-1-4 15:12
micksoft 发表于 2023-1-4 15:27
从哪里可以抓取到5日线10日线季线年线,这种数据?
nuoan 发表于 2023-1-4 15:43
出现ModuleNotFoundError: No module named 'fake_useragent', 好像用pip install 也装不上fake_useragent,怎么办?
Dumeng 发表于 2023-1-4 16:02
看看小姐姐的家
FIzz001 发表于 2023-1-4 16:19
爬完可以成为股神不
feiyu361 发表于 2023-1-4 16:58
爬完可以成为巴菲特么?
whsstc 发表于 2023-1-4 16:58
要成为股神
xiaoshu1688 发表于 2023-1-4 17:04
癌股哪里有牛市呢
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-25 00:01

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表