吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1335|回复: 15
收起左侧

[求助] PYTHON 爬虫 求 帮忙写段保存代码!

[复制链接]
wang2019 发表于 2020-8-11 01:48
本帖最后由 wang2019 于 2020-8-11 01:51 编辑



                                                                                                     研究好几天了 还是没研究出来             
                                                            
                                                                                           请大佬帮忙写段代码,把数据保存到EXCEL(一共五列)里面

                                                                                                    尽量不要写函数小弟刚开始学爬虫,感谢!



[Python] 纯文本查看 复制代码
import requests
from lxml import etree
import xlwt     #进行excel操作

datalist = []
url = 'https://www.bilibili.com/ranking'

headers = {
   "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
}
resp = requests.get(url,headers = headers)
html = resp.text

parse_html = etree.HTML(html)

#解析数据
Upzhu = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[1]/a/span/text()')
datalist.append(Upzhu)

title = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/a/text()')
datalist.append(title)

bofangliang = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[1]/span[1]/text()')
datalist.append(bofangliang)

pinglunshu = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[1]/span[2]/text()')
datalist.append(pinglunshu)

zonghedefen = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[2]/div/text()')
datalist.append(zonghedefen)

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

pwp 发表于 2020-8-11 02:21
本帖最后由 pwp 于 2020-8-11 02:26 编辑

[Python] 纯文本查看 复制代码
import pandas as pd
filename = 'xxxxx.xlsx'
excel[[color=#008080][b]'[/b][/color][color=#008080][b]你要在表格显示的名字[/b][/color][color=#008080][b]'[/b][/color]] = pd.DataFrame(Upzhu)  [color=#808080][i]# [/i][/color][color=#808080][i]转换成电子表格识别的格式[/i][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(title)  [color=#808080][i]# [/i][/color][color=#808080][font="][i]转换成电子表格识别的格式[/i][/font][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(bofangliang)  [color=#808080][i]# [/i][/color][color=#808080][font="][i]转换成电子表格识别的格式[/i][/font][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(pinglunshu)  [color=#808080][i]# [/i][/color][color=#808080][font="][i]转换成电子表格识别的格式[/i][/font][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(zonghedefen)  [color=#808080][i]# [/i][/color][color=#808080][font="][i]转换成电子表格识别的格式[/i][/font][/color]excel.to_excel(filename, [color=#660099]index[/color]=[color=#000080][b]False[/b][/color])


不知为啥上面好乱,重新定义:

[Python] 纯文本查看 复制代码
import pandas as pd
filename = 'xxxxx.xlsx'
excel['你要在表格显示的名字'] = pd.DataFrame(你的数据变量名) 
 
pwp 发表于 2020-8-11 02:57
 楼主| wang2019 发表于 2020-8-11 04:14
本帖最后由 wang2019 于 2020-8-11 04:15 编辑
pwp 发表于 2020-8-11 02:57
excel.to_excel(filename, index=False)

大佬 先谢谢这么晚回复
按你的方法试了一下会报错,显示没有定义,不知道是不是我的方法不对
[Python] 纯文本查看 复制代码
import pandas as pd
filename = 'Bilibili.xlsx'
excel['test'] = pd.DataFrame(datalist[0])
excel.to_excel(filename, index=False)


这是报的错误:
[Python] 纯文本查看 复制代码
Traceback (most recent call last):
  File "H:/Pycharm/dou.py", line 39, in <module>
    excel['test'] = pd.DataFrame(datalist[0])
NameError: name 'excel' is not defined
头像被屏蔽
Menguy 发表于 2020-8-11 07:47
提示: 作者被禁止或删除 内容自动屏蔽
dbu00956 发表于 2020-8-11 07:53
NameError: name 'excel' is not defined
kof21411 发表于 2020-8-11 07:54
[Python] 纯文本查看 复制代码
import pandas as pd
filename = 'Bilibili.xlsx'
excel = pd.DataFrame(datalist[0])
excel.to_excel(filename,sheet_name='Sheet1', index=False)
baolinguo 发表于 2020-8-11 08:29
本帖最后由 baolinguo 于 2020-8-11 15:45 编辑

[Python] 纯文本查看 复制代码
#encoding:utf-8
import requests
from lxml import etree
import xlwt
import os

def spider():
    video_list = []
    url = "https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3"
    html = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}).text
    html = etree.HTML(html)
    infolist = html.xpath("//li[@class='rank-item']")
    for item in infolist:
        rank = "".join(item.xpath("./div[@class='num']/text()"))
        video_link = "".join(item.xpath(".//div[@class='info']/a/@href"))
        title = "".join(item.xpath(".//div[@class='info']/a/text()"))
        payinfo = "".join(item.xpath(".//div[@class='detail']/span/text()")).split("万")
        play = payinfo[0] + "万"
        comment = payinfo[1]
        if comment.isdigit() == False:
            comment += "万"
        upname = "".join(item.xpath(".//div[@class='detail']/a/span/text()"))
        uplink = "http://" + "".join(item.xpath(".//div[@class='detail']/a/@href"))
        hot = "".join(item.xpath(".//div[@class='pts']/div/text()"))
        video_list.append({
                'rank': rank,
                'videolink': video_link,
                'title': title,
                'play': play,
                'comment': comment,
                'upname': upname,
                'uplink': uplink,
                'hot': hot
                            })
        return video_list

def write_Excel():

    video_list = spider()
    workbook = xlwt.Workbook()
    sheet = workbook.add_sheet("b站热门视频")
    xstyle = xlwt.XFStyle()
    xstyle.alignment.horz = 0x02
    xstyle.alignment.vert = 0x01
    head = ['视频名', 'up主','排名', '热度','播放量','评论数']
    for h in range(len(head)):
        sheet.write(0, h, head[h], xstyle)
        i = 1
        for item in video_list:
            if '"' in item["title"]:
                item["title"] = item["title"].split('"')[1]
            title_data = 'HYPERLINK("'+item["videolink"]+'";"'+item["title"]+'")'
            cell_overwrite_ok = True
            sheet.col(0).width = int(256 * len(title_data) * 3/5)
            sheet.write(i, 0, xlwt.Formula(title_data), xstyle)
            name_data = 'HYPERLINK("'+item["uplink"]+'";"'+item["upname"]+'")'
            sheet.col(1).width = int(256 * len(name_data) * 3/5)
            sheet.write(i, 1, xlwt.Formula(name_data), xstyle)
            sheet.write(i, 2, item["rank"], xstyle)
            sheet.write(i, 3, item["hot"], xstyle)
            sheet.write(i, 4, item["play"], xstyle)
            sheet.write(i, 5, item["comment"], xstyle)
            #print(title_data)
            #print(name_data)
            #exit()
            i += 1
            file = "b站热门视频信息.xls"
            if os.path.exists(file):
                os.remove(file)
                workbook.save(file)

if __name__ == '__main__':
    write_Excel()
rosemaryzed 发表于 2020-8-11 08:57
楼上写的比较规范 python操作.csv也很方便
hyolyn 发表于 2020-8-11 09:02
想学python私我,给你教程资源,自己去学
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-11-26 13:26

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表