PYTHON 爬虫求帮忙写段保存代码！

wang2019 · 发表于 2020-8-11 01:48

本帖最后由 wang2019 于 2020-8-11 01:51 编辑

研究好几天了还是没研究出来

                                                                                       请大佬帮忙写段代码，把数据保存到EXCEL(一共五列)里面

                                                                                                尽量不要写函数小弟刚开始学爬虫，感谢！

[Python] 纯文本查看 复制代码

import requests
from lxml import etree
import xlwt     #进行excel操作

datalist = []
url = 'https://www.bilibili.com/ranking'

headers = {
   "User-Agent": "Mozilla / 5.0(Windows NT 10.0; Win64; x64) AppleWebKit / 537.36(KHTML, like Gecko) Chrome / 80.0.3987.122  Safari / 537.36"
}
resp = requests.get(url,headers = headers)
html = resp.text

parse_html = etree.HTML(html)

#解析数据
Upzhu = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[1]/a/span/text()')
datalist.append(Upzhu)

title = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/a/text()')
datalist.append(title)

bofangliang = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[1]/span[1]/text()')
datalist.append(bofangliang)

pinglunshu = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[1]/span[2]/text()')
datalist.append(pinglunshu)

zonghedefen = parse_html.xpath('//*[@id="app"]/div[1]/div/div[1]/div[2]/div[3]/ul/li/div[2]/div[2]/div[2]/div/text()')
datalist.append(zonghedefen)

pwp · 发表于 2020-8-11 02:21

本帖最后由 pwp 于 2020-8-11 02:26 编辑

[Python] 纯文本查看 复制代码

import pandas as pd
filename = 'xxxxx.xlsx'
excel[[color=#008080][b]'[/b][/color][color=#008080][b]你要在表格显示的名字[/b][/color][color=#008080][b]'[/b][/color]] = pd.DataFrame(Upzhu)  [color=#808080][i]# [/i][/color][color=#808080][i]转换成电子表格识别的格式[/i][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(title)  [color=#808080][i]# [/i][/color][color=#808080][font=&quot;][i]转换成电子表格识别的格式[/i][/font][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(bofangliang)  [color=#808080][i]# [/i][/color][color=#808080][font=&quot;][i]转换成电子表格识别的格式[/i][/font][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(pinglunshu)  [color=#808080][i]# [/i][/color][color=#808080][font=&quot;][i]转换成电子表格识别的格式[/i][/font][/color]excel[[color=#08080][b]'[/b][/color][color=#08080][font=Arial][b]你要在表格显示的名字[/b][/font][/color][color=#08080][b]'[/b][/color]] = pd.DataFrame(zonghedefen)  [color=#808080][i]# [/i][/color][color=#808080][font=&quot;][i]转换成电子表格识别的格式[/i][/font][/color]excel.to_excel(filename, [color=#660099]index[/color]=[color=#000080][b]False[/b][/color])

不知为啥上面好乱，重新定义：

[Python] 纯文本查看 复制代码

import pandas as pd
filename = 'xxxxx.xlsx'
excel['你要在表格显示的名字'] = pd.DataFrame(你的数据变量名)

pwp · 发表于 2020-8-11 02:57

excel.to_excel(filename, index=False)

wang2019 · 发表于 2020-8-11 04:14

本帖最后由 wang2019 于 2020-8-11 04:15 编辑

pwp 发表于 2020-8-11 02:57
excel.to_excel(filename, index=False)

大佬先谢谢这么晚回复
按你的方法试了一下会报错，显示没有定义，不知道是不是我的方法不对

[Python] 纯文本查看 复制代码

import pandas as pd
filename = 'Bilibili.xlsx'
excel['test'] = pd.DataFrame(datalist[0])
excel.to_excel(filename, index=False)

这是报的错误：

[Python] 纯文本查看 复制代码

Traceback (most recent call last):
  File "H:/Pycharm/dou.py", line 39, in <module>
    excel['test'] = pd.DataFrame(datalist[0])
NameError: name 'excel' is not defined

Menguy · 发表于 2020-8-11 07:47

提示: 作者被禁止或删除内容自动屏蔽

dbu00956 · 发表于 2020-8-11 07:53

NameError: name 'excel' is not defined

kof21411 · 发表于 2020-8-11 07:54

[Python] 纯文本查看 复制代码

import pandas as pd
filename = 'Bilibili.xlsx'
excel = pd.DataFrame(datalist[0])
excel.to_excel(filename,sheet_name='Sheet1', index=False)

baolinguo · 发表于 2020-8-11 08:29

本帖最后由 baolinguo 于 2020-8-11 15:45 编辑

[Python] 纯文本查看 复制代码

#encoding:utf-8
import requests
from lxml import etree
import xlwt
import os

def spider():
    video_list = []
    url = "https://www.bilibili.com/ranking?spm_id_from=333.851.b_7072696d61727950616765546162.3"
    html = requests.get(url, headers={"User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/75.0.3770.100 Safari/537.36"}).text
    html = etree.HTML(html)
    infolist = html.xpath("//li[@class='rank-item']")
    for item in infolist:
        rank = "".join(item.xpath("./div[@class='num']/text()"))
        video_link = "".join(item.xpath(".//div[@class='info']/a/@href"))
        title = "".join(item.xpath(".//div[@class='info']/a/text()"))
        payinfo = "".join(item.xpath(".//div[@class='detail']/span/text()")).split("万")
        play = payinfo[0] + "万"
        comment = payinfo[1]
        if comment.isdigit() == False:
            comment += "万"
        upname = "".join(item.xpath(".//div[@class='detail']/a/span/text()"))
        uplink = "http://" + "".join(item.xpath(".//div[@class='detail']/a/@href"))
        hot = "".join(item.xpath(".//div[@class='pts']/div/text()"))
        video_list.append({
                'rank': rank,
                'videolink': video_link,
                'title': title,
                'play': play,
                'comment': comment,
                'upname': upname,
                'uplink': uplink,
                'hot': hot
                            })
        return video_list

def write_Excel():

    video_list = spider()
    workbook = xlwt.Workbook()
    sheet = workbook.add_sheet("b站热门视频")
    xstyle = xlwt.XFStyle()
    xstyle.alignment.horz = 0x02
    xstyle.alignment.vert = 0x01
    head = ['视频名', 'up主','排名', '热度','播放量','评论数']
    for h in range(len(head)):
        sheet.write(0, h, head[h], xstyle)
        i = 1
        for item in video_list:
            if '"' in item["title"]:
                item["title"] = item["title"].split('"')[1]
            title_data = 'HYPERLINK("'+item["videolink"]+'";"'+item["title"]+'")'
            cell_overwrite_ok = True
            sheet.col(0).width = int(256 * len(title_data) * 3/5)
            sheet.write(i, 0, xlwt.Formula(title_data), xstyle)
            name_data = 'HYPERLINK("'+item["uplink"]+'";"'+item["upname"]+'")'
            sheet.col(1).width = int(256 * len(name_data) * 3/5)
            sheet.write(i, 1, xlwt.Formula(name_data), xstyle)
            sheet.write(i, 2, item["rank"], xstyle)
            sheet.write(i, 3, item["hot"], xstyle)
            sheet.write(i, 4, item["play"], xstyle)
            sheet.write(i, 5, item["comment"], xstyle)
            #print(title_data)
            #print(name_data)
            #exit()
            i += 1
            file = "b站热门视频信息.xls"
            if os.path.exists(file):
                os.remove(file)
                workbook.save(file)

if __name__ == '__main__':
    write_Excel()

rosemaryzed · 发表于 2020-8-11 08:57

楼上写的比较规范 python操作.csv也很方便

hyolyn · 发表于 2020-8-11 09:02

想学python私我，给你教程资源，自己去学

帐号		自动登录	找回密码
密码			注册[Register]

Menguy Menguy 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	Menguy 发表于 2020-8-11 07:47 提示: 作者被禁止或删除内容自动屏蔽
	如何快速判断一个文件是否为病毒！
	回复支持举报

[求助] PYTHON 爬虫 求 帮忙写段保存代码！

[求助] PYTHON 爬虫求帮忙写段保存代码！