【python】Python爬豆瓣电影top250导出Excel

莫失莫忘angle 发表于 2020-9-29 14:18

本帖最后由莫失莫忘angle 于 2020-9-29 16:44 编辑

以前写到csdn了话说直接复制没有格式那就重新在写一遍

首先需要安装好爬虫需要用到的python库开发工具使用的是pycharm

1:request网络请求模块

2:lxml 取数据的模块这里用的是xpath没有用bs4

3.xlwings 对Excel进行读写的模块

如果安装失败或者安装缓慢可以参考之前的博客将pycharm镜像更换为清华大学镜像
一键直达 http://suo.im/63Iz1K

首先需要知道豆瓣电影的url是这样的
第二页:https://movie.douban.com/top250?start=25&filter=
第三页:https://movie.douban.com/top250?start=50&filter=
第四页:https://movie.douban.com/top250?start=75&filter=
也就是说每一页有25条数据get请求的start参数就是起始的数据结束的数据就是 25 50 75等等那么只需要在get请求中从0开始每次加25即可
因为是top250所以加到225就不加了首先需要写好start参数变化的值请求url封装成requesUrl方法

if __name__ == "__main__":
start = 0
while start <= 225:
   requestUrl(start)
   start = start + 25

接下来封装requestUrl函数
def requestUrl(start):
url = "https://movie.douban.com/top250"
header = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
params = {
   "start": start,
   "filter": ""
}
response = requests.get(url=url, params=params, headers=header).text
terr = etree.HTML(response)
terr_lis = terr.xpath('//ol[@class="grid_view"]/li')

for i in terr_lis:
   video_name = i.xpath('./div/div/div/a/span/text()')
   video_score = i.xpath('./div/div/div/div/span/text()')
   video_evaluate = i.xpath('./div/div/div/div/span/text()')
   # print(text + ' 评分:' + number + "\n")

这里教大家一个小技巧

这里可以直接copy出来xpath的路径不用一个一个的写很方便的
其中 video_name是电影名称 video_score是电影评分 video_evaluate电影的评论人数
到这里已经拿到了我们想要的数据
下面就是使用xlwings 导出数据

wb = xlwings.Book("e:\example.xlsx")
sht = wb.sheets["sheet1"]
sht.range('A1').value = "xlwiassssssssssssssssngs"

这是最基本的用法首先打开文件然后获取工作表
A1对应的是网格的位置value就是需要写入的值那么我们就知道A是固定的 1是动态的所以只需要动态改变A后边的数据即可
完整代码如下

import requests
from lxml import etree
import xlwings

video_name_colunm = 0
video_score_colunm = 0
video_evaluate_colunm = 0

def requestUrl(start):
global video_name_colunm
global video_score_colunm
global video_evaluate_colunm

url = "https://movie.douban.com/top250"
header = {
   "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/78.0.3904.108 Safari/537.36"
}
params = {
   "start": start,
   "filter": ""
}
response = requests.get(url=url, params=params, headers=header).text
terr = etree.HTML(response)
terr_lis = terr.xpath('//ol[@class="grid_view"]/li')

for i in terr_lis:
   video_name = i.xpath('./div/div/div/a/span/text()')
   video_score = i.xpath('./div/div/div/div/span/text()')
   video_evaluate = i.xpath('./div/div/div/div/span/text()')
   # print(text + ' 评分:' + number + "\n")

   video_name_colunm = video_name_colunm + 1
   video_name_xls = "A" + str(video_name_colunm)
   sht.range(video_name_xls).value = video_name

   video_score_colunm = video_score_colunm + 1
   video_score_xls = "B" + str(video_score_colunm)
   sht.range(video_score_xls).value = video_score

   video_evaluate_colunm = video_evaluate_colunm + 1
   video_evaluate_xls = "C" + str(video_evaluate_colunm)
   sht.range(video_evaluate_xls).value = video_evaluate
   sht.range(video_evaluate_xls).columns.autofit()
   print("正在写入----" + video_name)

if __name__ == "__main__":

wb = xlwings.Book("e:\example.xlsx")
sht = wb.sheets["sheet1"]
start = 0
while start <= 225:
   requestUrl(start)
   start = start + 25

这里新建了3个全局变量并且初始化为0每次+1 好了这下结果就出来了
e:\example.xlsx这里必须要在E盘根目录下创建这个文件可以自行修改

基本思路就是这样想要导出什么数据可以自己尝试

arklearn 发表于 2020-9-29 14:20

哇塞，感谢分享。这个等一下去试试。

bachelor66 发表于 2020-9-29 14:32

mark，回头再来学习下

squirrel1311 发表于 2020-9-29 16:10

为什么照抄的，还会出错啊，搞不懂了，小白一枚，哈哈
Traceback (most recent call last):
File "C:/Users/Administrator/PycharmProjects/untitled1/Demo.py", line 49, in <module>
wb = xlwings.books("E:\001.xlsx")
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\xlwings\main.py", line 47, in __call__
return self._wrap(impl=self.impl(name_or_index))
File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\xlwings\main.py", line 3059, in impl
return apps.active.books.impl
AttributeError: 'NoneType' object has no attribute 'books'

莫失莫忘angle 发表于 2020-9-29 16:34

squirrel1311 发表于 2020-9-29 16:10
为什么照抄的，还会出错啊，搞不懂了，小白一枚，哈哈
Traceback (most recent...

好了在复制一次我少copy东西了

页: [1]

吾爱破解 - 52pojie.cn's Archiver

【python】Python爬豆瓣电影top250导出Excel