本帖最后由 创造太阳 于 2020-4-23 15:58 编辑
我给女朋友发了20000句情话,她暂时不想听情话了!(详见:女朋友抱怨不会说情话,用python给她发了20000句!让她见识见识情话大全!https://www.52pojie.cn/thread-1113388-1-1.html(出处: 吾爱破解论坛))
女朋友最近不找我下五子棋了!(详见:女朋友下棋比我厉害,还特别嚣张,不能忍。拿python敲个辅助,看她如何嚣张!https://www.52pojie.cn/thread-1116867-1-1.html(出处: 吾爱破解论坛))
不过也没怼我,上次的表情包好像白存了,不过还是留着吧,万一派上用场了呢?(详见:为了防止女朋友怼我,我就先用python爬了3600个怼人表情包等她来战!https://www.52pojie.cn/thread-1118801-1-1.html(出处: 吾爱破解论坛))
也不知道你们找到女朋友了没有,找到的话,一起来交流研究!(详见:别再酸了,女朋友是不可能发,但是可以用python帮你创造机会搞到一个!搞到来告诉我!https://www.52pojie.cn/thread-1119202-1-1.html(出处: 吾爱破解论坛))
女朋友存了好多网上的男明星的照片,我准备用python全部换成我的脸!https://www.52pojie.cn/thread-1120431-1-1.html(出处: 吾爱破解论坛)
为了知道女朋友的小秘密,我用python爬了榜姐微博下60000个女生小秘密!https://www.52pojie.cn/thread-1123043-1-1.html(出处: 吾爱破解论坛)
女朋友每晚都给我发诱惑图,我用python搞了更多诱惑图反击她!https://www.52pojie.cn/thread-1128807-1-1.html(出处: 吾爱破解论坛)
女朋友要和我拼手速,不得不用python让她见识我的手速!年轻人,不要试图和你不知...https://www.52pojie.cn/thread-1139015-1-1.html(出处: 吾爱破解论坛)
为了看看女朋友生日那天是什么样子,我用python爬了一年的照片!https://www.52pojie.cn/thread-1144764-1-1.html(出处: 吾爱破解论坛)
女朋友说A罩杯最流行,我用python爬了几十万的购买数据来证明她是在狡辩!https://www.52pojie.cn/thread-1145712-1-1.html(出处: 吾爱破解论坛)
女朋友说因为异性相吸,所以容易产生真爱!我觉得得用python验证一下!https://www.52pojie.cn/thread-1151862-1-1.html(出处: 吾爱破解论坛)
今天的瓜挺多的,吃瓜吃的有点吃不过来呀,汪峰又一次冲击热搜失败了!
(萧敬腾和汪峰是我认为最容易崩的人设,可是“龙王”和“预言家”的人设怎么还没崩?)
上午女朋友在我吃饭的时候告诉我说“周扬青”和“罗志祥”分手了!
“罗志祥”竟然藏了9年!
“周扬青”通过蛛丝马迹终于发现了!
女朋友打算去“周扬青吧”瞅瞅看看有没有经验贴,想提醒研究研究,顺便给我打个预防针吧!
我的黑眼圈都是熬夜熬出来的呀!
没做运动!
为了陪女朋友学习,我就只好用python爬了“周扬青吧”和“罗志祥吧”,提前学习研究研究!
还有“黑眼圈吧”,来好好研究研究!
代码如下:
[Python] 纯文本查看 复制代码 # 导入需要的包
import time #导入time库
import requests #导入requests库
from bs4 import BeautifulSoup #导入BeautifulSoup库
import pandas as pd #导入pandas库
from urllib import parse #导入parse
# 提取帖子信息
def tqtz(page_lst):
tmp = [] #建一个空列表来存储信息,用列表保存字典数据,每一个帖子都是一个字典数据
for i in page_lst:
# 判断是否超过回复阈值
if int(i.find(class_='threadlist_rep_num').text) > Threshold:
dic = {} #建一个空字典来存储数据
# 回复数
dic['回复数'] = int(i.find(class_='threadlist_rep_num').text)
# 帖子名称
dic['名字'] = i.find(class_='threadlist_title').text
# 帖子地址
dic['地址'] = 'https://tieba.baidu.com' + i.find(class_='threadlist_title').a['href']
tmp.append(dic) #把字典信息存储到空列别熬tmp
return tmp
# 获取数据信息
def hqsj(num):
target = []
# 发起n次的get请求
for i in range(num):
# 跟踪显示进度
print('目前正在爬取的页数是:', i)
# 百度贴吧网址翻页数据为50,100,150……
target_url = template_url.format(50*i)
res = requests.get(target_url)
# 转换为 bs 对象
soup = BeautifulSoup(res.text, 'html.parser')
# 获取该页帖子列表
page_lst = soup.find_all(class_='j_thread_list')
# 该页信息保存到target
target.extend(tqtz(page_lst))
# 休息1秒再访问,以防被百度屏蔽反爬
time.sleep(1)
return target
if __name__ == '__main__':
while True:
kw = input('请输入你要爬取的贴吧关键字:').strip()
word = parse.urlencode({'kw': kw}) # 转换为url编码
url = 'https://tieba.baidu.com/f?'
new_url = url + word # 组合后的url,示例;[url=http://tieba.baidu.com/f?kw=lol]http://tieba.baidu.com/f?kw=lol[/url]
template_url = new_url + "&ie=utf-8&pn={}"
# 设置回复数阈值
Threshold = int(input("请输入回复数的闸值"))
# 爬取贴吧前200页数据
num = int(input("请输入要爬取的页数"))
# file_name = str(input("请输入保存文件名称"))
nums = hqsj(num)
# 转化为pandas.DataFrame对象
data = pd.DataFrame(nums)
# 导出到excel表格
data.to_excel(kw + '.xlsx')
break
到时候女朋友要是非要问我黑眼圈怎么来的?
恳请各位朋友一定要来帮我证明清白的哦!
做运动的时候比较容易发“晚安”,我还真没见过做运动的时候敲代码的呀!
好奇:有没有大佬能做到边做运动边敲代码呀? |