周扬青和罗志祥分手，女朋友说要去周扬青吧看看有没有经验贴，我只好用python快速...

创造太阳 · 发表于 2020-4-23 15:46

本帖最后由创造太阳于 2020-4-23 15:58 编辑

我给女朋友发了20000句情话，她暂时不想听情话了！（详见：女朋友抱怨不会说情话，用python给她发了20000句！让她见识见识情话大全！https://www.52pojie.cn/thread-1113388-1-1.html(出处: 吾爱破解论坛)）
女朋友最近不找我下五子棋了！（详见：女朋友下棋比我厉害，还特别嚣张，不能忍。拿python敲个辅助，看她如何嚣张！https://www.52pojie.cn/thread-1116867-1-1.html（出处: 吾爱破解论坛)）
不过也没怼我，上次的表情包好像白存了，不过还是留着吧，万一派上用场了呢？（详见：为了防止女朋友怼我，我就先用python爬了3600个怼人表情包等她来战！https://www.52pojie.cn/thread-1118801-1-1.html(出处: 吾爱破解论坛)）
也不知道你们找到女朋友了没有，找到的话，一起来交流研究！（详见：别再酸了，女朋友是不可能发，但是可以用python帮你创造机会搞到一个！搞到来告诉我！https://www.52pojie.cn/thread-1119202-1-1.html(出处: 吾爱破解论坛)）
女朋友存了好多网上的男明星的照片，我准备用python全部换成我的脸！https://www.52pojie.cn/thread-1120431-1-1.html(出处: 吾爱破解论坛)
为了知道女朋友的小秘密，我用python爬了榜姐微博下60000个女生小秘密！https://www.52pojie.cn/thread-1123043-1-1.html(出处: 吾爱破解论坛)
女朋友每晚都给我发诱惑图，我用python搞了更多诱惑图反击她！https://www.52pojie.cn/thread-1128807-1-1.html(出处: 吾爱破解论坛)
女朋友要和我拼手速，不得不用python让她见识我的手速！年轻人，不要试图和你不知...https://www.52pojie.cn/thread-1139015-1-1.html(出处: 吾爱破解论坛)
为了看看女朋友生日那天是什么样子，我用python爬了一年的照片！https://www.52pojie.cn/thread-1144764-1-1.html(出处: 吾爱破解论坛)
女朋友说A罩杯最流行，我用python爬了几十万的购买数据来证明她是在狡辩！https://www.52pojie.cn/thread-1145712-1-1.html(出处: 吾爱破解论坛)
女朋友说因为异性相吸，所以容易产生真爱！我觉得得用python验证一下！https://www.52pojie.cn/thread-1151862-1-1.html(出处: 吾爱破解论坛)

今天的瓜挺多的，吃瓜吃的有点吃不过来呀，汪峰又一次冲击热搜失败了！
（萧敬腾和汪峰是我认为最容易崩的人设，可是“龙王”和“预言家”的人设怎么还没崩？）
上午女朋友在我吃饭的时候告诉我说“周扬青”和“罗志祥”分手了！
“罗志祥”竟然藏了9年！
“周扬青”通过蛛丝马迹终于发现了！
女朋友打算去“周扬青吧”瞅瞅看看有没有经验贴，想提醒研究研究，顺便给我打个预防针吧！
我的黑眼圈都是熬夜熬出来的呀！
没做运动！

为了陪女朋友学习，我就只好用python爬了“周扬青吧”和“罗志祥吧”，提前学习研究研究！
还有“黑眼圈吧”，来好好研究研究！

代码如下：

[Python] 纯文本查看 复制代码

# 导入需要的包
import time    #导入time库
import requests    #导入requests库
from bs4 import BeautifulSoup    #导入BeautifulSoup库
import pandas as pd    #导入pandas库
from urllib import parse  #导入parse



# 提取帖子信息
def tqtz(page_lst):
    tmp = []    #建一个空列表来存储信息，用列表保存字典数据，每一个帖子都是一个字典数据
    for i in page_lst:
        # 判断是否超过回复阈值
        if int(i.find(class_='threadlist_rep_num').text) > Threshold:
            dic = {}    #建一个空字典来存储数据
            # 回复数
            dic['回复数'] = int(i.find(class_='threadlist_rep_num').text)
            # 帖子名称
            dic['名字'] = i.find(class_='threadlist_title').text
            # 帖子地址
            dic['地址'] = 'https://tieba.baidu.com' + i.find(class_='threadlist_title').a['href']
            tmp.append(dic)    #把字典信息存储到空列别熬tmp
    return tmp



# 获取数据信息
def hqsj(num):
    target = []
    # 发起n次的get请求
    for i in range(num):
        # 跟踪显示进度
        print('目前正在爬取的页数是:', i)
        # 百度贴吧网址翻页数据为50,100,150……
        target_url = template_url.format(50*i)
        res = requests.get(target_url)
        # 转换为 bs 对象
        soup = BeautifulSoup(res.text, 'html.parser')
        # 获取该页帖子列表
        page_lst = soup.find_all(class_='j_thread_list')
        # 该页信息保存到target
        target.extend(tqtz(page_lst))
        # 休息1秒再访问，以防被百度屏蔽反爬
        time.sleep(1)
    return target



if __name__ == '__main__':
    while True:
        kw = input('请输入你要爬取的贴吧关键字:').strip()
        word = parse.urlencode({'kw': kw})  # 转换为url编码
        url = 'https://tieba.baidu.com/f?'
        new_url = url + word  # 组合后的url，示例;[url=http://tieba.baidu.com/f?kw=lol]http://tieba.baidu.com/f?kw=lol[/url]
        template_url = new_url + "&ie=utf-8&pn={}"
        # 设置回复数阈值
        Threshold = int(input("请输入回复数的闸值"))
        # 爬取贴吧前200页数据
        num = int(input("请输入要爬取的页数"))
        # file_name = str(input("请输入保存文件名称"))
        nums = hqsj(num)
        # 转化为pandas.DataFrame对象
        data = pd.DataFrame(nums)
        # 导出到excel表格
        data.to_excel(kw + '.xlsx')
        break

到时候女朋友要是非要问我黑眼圈怎么来的？
恳请各位朋友一定要来帮我证明清白的哦！

做运动的时候比较容易发“晚安”，我还真没见过做运动的时候敲代码的呀！
好奇：有没有大佬能做到边做运动边敲代码呀？

蛋蛋的小忧伤 · 发表于 2020-4-23 16:29

雨瘾者发表于 2020-4-23 15:57
大佬您学pytion是在那里学的呢，推荐用什么方式学呢

我以后一定要学会用pytion删聊天记录，今天手动删除 ...

删什么聊天记录嘛，直接格式化手机岂不简单多了

雨瘾者 · 发表于 2020-4-23 15:57

本帖最后由雨瘾者于 2020-4-23 16:01 编辑

大佬您学pytion是在那里学的呢，推荐用什么方式学呢

我以后一定要学会用pytion删聊天记录，今天手动删除都累死我了

凯咪 · 发表于 2020-4-23 15:47

前排沙发

小寅 · 发表于 2020-4-23 15:50

又是你这大佬，佩服

vickynew · 发表于 2020-4-23 15:51

前排要火留言

hmt1994 · 发表于 2020-4-23 15:53

前排留名

挑灯看花 · 发表于 2020-4-23 15:55

学习下，不过爬这数据可不够用啊

唐小样儿 · 发表于 2020-4-23 15:57

作者也太搞笑了吧！哈哈哈哈哈哈

qhyxcyl · 发表于 2020-4-23 15:58

假装自己有女朋友系列

创造太阳 · 发表于 2020-4-23 15:58

雨瘾者发表于 2020-4-23 15:57
大佬您学pytion是在那里学的呢，推荐用什么方式学呢

找个女朋友会加速学习的哦

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 周扬青和罗志祥分手，女朋友说要去周扬青吧看看有没有经验贴，我只好用python快速...

免费评分

本帖被以下淘专辑推荐: