lemoncute 发表于 2019-7-19 09:11

python控制浏览器爬取百度贴吧回复并写入Excel

本帖最后由 lemoncute 于 2019-7-19 09:29 编辑

# 程序说明
- 用途:贴吧回复自动生成Excel
- 版本: V1.2
- 作者: 柠檬不萌
- 友情链接:lcke.xyz/blog
- 联系邮箱:typecho@lcke.xyz

## 使用说明
### 你必须已经安装 Chorme 浏览器
### 用到的 Python 库
1. webdriver
2. BeautifulSoup
3. xlwt
4. time(自带)
- **需要 chromedriver.exe 并配置环境变量,可能需要对应版本,百度可解决**
- ** 当前适用于 Chrome版本 74.0.3729.131(正式版本)(32 位)**
---
1. 主函数中配置登录账号(line 91)
2. 在提示“请输入任意内容确认你已经登录:“
- 必须是你已经登录账号,
- 出现验证码请手动处理。(line 92)
3. (ilne 93) 输入你要打开回复的第几页
4. 最后一个数字是页数,不写为第一页
5. 生成的 excel 超链接没有样式
6. excel样式需要自己添加(后续版本改进)

--- # http://tieba.baidu.com/i/i/my_reply
from selenium import webdriver
import time
from bs4 import BeautifulSoup
import xlwt

def login(name, passwd):
    # 1.打开浏览器
    driver = webdriver.Chrome()
    # 2.设置地址
    url = "https://www.baidu.com/"
    # 3.访问网址
    driver.get(url)
    # 4.分析网页,找到登录元素
    # login = driver.find_elements_by_id('u1').find_elements_by_class_name('lb')   #方法一
    login = driver.find_elements_by_css_selector('div a')   #方法二
    #5.点击登录按钮
    login.click()
    time.sleep(2)
    changeusename=driver.find_element_by_id("TANGRAM__PSP_10__footerULoginBtn")
    changeusename.click()
    #点击之后要加等待时间
    time.sleep(2)
    #8.找到 输入 用户名 和密码框,并且设置内容
    #<input id="TANGRAM__PSP_10__userName">
    username = driver.find_element_by_id('TANGRAM__PSP_10__userName')
    #输入账号名
    username.send_keys(name)
    time.sleep(1)
    #<input id="TANGRAM__PSP_10__password">
    password = driver.find_element_by_id('TANGRAM__PSP_10__password')
    #输入密码
    password.send_keys(passwd)
    time.sleep(2)
    #<input id="TANGRAM__PSP_10__submit">
    submit = driver.find_element_by_id('TANGRAM__PSP_10__submit')
    submit.click()
    return driver

def opentieba(browser, url = 'http://tieba.baidu.com/i/i/my_reply?&pn=1'):
    browser.get(url)
    context=browser.page_source
    soup = BeautifulSoup(context, 'html.parser')
    context=browser.find_element_by_css_selector(".simple_block_container")
    print(context.text)
    cont=soup.find_all(class_='b_right_up')
    returncont

def writeXls(cont):
    i = 0 # 从第几行开始写
    # 1、导入模块      
    # 2、创建workbook(其实就是excel,后来保存一下就行)
   # workbook = xlwt.Workbook(encoding='ascii')
    workbook = xlwt.Workbook(encoding = 'utf-8')
    # 3、创建表
    worksheet = workbook.add_sheet('sheet1')
    for link in cont:
      print(link)
      item = BeautifulSoup(str(link), 'html.parser')
      reply_context=item.find(class_="for_reply_context")
      thread_title=item.find(class_="thread_title")
      href = str(thread_title)
      href = 'http://tieba.baidu.com/' + href
      print(reply_context.text)
      worksheet.write(i, 0, label=reply_context.text)
      print(thread_title.text)
      worksheet.write(i, 1,xlwt.Formula('HYPERLINK("'+href+'"," '+thread_title.text+'")'))
      print(href)
      i = i + 1
      time.sleep(1)

    # 5、保存
    date = time.strftime("%Y%m%d%H%M%S", time.localtime())+ '_'
    workbook.save('Excel_'+date+str(i)+'.xls')
    i = 0
    return "successful"

def writedata(data):
    #1、导入模块      
    #2、创建workbook(其实就是excel,后来保存一下就行)
    workbook = xlwt.Workbook(encoding='ascii')
   # 3、创建表
    worksheet = workbook.add_sheet('sheet1')
    #4、往单元格内写入内容
    worksheet.write(0, 0, label=data)
   # 5、保存
    workbook.save('Excel_Workbook.xls')

def main():
    driver = login("美食拍客136822", "*****")
    str = input("请输入任意内容确认你已经登录:")
    xlscontext = opentieba(driver, url = 'http://tieba.baidu.com/i/i/my_reply?&pn=1')
    res = writeXls(xlscontext)
    print(res)



if __name__ == '__main__':
    main()


webdriver :lanzouyunhttps://www.lanzouj.com/i51yjkj蓝奏云 webdriver,一定要下载chrome对应版本





lemoncute 发表于 2019-7-19 09:30

super.single430 发表于 2019-7-19 09:16
666,多谢分享.虽然没啥用

提供一种思路,就是 控制浏览器登录和Excel读写可以直接拿来用

lemoncute 发表于 2019-7-19 10:40

q546624527 发表于 2019-7-19 10:12
有什么用呢?

帮同学做的,他的一个兼职,需要把回帖整理成表格发给公司。

super.single430 发表于 2019-7-19 09:16

666,多谢分享.虽然没啥用

水鸟 发表于 2019-7-19 09:17

谢谢分享不明觉厉

looleyy 发表于 2019-7-19 09:24

666,多谢分享.虽然用不到

安兆童 发表于 2019-7-19 09:26

谢谢分享一下!

灵影 发表于 2019-7-19 09:28

学习python中。

kylekai27 发表于 2019-7-19 09:38


谢谢分享一下!

showwh 发表于 2019-7-19 09:59


666,多谢分享.可以拿来干什么呢

q546624527 发表于 2019-7-19 10:12

有什么用呢?
页: [1] 2
查看完整版本: python控制浏览器爬取百度贴吧回复并写入Excel