独饮悲~ 发表于 2019-7-27 22:23

Python中对etree.HTML 进行xpath( \text())之后 数据处理问题

本帖最后由 独饮悲~ 于 2019-7-27 22:25 编辑

刚学两天爬虫,遇到了百度不到的问题,前来向各位请教
请指点指点小白

      with requests.get(url, headers={'User-agent': ua}) as response:
            content = response.text
            # print(content)
            html = etree.HTML(content)
            Id = html.xpath(
                "//div[@class='mod-bd']//div[@class='comment-item']//div[@class='comment']/h3/span[@class='comment-info']/a/text()")
            view = html.xpath(
                "//div[@class='mod-bd']//div[@class='comment-item']//div[@class='comment']/p/span[@class='short']/text()")
            lis = dict(zip(Id, view))
            print(lis)
            del_sp = json.dumps(lis, ensure_ascii=False, indent='\n')
            text = json.dumps(view)
            print(del_sp.split(','))
            with open('chenqing2.csv', 'a', encoding='utf-8') as file:
                file.write(del_sp)

代码中经历了变来变去才写入文件

我想请问一下python中对上述代码中‘Id’,‘view‘怎么将其写入文件中
write(view)会报错    该如何转换数据并按格式写入

另外请教一下有没有对xpath出来的内容 一些其他处理方式
页: [1]
查看完整版本: Python中对etree.HTML 进行xpath( \text())之后 数据处理问题