python 求助

axwa · 发表于 2021-2-19 09:52

本帖最后由 axwa 于 2021-4-19 08:17 编辑

求助：用python lxml和xpath爬取网页题库（有判断、单选、多选题），单独写的问题和答案的xpath都能提取出来，但是用循环时，多选题答案只有一个（且答案是前面多选题的答案往后排的），请问如何解决？谢谢了

1到20为判断题 21到40为单选题 41到50为多选题

这个是我写的循环爬出来的多选答案只匹配了一个：
e = etree.HTML(page)
questions = e.xpath('//div[@class="question_title sj_no"]/text()')
answers = e.xpath('//label[@class="sj_sysans"]/text()')
for question, answer in zip(questions, answers):
print(question, answer)
下列选项中，关于未来推进完善“一国两制”制度体系，属于近期目标的选项有（）。 B.团结广大台湾同胞共同反对

这个是正确的答案：
['下列选项中，关于未来推进完善“一国两制”制度体系，属于近期目标的选项有（）。'] [' B.团结广大台湾同胞共同反对', ' C.保障台湾同胞福祉的制度安排和政策措施', ' D.完善促进两岸交流合作', ' E.深化两岸融合发展']

伤城幻化 · 发表于 2021-2-19 10:12

循环整错了！得两个循环嵌套一下第一个是问题第二个是答案

52小柯柯 · 发表于 2021-2-19 10:24

zip打包的时候元素个数与最短的列表一致，你前边只有一个那最终结果便是一个了，可以将answers外加[]解决

axwa · 发表于 2021-2-19 10:30

52小柯柯发表于 2021-2-19 10:24
zip打包的时候元素个数与最短的列表一致，你前边只有一个那最终结果便是一个了，可以将answers外加[]解决

for question, answer in zip(questions, answers):
print(question, answer)

[]加到哪里啊？

lili2312280 · 发表于 2021-2-19 10:31

啊哦哟，原来是这样写

axwa · 发表于 2021-2-19 10:32

伤城幻化发表于 2021-2-19 10:12
循环整错了！得两个循环嵌套一下第一个是问题第二个是答案

for question, answer in zip(questions, answers):
print(question, answer)
   for question in zip(questions):
            print(question)
   for answer in zip( answers):
         print( answer)
是这样吗？

Rezalt · 发表于 2021-2-19 10:33

for question, answer in zip(questions, [answers]):

axwa · 发表于 2021-2-19 10:38

Rezalt 发表于 2021-2-19 10:33
for question, answer in zip(questions, [answers]):

哥这个打印出来是这样的啊

咸鱼灭 · 发表于 2021-2-19 10:47

本帖最后由咸鱼灭于 2021-2-19 10:50 编辑

循环前输出下answers的结果看看是什么结构的，如果多选的选项不在同个结构中你用zip循环就会这样

Rezalt · 发表于 2021-2-19 10:58

你还是别同时取了，你这个answers的获取方法遇见多选区分不开来那道题对应那道题的。建议循环questions根据question节点去获取answer

帐号		自动登录	找回密码
密码			注册[Register]

[已解决] python 求助