jcwoai 发表于 2023-4-1 15:08

对大段文本进行预处理 并保存EXCEL表格

本帖最后由 jcwoai 于 2023-4-1 15:47 编辑

由于该网站考试页面需要每月一次登录考试时才能出现,自己不太会爬取,所以直接复制处理后,
再用python进行题库对比 答案也就几分钟就出来了。本人新手 如有不足请包含!
在网页上直接复制下来内容如图:




处理结果:


保存到excel表格中:


代码:
import re
import pandas as pd
def clean(line):
    line = re.sub('\nA', '\nAA', line)# 为分段加标记
    line = re.sub('\d+.(1分).', '#', line).split('#')# 为分割加标记,并以#号分割

    data = []
    for item in line:
      stem = item.split('\nA')
      option = item.split('\nA')
      dit = {
            '题干': stem,
            '选项': option
      }
      data.append(dit)

    return data


def save(data):
    df = pd.DataFrame(data)
    df.to_excel('newtg.xlsx', index=False, sheet_name='Sheet1')


def main():
    with open('1.txt', 'r', encoding='utf-8-sig') as f:
      content = f.read()
    content2 = clean(content)
    data = save(content2)
    # print(content2)
    # print(data)


if __name__ == '__main__':
    main()

zq514317526 发表于 2023-4-3 08:26

这功能可以啊,楼主牛

sunyake 发表于 2023-4-3 09:08

这个功能还是挺实用的

hzxszxd 发表于 2023-4-3 20:01

学习一下

fengyun123123 发表于 2023-4-5 01:10

实用,马上学习

HR741158 发表于 2023-4-7 10:10

学习了,受用{:1_927:}
页: [1]
查看完整版本: 对大段文本进行预处理 并保存EXCEL表格