简单使用python做excel多文件批量搜索(带图形界面)(已更新)
本帖最后由 悠度科技 于 2020-3-9 22:17 编辑公司里大部分文件除了录入数据库外还会有excel表格原始数据上传
而今天公司数据库因不明原因缺失一条数据,这条数据可能存在在数百个excel任何一个之中。。。。
因此简单的写了一个excel批量查询脚本
excel作为最常用的办公工具之一有很多数据都是储存在excel之中,比如财务报表等等,当涉及到较多文件搜索某一个内容时还是比较麻烦的
比如我的同事用wps居然文件只能一个个打开,office的可以通过一些方法打开多文件,但是一次打开几百个内存直接爆了,并且搜索都是只能一个文件一个文件搜索
通过这个脚本可以从数百上千的excel几十几百万行数据中快速找到我们需要的数据,精准定位到相关文件,提升办公效率
为了方便使用也简单的用tkinter配置了一下图形界面
主要使用到以下
xlwings ---- 处理excel
tkinter ---- 处理图形界面
tkinter.filedialog---- 调用文件上传接口
threading ---- 处理多线程
常规的有
math、string
代码如下(做了详细注释,可以大概看出处理逻辑):
import xlwings as xw #引入xlwings处理excel
from tkinter import * #引入tkinter处理界面
import tkinter.filedialog #调用上传文件窗口类
import math
import threading #多线程
import string
#基本变量
files=[]
result=[]
def search(file,word):
app = xw.App(visible=False,add_book=False) #初始化 visible=False表示不在用户界面打开该excel add_book=False只打开不新建工作薄
wb = app.books.open(file) #打开已有excel文件
sheets = wb.sheets #读取工作簿
for sht in sheets:
rng = sht.range('a1').expand('table')
nrows = rng.rows.count #获取行数
ncols = rng.columns.count #获取列数
print("正在比对:%s"%(file))
#文本转字符
A=math.floor(ncols/26) #首字母
A=chr((A-1)+97) if (A-1)>=0 else "" #如26以内首字母为空 27首字母为A55首字母为B
B=math.floor(ncols%26) #第二个字母 取26的余 按这个算法 B为第2列Z为第26列 AA 为第27列 AB为第28列 BA为第53列
B=chr(B+97) if B>=0 else ""
col=("%s%s"%(A,B)) #合并
val=sht.range('a1:%s%d'%(col,nrows)).value #获取区域内容
for ii,i in enumerate(val): #遍历区域内容
for jj,j in enumerate(i):
if str(j).find(str(word))!=-1: #搜索该字符串
mess="成功找到数据位于表:%s 工作簿:%s 行:%d 列:%d 内容:%s"%(file,sht,ii+1,jj+1,j)
result.append(mess)
print(mess)
app.quit() #退出excel
def MyThreading(num1,num2,searchText): #线程执行
for i in range(num1,num2):
print("打开文件%s"%(files))
search(files,searchText)
return 0
def FileSelect():#文件选择
files.clear()
filename = tkinter.filedialog.askopenfilenames() #弹出多文件选择窗
if(len(filename)==0):
textbox.insert('end', "未选择任何文件!\n")
root.update()
print("未选择任何文件!\n")
else:
textbox.insert('end', "已选择文件\n")
for i in filename:
files.append(i)
print("\t\t%s\n"%(i))
textbox.insert('end', "%s\n"%(i))
textbox.see(tkinter.END)
root.update()
return 0
def start():
searchText=e.get() #从钩子获取内容
if len(files)==0:
print("未上传文件")
textbox.insert('end', "错误:未上传文件\n")
root.update()
return 0
if (not searchText) or searchText=="请输入需要搜索的字符串":
print("未输入需查询内容")
textbox.insert('end', "错误:未输入需查询内容\n")
root.update()
return 0
print("正在执行")
textbox.insert('end', "正在执行,页面可能稍有卡顿,请耐心等待\n")
root.update()
ThreadLen=10 if len(files)>10 else 1 #文件数量若小于10则只开一个线程
ThreadArr=[]
if ThreadLen>1:
for i in range(ThreadLen):#追加十个线程(若需要)
bei=math.floor(len(files)/ThreadLen)
print("执行线程%d至%d"%((i*bei),(i*bei+bei)))
t=threading.Thread(target=MyThreading,args=((i*bei),(i*bei+bei),searchText))
ThreadArr.append(t)
#追加线程执行剩余文件搜索
print("执行线程%d至%d"%(0,len(files)))
t=threading.Thread(target=MyThreading,args=(0,len(files),searchText))
ThreadArr.append(t)
for i in ThreadArr:
i.start() #循环执行所有线程
for i in ThreadArr:
i.join() #循环等待所有线程执行结束
print("执行结束")
if len(result)==0:
textbox.insert('end', "没有找到该字符串\n")
else:
textbox.insert('end', "执行结束,执行结果如下:\n")
for i in result:
textbox.insert('end', "%s\n"%(i))
result.clear()
textbox.see(tkinter.END) #查看文本框底部
root.update() #更新文本框
#构建用户界面
root=Tk()
root.title("excel内容搜索") #窗口标题
root.geometry('450x300+585+265') #初始化窗口大小和位置
root.resizable(0, 0) #设置窗口大小不可更改
#输入框
e = StringVar()#字符串钩子
enrty=Entry(root,width=20,textvariable=e).grid(row=0,column=0,columnspan=2,padx=40,pady=5)
e.set("请输入需要搜索的字符串")
#上传文件按钮
getFile = Button(root,text="点击选择文件",command= FileSelect).grid(row=1,column=0,columnspan=2,padx=40,pady=5)
#开始按钮
startBtn = Button(root,text="START",command= start).grid(row=2,column=0,columnspan=2,padx=40,pady=5)
#消息框
textbox = Text(root,width=50,height=10)
textbox.grid(row=3,column=0,columnspan=2,padx=40,pady=5)
textbox.insert("end", "日志消息:\n")
root.mainloop() #执行
安装对应类库后执行py可以直接运行图形界面
需要编译的可以先执行pip3 install pyinstaller安装pyinstaller
然后执行pyinstaller -F -w pyExcelSearch.py
pyinstaller -F选项指定生成单独的 EXE 文件
pyinstaller -w选项指定程序运行时不显示命令行窗口(仅对 Windows 有效,可选)
附上压缩包含py文件和编译好的exe文件
下载路径:下载
附上运行图(界面优化无能,勿怪):
最后的最后,喜欢的话评个分吧[狗头]
下载路径:下载
更新了多sheets搜索,之前的确没有想到
另外由于xlwings的特性,只能读取到连续的单元格,也就是如果某个单元格与其他单元格相对独立则无法搜索到,这也就是很多朋友回复搜索不到的原因
目前正在找办法解决
本帖最后由 shubiao05 于 2020-1-15 14:33 编辑
悠度科技 发表于 2020-1-14 13:58
不好意思,之前的确没有考虑到多工作簿,已更新
我测试了一下,可以支持多个sheet的情况了,good job!
测试中我又发现了一个小bug,我增加了三行,完美运行:第8行、第15 行及第38行,同时把增加的源码连同您的源码一块贴到这里,方便朋友的改进:
import xlwings as xw #引入xlwings处理excel
from tkinter import * #引入tkinter处理界面
import tkinter.filedialog #调用上传文件窗口类
import math
import threading #多线程
import string
#导入下面的库
import pythoncom
#基本变量
files=[]
result=[]
def search(file,word):
pythoncom.CoInitialize()#函数开头初始化,否则会出现' 尚未调用coinitialize'错误
app = xw.App(visible=False,add_book=False) #初始化 visible=False表示不在用户界面打开该excel add_book=False只打开不新建工作薄
wb = app.books.open(file) #打开已有excel文件
sheets = wb.sheets #读取工作簿
for sht in sheets:
rng = sht.range('a1').expand('table')
nrows = rng.rows.count #获取行数
ncols = rng.columns.count #获取列数
print("正在比对:%s"%(file))
#文本转字符
A=math.floor(ncols/26) #首字母
A=chr((A-1)+97) if (A-1)>=0 else "" #如26以内首字母为空 27首字母为A55首字母为B
B=math.floor(ncols%26) #第二个字母 取26的余 按这个算法 B为第2列Z为第26列 AA 为第27列 AB为第28列 BA为第53列
B=chr(B+97) if B>=0 else ""
col=("%s%s"%(A,B)) #合并
val=sht.range('a1:%s%d'%(col,nrows)).value #获取区域内容
for ii,i in enumerate(val): #遍历区域内容
for jj,j in enumerate(i):
if str(j).find(str(word))!=-1: #搜索该字符串
mess="成功找到数据位于表:%s 工作簿:%s 行:%d 列:%d 内容:%s"%(file,sht,ii+1,jj+1,j)
result.append(mess)
print(mess)
wb.close()#不加的话,Excel一直处于使用状态,无法打开Excel文件查看
app.quit() #退出excel
def MyThreading(num1,num2,searchText): #线程执行
for i in range(num1,num2):
print("打开文件%s"%(files))
search(files,searchText)
return 0
def FileSelect():#文件选择
files.clear()
filename = tkinter.filedialog.askopenfilenames() #弹出多文件选择窗
if(len(filename)==0):
textbox.insert('end', "未选择任何文件!\n")
root.update()
print("未选择任何文件!\n")
else:
textbox.insert('end', "已选择文件\n")
for i in filename:
files.append(i)
print("\t\t%s\n"%(i))
textbox.insert('end', "%s\n"%(i))
textbox.see(tkinter.END)
root.update()
return 0
def start():
searchText=e.get() #从钩子获取内容
if len(files)==0:
print("未上传文件")
textbox.insert('end', "错误:未上传文件\n")
root.update()
return 0
if (not searchText) or searchText=="请输入需要搜索的字符串":
print("未输入需查询内容")
textbox.insert('end', "错误:未输入需查询内容\n")
root.update()
return 0
print("正在执行")
textbox.insert('end', "正在执行,页面可能稍有卡顿,请耐心等待\n")
root.update()
ThreadLen=10 if len(files)>10 else 1 #文件数量若小于10则只开一个线程
ThreadArr=[]
if ThreadLen>1:
for i in range(ThreadLen):#追加十个线程(若需要)
bei=math.floor(len(files)/ThreadLen)
print("执行线程%d至%d"%((i*bei),(i*bei+bei)))
t=threading.Thread(target=MyThreading,args=((i*bei),(i*bei+bei),searchText))
ThreadArr.append(t)
#追加线程执行剩余文件搜索
print("执行线程%d至%d"%(0,len(files)))
t=threading.Thread(target=MyThreading,args=(0,len(files),searchText))
ThreadArr.append(t)
for i in ThreadArr:
i.start() #循环执行所有线程
for i in ThreadArr:
i.join() #循环等待所有线程执行结束
print("执行结束")
if len(result)==0:
textbox.insert('end', "没有找到该字符串\n")
else:
textbox.insert('end', "执行结束,执行结果如下:\n")
for i in result:
textbox.insert('end', "%s\n"%(i))
result.clear()
textbox.see(tkinter.END) #查看文本框底部
root.update() #更新文本框
#构建用户界面
root=Tk()
root.title("excel内容搜索") #窗口标题
root.geometry('450x300+585+265') #初始化窗口大小和位置
root.resizable(0, 0) #设置窗口大小不可更改
#输入框
e = StringVar()#字符串钩子
enrty=Entry(root,width=20,textvariable=e).grid(row=0,column=0,columnspan=2,padx=40,pady=5)
e.set("请输入需要搜索的字符串")
#上传文件按钮
getFile = Button(root,text="点击选择文件",command= FileSelect).grid(row=1,column=0,columnspan=2,padx=40,pady=5)
#开始按钮
startBtn = Button(root,text="START",command= start).grid(row=2,column=0,columnspan=2,padx=40,pady=5)
#消息框
textbox = Text(root,width=50,height=10)
textbox.grid(row=3,column=0,columnspan=2,padx=40,pady=5)
textbox.insert("end", "日志消息:\n")
root.mainloop() #执行 悠度科技 发表于 2020-1-11 19:20
你好 excel内容里有的是吗? 可否截图看下
打开附近件,比如搜索Sheet2中的“海淀",则提示找不到该字符串
还没仔细研究源码,可能没有考虑一张表中有多个sheetr的情况? python是个好工具~ 正在学习,努力吧 一直想学,到现在还没学会。哎,觉得自己脑子不行。 希望有一天我也可以跟楼主一样厉害
我现在只会print ("hello world")
我现在只会print ("hello world") 这么优秀额的帖子,没人看,楼主厉害 试了一下,可以正确执行,但有些内容搜不出来,不知道为什么!
谢谢楼主的分享! shubiao05 发表于 2020-1-10 15:10
试了一下,可以正确执行,但有些内容搜不出来,不知道为什么!
你好,可以说下具体情况嘛,我再优化优化 {:301_993:}变秃了也变强了