请问for 循环怎么优化加速呀?我这个代码直接裂开了,求大神看看
startTime = time.time()contentVector_list = []
for i in range(len(cutWords_list)):
cutWords = cutWords_list
if (i+1) % 300 == 0:
usedTime = time.time() - startTime
print('前%d篇文档表示成向量共花费%.2f秒' %(i+1, usedTime))
vector_list = for k in cutWords if k in pre_word2vec.index_to_key]
contentVector = np.array(vector_list).mean(axis=0)
contentVector_list.append(contentVector)
X = np.array(contentVector_list)
总共1658条文档,跑了5分钟,我还有个8000多条的数据,这样搞下去直接得好几个小时啊,求求大神看看怎么快速点
用线程池去跑,io读写就该用线程. 多线程跑不就好啦 把word2vec的过程转化成矩阵乘法的形式,然后用numpy或者pytorch计算。
话说你为啥不用预训练模型表征文档呢? 用线程吧 santus36 发表于 2021-6-8 10:54
把word2vec的过程转化成矩阵乘法的形式,然后用numpy或者pytorch计算。
话说你为啥不用预训练模型表征文档 ...
主要是菜啊,咱也不会{:1_909:} diaozatian815 发表于 2021-6-8 10:41
而且。。。
,5分钟 = 1658条文档,
还有个8000多条,,
线程池我会单个for循环爬网页,放这里直接懵逼了,大哥可以敲敲嘛 着急搞 手动多开。。。 搞几个目录 把总的文件 分割到那几个目录 然后 是几个目录 就复制几份代码 同时 进行 ~