zhb1996 发表于 2021-6-8 10:36

请问for 循环怎么优化加速呀?我这个代码直接裂开了,求大神看看

startTime = time.time()
contentVector_list = []
for i in range(len(cutWords_list)):
   cutWords = cutWords_list
if (i+1) % 300 == 0:
   usedTime = time.time() - startTime
   print('前%d篇文档表示成向量共花费%.2f秒' %(i+1, usedTime))
   vector_list = for k in cutWords if k in pre_word2vec.index_to_key]
   contentVector = np.array(vector_list).mean(axis=0)
   contentVector_list.append(contentVector)

X = np.array(contentVector_list)



总共1658条文档,跑了5分钟,我还有个8000多条的数据,这样搞下去直接得好几个小时啊,求求大神看看怎么快速点

diaozatian815 发表于 2021-6-8 10:39

diaozatian815 发表于 2021-6-8 10:41

痴情总被无情伤 发表于 2021-6-8 10:46

用线程池去跑,io读写就该用线程.

Echoes丶 发表于 2021-6-8 10:46

多线程跑不就好啦

santus36 发表于 2021-6-8 10:54

把word2vec的过程转化成矩阵乘法的形式,然后用numpy或者pytorch计算。
话说你为啥不用预训练模型表征文档呢?

泽樟 发表于 2021-6-8 11:02

用线程吧

zhb1996 发表于 2021-6-8 11:04

santus36 发表于 2021-6-8 10:54
把word2vec的过程转化成矩阵乘法的形式,然后用numpy或者pytorch计算。
话说你为啥不用预训练模型表征文档 ...

主要是菜啊,咱也不会{:1_909:}

zhb1996 发表于 2021-6-8 11:06

diaozatian815 发表于 2021-6-8 10:41
而且。。。
,5分钟 = 1658条文档,
还有个8000多条,,


线程池我会单个for循环爬网页,放这里直接懵逼了,大哥可以敲敲嘛

a954210336 发表于 2021-6-8 11:15

着急搞 手动多开。。。   搞几个目录 把总的文件 分割到那几个目录 然后 是几个目录 就复制几份代码 同时 进行 ~
页: [1] 2 3
查看完整版本: 请问for 循环怎么优化加速呀?我这个代码直接裂开了,求大神看看