第一次发帖……
{:1_936:}
在国内下载arxiv速度是真的慢,国内有arxiv镜像http://xxx.itp.ac.cn/,但我总是记不住(捂脸){:1_924:} 。
此外arxiv下载之后仅仅是用数字编号,论文多了之后就找不到哪篇是那篇了,体验极差{:1_908:} 。
这个python代码用了国内的arxiv镜像以及aria2下载工具,有且只有两个功能,
1、输入arxiv原始地址,如https://arxiv.org/pdf/1611.01578.pdf,会自动替换成http://xxx.itp.ac.cn/pdf/1611.01578.pdf,然后调用aria2下载到python脚本所在目录
2、把下载后的论文重命名,例如1611.01578.pdf-->NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING.pdf
使用之前先安装python3:
[Asm] 纯文本查看 复制代码 https://www.python.org/downloads/
然后应该不需要用pip安装其他的东西,因为用的都是python自带的包,直接双击get_arxiv.py,复制粘贴pdf网址,点击下载即可
p.s.文件名不能有英文冒号:和问号?,程序会替换为中文冒号:和问号?
附件中有源代码和aria2下载工具,
其中的源代码为:
[Asm] 纯文本查看 复制代码 import subprocess
from tkinter import *
top = Tk()
def get_name(_url_):
from lxml import html
doc = html.parse(_url_)
title = doc.findtext('.//title')
return title+'.pdf'
class Manager(object):
def __init__(self, text_ui):
self.text_ui = text_ui
def download_arxiv(self):
url = self.text_ui.get()
url = url.replace('arxiv.org','xxx.itp.ac.cn')
url = url.replace('https','http')
abstract_url = url.replace('.pdf','').replace('pdf','abs')
title_str = get_name(_url_=abstract_url)\
.replace('?','?')\
.replace(':',':')\
.replace('\"','“')
subprocess.call('aria2c -o \"%s\" %s'%(title_str,url), shell=True)
text_ui = Entry(top)
text_ui.pack(side = LEFT)
manager = Manager(text_ui)
download_ui = Button(top, text ="下载", command = manager.download_arxiv)
download_ui.pack(side = RIGHT)
top.mainloop()
|