【Python】分享自己写的arxiv论文下载工具

fuqingxu · 发表于 2021-2-1 15:25

第一次发帖……
{:1_936:}

在国内下载arxiv速度是真的慢，国内有arxiv镜像http://xxx.itp.ac.cn/，但我总是记不住（捂脸）{:1_924:} 。
此外arxiv下载之后仅仅是用数字编号，论文多了之后就找不到哪篇是那篇了，体验极差{:1_908:} 。

这个python代码用了国内的arxiv镜像以及aria2下载工具，有且只有两个功能，
1、输入arxiv原始地址，如https://arxiv.org/pdf/1611.01578.pdf，会自动替换成http://xxx.itp.ac.cn/pdf/1611.01578.pdf，然后调用aria2下载到python脚本所在目录
2、把下载后的论文重命名，例如1611.01578.pdf-->NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING.pdf

使用之前先安装python3：

[Asm] 纯文本查看 复制代码

https://www.python.org/downloads/

然后应该不需要用pip安装其他的东西，因为用的都是python自带的包，直接双击get_arxiv.py，复制粘贴pdf网址，点击下载即可

p.s.文件名不能有英文冒号:和问号?，程序会替换为中文冒号：和问号？

附件中有源代码和aria2下载工具，

其中的源代码为：

[Asm] 纯文本查看 复制代码

import subprocess
from tkinter import *
top = Tk()

def get_name(_url_):
    from lxml import html
    doc = html.parse(_url_)
    title = doc.findtext('.//title')
    return title+'.pdf'

class Manager(object):

   def __init__(self, text_ui):
      self.text_ui = text_ui

   def download_arxiv(self):
      url = self.text_ui.get()
      url = url.replace('arxiv.org','xxx.itp.ac.cn')
      url = url.replace('https','http')
      abstract_url = url.replace('.pdf','').replace('pdf','abs')
      title_str = get_name(_url_=abstract_url)\
                        .replace('?','？')\
                        .replace(':','：')\
                        .replace('\"','“')
      subprocess.call('aria2c -o \"%s\" %s'%(title_str,url), shell=True)
      

text_ui = Entry(top)
text_ui.pack(side = LEFT)

manager = Manager(text_ui)
download_ui = Button(top, text ="下载", command = manager.download_arxiv)
download_ui.pack(side = RIGHT)

top.mainloop()

huashengyue · 发表于 2021-2-18 23:05

Specify at least one URL.
Usage: aria2c [OPTIONS] [URI | MAGNET | TORRENT_FILE | METALINK_FILE]...
See 'aria2c -h'.

huashengyue · 发表于 2021-2-18 22:52

先赞一个

堂大湿不会编程 · 发表于 2021-3-15 12:05

收藏个，万一用的到呢

朴袖儿xc · 发表于 2021-3-15 12:29

还半年就能用到了，哈哈，收藏着。

wlk6195 · 发表于 2021-3-30 15:56

马上就要用到了，谢谢楼主分享

pearpear888 · 发表于 2021-3-30 16:09

谢谢楼主分享

枫驭 · 发表于 2021-4-4 17:46

没有知网的吗？

AGS_20 · 发表于 2021-5-2 18:36

感谢大佬

zmd1998 · 发表于 2021-5-2 20:16

感谢楼主！

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 【Python】分享自己写的arxiv论文下载工具