fuqingxu 发表于 2021-2-1 15:25

【Python】分享自己写的arxiv论文下载工具

第一次发帖……
{:1_936:}

在国内下载arxiv速度是真的慢,国内有arxiv镜像http://xxx.itp.ac.cn/,但我总是记不住(捂脸){:1_924:} 。
此外arxiv下载之后仅仅是用数字编号,论文多了之后就找不到哪篇是那篇了,体验极差{:1_908:} 。

这个python代码用了国内的arxiv镜像以及aria2下载工具,有且只有两个功能,
1、输入arxiv原始地址,如https://arxiv.org/pdf/1611.01578.pdf,会自动替换成http://xxx.itp.ac.cn/pdf/1611.01578.pdf,然后调用aria2下载到python脚本所在目录
2、把下载后的论文重命名,例如1611.01578.pdf-->NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING.pdf

使用之前先安装python3:
https://www.python.org/downloads/
然后应该不需要用pip安装其他的东西,因为用的都是python自带的包,直接双击get_arxiv.py,复制粘贴pdf网址,点击下载即可






p.s.文件名不能有英文冒号:和问号?,程序会替换为中文冒号:和问号?

附件中有源代码和aria2下载工具,

其中的源代码为:

import subprocess
from tkinter import *
top = Tk()

def get_name(_url_):
    from lxml import html
    doc = html.parse(_url_)
    title = doc.findtext('.//title')
    return title+'.pdf'

class Manager(object):

   def __init__(self, text_ui):
      self.text_ui = text_ui

   def download_arxiv(self):
      url = self.text_ui.get()
      url = url.replace('arxiv.org','xxx.itp.ac.cn')
      url = url.replace('https','http')
      abstract_url = url.replace('.pdf','').replace('pdf','abs')
      title_str = get_name(_url_=abstract_url)\
                        .replace('?','?')\
                        .replace(':',':')\
                        .replace('\"','“')
      subprocess.call('aria2c -o \"%s\" %s'%(title_str,url), shell=True)
      

text_ui = Entry(top)
text_ui.pack(side = LEFT)

manager = Manager(text_ui)
download_ui = Button(top, text ="下载", command = manager.download_arxiv)
download_ui.pack(side = RIGHT)

top.mainloop()


huashengyue 发表于 2021-2-18 23:05

Specify at least one URL.
Usage: aria2c ...
See 'aria2c -h'.

huashengyue 发表于 2021-2-18 22:52

先赞一个

堂大湿不会编程 发表于 2021-3-15 12:05

收藏个,万一用的到呢{:1_896:}

朴袖儿xc 发表于 2021-3-15 12:29

还半年就能用到了,哈哈,收藏着。

wlk6195 发表于 2021-3-30 15:56

马上就要用到了,谢谢楼主分享

pearpear888 发表于 2021-3-30 16:09

谢谢楼主分享

枫驭 发表于 2021-4-4 17:46

没有知网的吗?

AGS_20 发表于 2021-5-2 18:36

感谢大佬

zmd1998 发表于 2021-5-2 20:16

感谢楼主!
页: [1] 2
查看完整版本: 【Python】分享自己写的arxiv论文下载工具