吾爱破解 - 52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 5351|回复: 13
收起左侧

[Python 转载] 【Python】分享自己写的arxiv论文下载工具

[复制链接]
fuqingxu 发表于 2021-2-1 15:25
第一次发帖……
{:1_936:}

在国内下载arxiv速度是真的慢,国内有arxiv镜像http://xxx.itp.ac.cn/,但我总是记不住(捂脸){:1_924:} 。
此外arxiv下载之后仅仅是用数字编号,论文多了之后就找不到哪篇是那篇了,体验极差{:1_908:} 。

这个python代码用了国内的arxiv镜像以及aria2下载工具,有且只有两个功能,
1、输入arxiv原始地址,如https://arxiv.org/pdf/1611.01578.pdf,会自动替换成http://xxx.itp.ac.cn/pdf/1611.01578.pdf,然后调用aria2下载到python脚本所在目录
2、把下载后的论文重命名,例如1611.01578.pdf-->NEURAL ARCHITECTURE SEARCH WITH REINFORCEMENT LEARNING.pdf

使用之前先安装python3:
[Asm] 纯文本查看 复制代码
1
https://www.python.org/downloads/

然后应该不需要用pip安装其他的东西,因为用的都是python自带的包,直接双击get_arxiv.py,复制粘贴pdf网址,点击下载即可


get_arxiv.jpg

reg.jpg

p.s.文件名不能有英文冒号:和问号?,程序会替换为中文冒号:和问号?

附件中有源代码和aria2下载工具,

其中的源代码为:

[Asm] 纯文本查看 复制代码
01
02
03
04
05
06
07
08
09
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
import subprocess
from tkinter import *
top = Tk()
 
def get_name(_url_):
    from lxml import html
    doc = html.parse(_url_)
    title = doc.findtext('.//title')
    return title+'.pdf'
 
class Manager(object):
 
   def __init__(self, text_ui):
      self.text_ui = text_ui
 
   def download_arxiv(self):
      url = self.text_ui.get()
      url = url.replace('arxiv.org','xxx.itp.ac.cn')
      url = url.replace('https','http')
      abstract_url = url.replace('.pdf','').replace('pdf','abs')
      title_str = get_name(_url_=abstract_url)\
                        .replace('?','?')\
                        .replace(':',':')\
                        .replace('\"','“')
      subprocess.call('aria2c -o \"%s\" %s'%(title_str,url), shell=True)
       
 
text_ui = Entry(top)
text_ui.pack(side = LEFT)
 
manager = Manager(text_ui)
download_ui = Button(top, text ="下载", command = manager.download_arxiv)
download_ui.pack(side = RIGHT)
 
top.mainloop()



get_arxiv.zip

2.09 MB, 下载次数: 183, 下载积分: 吾爱币 -1 CB

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

huashengyue 发表于 2021-2-18 23:05
Specify at least one URL.
Usage: aria2c [OPTIONS] [URI | MAGNET | TORRENT_FILE | METALINK_FILE]...
See 'aria2c -h'.
huashengyue 发表于 2021-2-18 22:52
堂大湿不会编程 发表于 2021-3-15 12:05
朴袖儿xc 发表于 2021-3-15 12:29
还半年就能用到了,哈哈,收藏着。
wlk6195 发表于 2021-3-30 15:56
马上就要用到了,谢谢楼主分享
pearpear888 发表于 2021-3-30 16:09
谢谢楼主分享
枫驭 发表于 2021-4-4 17:46
没有知网的吗?
AGS_20 发表于 2021-5-2 18:36
感谢大佬
zmd1998 发表于 2021-5-2 20:16
感谢楼主!
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则

返回列表

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2025-7-6 17:00

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表