吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 37316|回复: 433
收起左侧

[原创工具] 【python爬虫】中小学人教版教材下载 (调用IDM)

    [复制链接]
许清渠 发表于 2020-2-21 14:59
pdf来源:https://bp.pep.com.cn/jc/index.html

由于不会排版,源码就不发出来了

第一步:打开软件,输入下载目录和idm完整路径
图1.png

第二步:打开IDM查看下载任务并开始下载
图2.png
第三步:熊孩子学习去吧!你该上网课了!
图3.png

链接:https://pan.baidu.com/s/1OOujzEdCBsTLlYuIbUtUnw
提取码:aq7y

免费评分

参与人数 69吾爱币 +64 热心值 +62 收起 理由
huoxingwawalei + 1 热心回复!
afixedstar + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
矢口日 + 1 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
iyjqqk + 1 + 1 我很赞同!
MV777 + 1 + 1 谢谢@Thanks!
ishining + 1 + 1 热心回复!
GK_sn + 1 + 1 我很赞同!
高杰空间 + 1 + 1 谢谢@Thanks!
xuq1981 + 1 + 1 谢谢@Thanks!
xiazhi1128 + 1 热心回复!
Rise-g2y + 1 + 1 我很赞同!
缘缘缘缘缘缘 + 1 我很赞同!
chaff + 1 + 1 热心回复!
kasio + 1 谢谢@Thanks!
o77477 + 1 + 1 我很赞同!
sisao + 1 + 1 我很赞同!
金色阳光 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
liuupj + 1 + 1 热心回复!
caleee + 1 + 1 谢谢@Thanks!
爱吃烧鸡爱烧酒 + 1 + 1 谢谢@Thanks!
www66018 + 1 用心讨论,共获提升!
miaoziao + 1 好好的失量文字版,整的这么模糊,伤害祖国的花朵眼睛了
把握飞逝的时间 + 1 + 1 我很赞同!
guanlele + 1 热心回复!
CSZDGS + 1 + 1 我很赞同!
jnez112358 + 1 + 1 谢谢@Thanks!
lmc1998913 + 1 还以为现在中小学开始学python了’
杨周生 + 1 + 1 谢谢@Thanks!
20Roger + 1 + 1 用心讨论,共获提升!
月落123 + 1 + 1 谢谢@Thanks!
ugvfire + 1 + 1 谢谢@Thanks!
hx609393 + 1 + 1 我很赞同!
windsky007 + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
HC灬星夜 + 1 鼓励转贴优秀软件安全工具和文档!
997862597v5 + 1 我很赞同!
dbmk + 1 + 1 鼓励转贴优秀软件安全工具和文档!
mailongxing + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
moe703 + 1 + 1 谢谢@Thanks!
it199 + 1 谢谢@Thanks!
ALCATEL + 1 + 1 我很赞同!
ltf5521 + 1 + 1 谢谢@Thanks!
tree945 + 1 + 1 有32位系统可用的吗?谢谢
dxai121545 + 1 谢谢@Thanks!
阙十七 + 1 + 1 谢谢@Thanks!
wangxc_wapj + 1 + 1 谢谢@Thanks!
qq200800704 + 1 + 1 py从娃娃抓起
wangxb2555 + 1 + 1 热心回复!
kiss2011321 + 1 + 1 这是64位的吧,没有32位吗
血眼冷眸 + 1 追随老大的脚步~
minchang + 1 + 1 热心回复!
oxxo119 + 1 + 1 热心回复!
Ta自己 + 1 + 1 鼓励转贴优秀软件安全工具和文档!
米多爹 + 1 + 1 热心回复!
alppeak + 1 + 1 谢谢@Thanks!
cndaofeng + 1 + 1 能爬下其他网址吗 有账号那种 爬下来我分享一下
chsezxj + 1 + 1 鼓励转贴优秀软件安全工具和文档!
风之暇想 + 6 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
naiwenmoer1 + 1 + 1 正在学习python,能否私法下源码。
wapjwuyan + 1 idm要填程序位置,不是目录
longwu1031 + 1 + 1 谢谢@Thanks!
海一笑1980 + 1 + 1 厉害了
newhopegroup + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
loveyang49 + 1 + 1 谢谢@Thanks!
行者悠然 + 1 谢谢@Thanks!
fishfly520 + 1 + 1 可以自己改瓟其它网址就好了。
lucool + 1 + 1 我很赞同!
lemon595 + 1 + 1 谢谢@Thanks!
shijian0310 + 1 + 1 谢谢@Thanks!
pkwrt + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

itszy 发表于 2020-2-26 19:29
根据楼主的python改的。就没做成运行文件,代码如下:新手勿喷。#!/usr/bin/env python3
# encoding: utf-8
'''
@author: zengyun
@contact: zengyun@lpht.com.cn
@software: tool
@application:
@file: down.py
@time: 2020/2/21 15:46
@desc:
'''

import requests, bs4
from tqdm import tqdm


# 获取文件名称和下载地址
def get_soup(url):
    r = requests.get(url)
    r.encoding = 'utf-8'  # utf-8解码文档
    rt = r.text
    soup = bs4.BeautifulSoup(rt, 'lxml')
    return soup


# 创建文件夹
def mkdir(path):
    # 引入模块
    import os
    # 去除首位空格
    path = path.strip()
    # 去除尾部 \ 符号
    path = path.rstrip("\\")
    # 判断路径是否存在
    # 存在     True
    # 不存在   False
    isExists = os.path.exists(path)
    # 判断结果
    if not isExists:
        # 如果不存在则创建目录
        # 创建目录操作函数
        os.makedirs(path)
        print(path + ' 创建成功')
        return True
    else:
        # 如果目录存在则不创建,并提示目录已存在
        print(path + ' 目录已存在')
        return False


# 获取桌面路径
def get_desktop():
    key = winreg.OpenKey(winreg.HKEY_CURRENT_USER, r'Software\Microsoft\Windows\CurrentVersion\Explorer\Shell Folders')
    return winreg.QueryValueEx(key, "Desktop")[0]


# 下载文件
def get_pdf(savename, filename, url):
    response = requests.get(url, stream="TRUE")
    # stream=True的作用是仅让响应头被下载,连接保持打开状态,
    content_size = int(response.headers['Content-Length']) / 1024
    # 确定整个安装包的大小
    # pdf = response.content
    pbar = tqdm(total=content_size, initial=0, unit='B', unit_scale=True, desc=filename)
    with open(savename, 'wb') as f:
        # 下载文件
        for chunk in response.iter_content(chunk_size=1024):
            if chunk:
                f.write(chunk)
                # 更新文件大小
                pbar.update(1024)
    pbar.close()


url = 'https://bp.pep.com.cn/jc/index.html'
# 学科名称
discipline0 = '人教版中小学电子教案'  # 学科主目录
discipline1 = []  # 学科一级目录
discipline2 = {}  # 学科二级目录
discipline = get_soup(url=url).find_all('div', "list_sjzl_jcdzs2020")
# 创建主目录
mkdir(path=get_desktop() + "\\" + discipline0)

for i in discipline:
    discipline_class = i.find('div', "container_title_jcdzs2020")
    discipline_class_name = discipline_class.get_text()
    # 创建一级目录
    mkdir(path=get_desktop() + "\\" + discipline0 + "\\" + discipline_class_name)
    # 一级目录list
    # discipline1.append(discipline_class_name)
    for a in i.find_all('a'):
        value = 'https://bp.pep.com.cn/jc' + a['href'][1:]
        key = a.get_text()
        discipline2[key] = value  # 创建字典
        # 创建二级目录
        mkdir(path=get_desktop() + "\\" + discipline0 + "\\" + discipline_class_name + "\\" + key)
        textbook = get_soup(url=value).find_all('ul', "clearfix")
        for i in textbook:
            for j in i.find_all('li', 'fl js_cp'):
                save_name = get_desktop() + "\\" + discipline0 + "\\" + discipline_class_name + "\\" + key + '\\' + \
                            j.find('a')['title'] + ".pdf"
                h_url = j.find('a', "btn_type_dl")['href']
                d_url = value + h_url[2:]
                get_pdf(savename=save_name, filename=j.find('a')['title'], url=d_url)

免费评分

参与人数 4吾爱币 +4 热心值 +2 收起 理由
dechong + 1 谢谢@Thanks!
云的彼岸918 + 1 + 1 谢谢@Thanks!
am568 + 1 谢谢@Thanks!
许清渠 + 1 + 1 学习了bs4,外加百度了discipline,收获颇丰

查看全部评分

alittlebear 发表于 2020-2-21 15:13
youyou0201 发表于 2020-2-21 15:10
newhopegroup 发表于 2020-2-22 22:48
试了下确实可以用,无法在软件复制粘贴的,22楼给了解决方案,我复制过来吧:一是通过右键单击控制台主题边框在弹出的菜单中选择编辑、粘贴;二是通过右键单击控制台主题边框在弹出的菜单中选择属性,勾选快速编辑模式。
另外下载目录必须是idm主程序的位置,而不是idm所在文件夹
我这里遇到唯一的问题是:idm不会自动下载,要手动点开始队列才能下载,不知是否设置问题
 楼主| 许清渠 发表于 2020-2-21 15:26
shmylovei 发表于 2020-2-21 15:25
输入目录必须手动输入吗  为啥不能粘贴啊

鼠标右键粘贴
zy0078 发表于 2020-2-21 15:13
这个好,正好要用,多谢分享。
hxw139 发表于 2020-2-21 15:14
感谢分享
crackisgood 发表于 2020-2-21 15:16
咋就这么厉害的
mdar1911 发表于 2020-2-21 15:17
谢谢楼主的分享。
alucardk 发表于 2020-2-21 15:17
正好要用,多谢分享。
ltg6688 发表于 2020-2-21 15:17
可以用,谢谢分享!
qq8760543 发表于 2020-2-21 15:19
谢谢楼主,今天下午搞了一下午在搞图片重命名排序,这下好了
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 提醒:禁止复制他人回复等『恶意灌水』行为,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-24 18:49

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表