吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2834|回复: 24
收起左侧

[Python 原创] python爬虫三国杀十周年

  [复制链接]
zxc693122 发表于 2023-8-25 11:32
本帖最后由 苏紫方璇 于 2023-8-28 00:53 编辑

[Python] 纯文本查看 复制代码
import urllib.request
from lxml import etree
import json

# [url]https://www.sanguosha.com/msgs/mWallPaper[/url]
# [url]https://www.sanguosha.com/msgs/mWallPaper/cur/2[/url]
# [url]https://www.sanguosha.com/msgs/mWallPaper/cur/3[/url]


def get_content(page):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) "
                      "Chrome/115.0.0.0 Safari/537.36"}
    if page == 1:
        first_url = "https://www.sanguosha.com/msgs/mWallPaper"
        request_first = urllib.request.Request(url=first_url, headers=headers)
        response = urllib.request.urlopen(request_first)
        content_first = response.read().decode("utf-8")
        num = 0
        tree = etree.HTML(content_first)
        https_list = tree.xpath("/html/body/div[1]/div/div//@href")
        for i in range(len(https_list)):
            url = https_list[i]
            num += 1
            urllib.request.urlretrieve(url=url, filename="D:/三国杀十周年壁纸/" + "00" + str(num) + ".jpg")
    else:
        url = "https://www.sanguosha.com/msgs/mWallPaper/cur/" + str(page)
        request = urllib.request.Request(url=url, headers=headers)
        response = urllib.request.urlopen(request)
        content = response.read().decode("utf-8")
        with open("三国杀十周年壁纸爬虫.json", "w", encoding="utf-8") as file:
            file.write(content)


def json_data():
    json_file = json.load(open("三国杀十周年壁纸爬虫.json", "r", encoding="utf-8"))
    for i in range(len(json_file)):
        https_data = json_file[i]["imgurl"]
        name = json_file[i]["title"].replace("*", "-")
        urllib.request.urlretrieve(url=https_data, filename="D:/三国杀十周年壁纸/" + name + ".jpg")


if __name__ == '__main__':
    begin_page = int(input("请输入起始页码:"))
    end_page = int(input("请输入起始结束:"))
    for page in range(begin_page, end_page + 1):
        get_content(page)
        json_data()
Snipaste_2023-08-25_11-25-29.png

壁纸.txt

75 Bytes, 下载次数: 41, 下载积分: 吾爱币 -1 CB

免费评分

参与人数 2热心值 +2 收起 理由
keepaway + 1 我很赞同!
whynot123 + 1 我很赞同!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

苏紫方璇 发表于 2023-8-28 00:53
推荐使用下边这种方式插入代码
【公告】发帖代码插入以及添加链接教程(有福利)
https://www.52pojie.cn/thread-713042-1-1.html
(出处: 吾爱破解论坛)
gujun0416 发表于 2023-8-25 11:50
jrwapj 发表于 2023-8-25 11:53
rosewood 发表于 2023-8-25 12:25
不错,感谢楼主分享,共同进步!
余律师 发表于 2023-8-25 13:07
谢谢您的分享!
xiaopeng128 发表于 2023-8-25 13:52
谢谢分享
加奈绘 发表于 2023-8-25 14:46
支持楼主,谢谢分享
1225661221 发表于 2023-8-25 15:09
牛蛙牛蛙
两个人的地球 发表于 2023-8-25 15:57
谢谢楼主分享
t1r0 发表于 2023-8-25 15:58
很喜欢的功能
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-4 19:42

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表