吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3865|回复: 59
收起左侧

[Python 原创] Python异步编程--获取girlypic写真集

[复制链接]
Kan刊 发表于 2023-11-5 15:26
本帖最后由 Kan刊 于 2023-11-5 21:00 编辑

前言

距离上次发帖还是3年前,转眼都已经工作三年半了。

在日常生活中,无论是网络配置、文件整理、web开发还是工具,时常用到Python写些脚本。

我之前在用Django写了一个web应用后,发现是同步框架,导致在上传一个大文件时,其他接口都不能调用,当时也不懂什么gevent,踩坑后直接换成了FastApi,从此就开始异步之旅。

这次主要是分享下异步编程的经验,就拿获取girlypic的图片举例吧,也希望能给一些同学带来思考。

  • 使用argparse而不是os.args,这个库能够优雅地获取命令行参数,不再需要os.args判断个数或者类型。
  • 使用pathlib而不是os.path,这个库能够高效地处理各种文件操作,创建、修改、删除、路径拼接等。
  • 使用logging而不是print,个人更加习惯用日志的方式打印信息。
  • 使用aiohttp而不是requests,当你决定用异步的方式发送网络请求时,就用这个库吧。
  • 使用aiofiles而不是open,当你决定用异步的方式读写文件时,就用这个库吧。
  • 使用lxml,这个库能够使用Xpath语法帮助我们解析html内容。
  • 使用asyncio.create_task而不是for循环,当一组任务不是顺序相关时,不必循环await执行,通过创建任务的方式异步执行。
  • 使用类型提示,标注变量的类型,方便IDE检索。

以上是常用的库或者提示,没有好坏之分,主要是看个人的习惯,一旦一处异步,那就处处异步

Python版本

当前稳定版本是:3.10.11

Python依赖

aiohttp==3.8.6
aiofiles==23.2.1
lxml==4.9.3

Python源码

import asyncio
import logging
import argparse
from pathlib import Path

import aiohttp
import aiofiles
from lxml import etree

logger = logging.getLogger()
logger.setLevel(logging.INFO)
formatter = logging.Formatter('%(asctime)s - %(levelname)s - %(message)s')
console = logging.StreamHandler()
console.setLevel(logging.INFO)
console.setFormatter(formatter)
logger.addHandler(console)

PROXY = "http://127.0.0.1:10808"
SAVE_FOLDER = Path("Downloads")
PICTURE_HOST = "https://girlygirlpic.com"
PICTURE_GATHER = PICTURE_HOST + "/ax/"
PICTURE_SEARCH = PICTURE_HOST + "/sx/"
PICTURE_URL = '//div[@class="post-media-body"]//a[@class="figure-link os-lightbox-activator"]/@href'
ALBUM_NAMES = '//div[@class="post-content-body"]/h4[@class="post-title entry-title"]/a[@class="on-popunder"]'
HEADER = {
    "Origin": PICTURE_HOST,
    "Connection": "close",
    "Cookie": "_user_language=Cn",
    "X-Requested-With": "XMLHttpRequest",
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:109.0) Gecko/20100101 Firefox/115.0"
}

async def download_picture(url: str, save_folder: Path) -> None:
    async with aiohttp.ClientSession() as session:
        try:
            async with session.get(url, proxy=PROXY, headers=HEADER) as response:
                picture_name = url[url.rfind("/") + 1:]
                async with aiofiles.open(save_folder / picture_name, "wb") as handle:
                    async for chunk in response.content.iter_chunked(1024):
                        await handle.write(chunk)
        except Exception as exception:
            logger.error(f"{exception} [URL] {url}")

async def parse_album(url: str, save_folder: Path) -> None:
    album_id = url[url.rfind("/") + 1:]
    header = {**HEADER, **{"Referer": url}}
    async with aiohttp.ClientSession() as session:
        requests_body = {"album_id": album_id}
        async with session.post(PICTURE_GATHER, json=requests_body, proxy=PROXY, headers=header) as response:
            html_content = await response.text()
            image_href = etree.HTML(html_content).xpath(PICTURE_URL)
            logger.info(f"{len(image_href):03d} photos of album [{save_folder.name}]")
            task_list = [asyncio.create_task(download_picture(pic_url, save_folder)) for pic_url in image_href]
            await asyncio.wait(task_list) if len(task_list) > 0 else None
            logger.info(f"album saved [{save_folder.name}]")

async def get_albums(name: str) -> None:
    async with aiohttp.ClientSession() as session:
        requests_body = {"search_keys_tag": name}
        async with session.post(PICTURE_SEARCH, json=requests_body, proxy=PROXY, headers=HEADER) as response:
            html_content = await response.text()
            album_content = etree.HTML(html_content).xpath(ALBUM_NAMES)
            logger.info(f"{len(album_content):03d} albums about {name}")
            task_list = []
            for album in album_content:
                href = album.get("href")
                text = album.text
                save_folder = SAVE_FOLDER / name / text
                save_folder.mkdir(parents=True) if not save_folder.exists() else None
                task_list.append(asyncio.create_task(parse_album(href, save_folder)))
            await asyncio.wait(task_list) if len(task_list) > 0 else None

async def main(names: [str]) -> None:
    await asyncio.wait([asyncio.create_task(get_albums(name)) for name in names])
    logger.info("done")

if __name__ == "__main__":
    parser = argparse.ArgumentParser(description="download pictures")
    parser.add_argument("name", type=str, nargs='+', help="girls name list")
    args = parser.parse_args()
    asyncio.run(main(args.name))

其中PICTURE_HOST就是域名,需要科学访问,所以PROXY自己配置吧。

运行方法很简单:python main.py xxxx xxxx xxxx,其中xxxx为姓名,多个人名按照空格隔开。

获取完毕后会在当前创建一个Downloads目录,图片会按照姓名以及相册名归类在里面。

运行结果

这就是异步的魅力,同步的方式只能一次发送一个请求,然后阻塞在网络IO上,异步则会在这种情况下让出CPU资源执行其他的代码。

看看效果图~

图片过多,访问过于频繁时,请求有可能会被BAN,所以可以适当地延迟下载任务,由于是异步,就不要用time.sleep()了,而是要用asyncio.sleep()

鄙人才疏学浅,如果大家有更好的异步经验,欢迎交流。

pictures.zip

1.72 KB, 下载次数: 82, 下载积分: 吾爱币 -1 CB

源码

免费评分

参与人数 12吾爱币 +17 热心值 +11 收起 理由
zhu1979 + 1 + 1 谢谢@Thanks!
liulued + 1 + 1 我很赞同!
zhixiangwangluo + 1 + 1 谢谢@Thanks!
三逸 + 1 鼓励转贴优秀软件安全工具和文档!
tesg + 1 + 1 我很赞同!
苏紫方璇 + 7 + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!
chaozhi + 1 + 1 用心讨论,共获提升!
爱的太迟 + 1 + 1 用心讨论,共获提升!
schtg + 1 + 1 谢谢@Thanks!
XiaoBai.Q.Q + 1 我很赞同!
MC心福 + 1 + 1 我很赞同!
LoveCode + 1 + 1 热心回复!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

baliao 发表于 2023-11-5 19:38
本帖最后由 baliao 于 2023-11-5 19:40 编辑

感谢楼主,无私分享!
Cannot connect to host 127.0.0.1:10808 ssl:default
怎么搭建那个代{过}{滤}理服务器?
a2599639 发表于 2024-1-4 10:35
2024-01-04 10:33:48,448 - ERROR - Cannot connect to host img.girlygirlpic.com:443 ssl:default [指定的网络名不再可用。] [URL]
2024-01-04 10:33:48,448 - ERROR - Cannot connect to host img.girlygirlpic.com:443 ssl:default [指定的网络名不再可用。] [URL]
2024-01-04 10:33:52,025 - INFO - album saved [鈴木愛理 Suzuki Airi [Hello! Project Digital Books] Vol.78]
2024-01-04 10:33:52,371 - INFO - album saved [鈴木愛理 [Hello! Project Digital Books] Vol.123]
中间出现指定的网络名不再可用是为什么呀
黑羽快斗 发表于 2023-11-5 15:33
雾都孤尔 发表于 2023-11-5 16:35
学习学习,支持原创。
orb001 发表于 2023-11-5 16:38
谢谢分享原创
shengforever 发表于 2023-11-5 16:42
学习了 赞一个
hurric 发表于 2023-11-5 17:03
正在学python 谢谢你分享的源码
yanqiqi 发表于 2023-11-5 17:26
感谢楼主,无私分享
ohos9527 发表于 2023-11-5 19:24
谢谢!真是需要的东东
tianye20110206 发表于 2023-11-5 19:48
好好学习了不然啥也不是
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-18 03:04

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表