吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 6640|回复: 59
收起左侧

[Python 转载] 爬取妹子图片

  [复制链接]
ChinaLee 发表于 2020-8-16 21:06
本帖最后由 ChinaLee 于 2020-8-16 21:11 编辑

爬取妹子图片,学之小甲鱼,并给每个模特建个文件夹。
喜欢的给点爱心,好解除违规{:1_937:}

[Python] 纯文本查看 复制代码
import re
import os
import requests
import easygui as g
import time


def get_html(url):
    header = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0',
        'Referer': 'https://www.mzitu.com/japan/'}
    html = requests.get(url, headers=header)
    return html


def get_img(html):
    html = html.text
    img_re = "https:\/\/i3\.mmzztt\.com\/(?:.+\/)+.+(?:\.jpg)"
    imgs = re.findall(img_re, html)
    return imgs


def save_img(imgs, page):
    for img_url in imgs:
        res = get_html(img_url)
        img = res.content
        name = page + img_url.split("/")[-1]
        print(img_url)
        with open(name, "wb") as f:
            f.write(img)


def download_mm():
    great = g.diropenbox()
    os.chdir(great)
    i = int(input("请输入开始页码(建议为1):"))
    n = int(input("请输入结束页码:"))
    while i < n:
        home_url = "https://www.mzitu.com/page/" + str(i) + "/"
        i += 1
        model_html = get_html(home_url).text
        model = re.compile("https:\/\/.{13}\/\d{5,6}")
        all_model = model.findall(model_html)
        all_model = list(set(all_model))  # 去重
        for each in all_model:

            img_url = get_html(each).text
            dirs = re.search(r'([\u4e00-\u9fa5·]{2,16})', img_url).group()
            print('开始下载%s模特的图片' % dirs)
            if os.path.exists(dirs):
                pass
            else:
                os.mkdir(dirs)
                os.chdir(dirs)
                try:
                    nums = re.findall("https:\/\/.{13}\/\d{5,6}\/\d{2}", img_url)
                    page_num = int(nums[-1].split("/")[-1])
                    print('该模特共有%s张图片' % page_num)
                    for mm in range(page_num):
                        mm_url = each + "/" + str(mm + 1)
                        print(mm_url)
                        mm_html = get_html(mm_url)
                        imgs = get_img(mm_html)
                        page = str(i - 1) + "_"
                        save_img(imgs, page)
                        time.sleep(1)
                except:
                    pass
                os.chdir(os.pardir)


if __name__ == "__main__":
    download_mm()



13.jpg


免费评分

参与人数 11吾爱币 +7 热心值 +11 收起 理由
lddnzx + 1 学习有益
我是一个外星人 + 1 谢谢@Thanks!
915633650 + 1 + 1 我很赞同!
app740520 + 1 + 1 谢谢@Thanks!
l254576343 + 1 + 1 我很赞同!
StarryDream + 1 + 1 热心回复!
hej1981 + 1 + 1 谢谢@Thanks!
jinzhh + 1 + 1 谢谢@Thanks!
jreg + 1 热心回复!
星空下的流星 + 1 热心回复!
zmllxh + 1 + 1 谢谢@Thanks!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

lsyh1688 发表于 2022-7-7 20:48
运行提示:

TimeoutError: [WinError 10060] 由于连接方在一段时间后没有正确答复或连接的主机没有反应,连接尝试失败。

直接在网页登录相关网址,提示服务器已经停止相应。

不会是网站被爬的关闭了吧。
从零学习的歪经小 发表于 2020-8-16 21:38
可以,就是下载的太慢了,还有那命名反正看不懂还不如就搞点12345.
能搞个多线程的就牛逼了
我才入门,乱说几个建议
没币投了
于皙 发表于 2020-8-16 21:25
怒火燃烧 发表于 2020-8-16 21:26
我被下魔法了,一看到妹子就要进来看看!!!求治疗!!
头像被屏蔽
偶尔平凡 发表于 2020-8-16 21:27
提示: 作者被禁止或删除 内容自动屏蔽
1159271426 发表于 2020-8-16 21:31
值得学习
xiao9798 发表于 2020-8-16 21:33
网站我收了
zhangweiyi9 发表于 2020-8-16 21:42
愿闻其详~
Nebulafalls 发表于 2020-8-16 21:43
好东西啊
头像被屏蔽
打你个大窝瓜 发表于 2020-8-16 21:45
提示: 作者被禁止或删除 内容自动屏蔽
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-7 16:09

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表