爬取漂亮小姐姐（有点反爬机制）

yjn866y · 发表于 2022-4-19 22:23

第一次发自己的爬虫。。。有违请删

[Python] 纯文本查看 复制代码

import os
import requests
from lxml import etree
import re
import json
import time

headers = {
    'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
    
}
#保存文件
def xzwj(xz,head,path):
    w_na = xz.split("/")[-1]    #拆分地址，以最后一段为存盘的文件名
#     print(w_na)
    w_rar = requests.get(xz,headers=head).content
    with open(path+f'//{w_na}','wb') as f:   #修改e://debug//  处，改变文件存放位置。文件目录必须提前建好。
        f.write(w_rar)
        print("正在下载，请耐心等待。。。")
        print(w_na,"下载完成")

#解释压缩文件网址
def rar_xz(rar_url,head):
    xz_res = requests.get(rar_url,headers=head).text
    xz_rar = re.compile(r'window.location=\'(.*?)\'')
    xz = xz_rar.findall(xz_res)[0]
#     print(xz_res)
#     print(xz)
    return xz

def xzxz(xx):   #文件下载
    print("要下载的内容和网址是：",pna[xx-1],pli[xx-1])
    print("---------开始下载展示图片------------")
    r_resp = requests.get(pli[xx-1],headers=headers)
    r_tree = etree.HTML(r_resp.text)
    r_imgs = r_tree.xpath('//div/div/p/img/@src')   #获取每张图片的网址
    r_nas = r_tree.xpath('//div/div/p/img/@title')  #获取下载的图片的文件名
    rar_url = r_tree.xpath('//div/div[@class="pay-box"]/a/@href')[0]  #获取下载文件的网址
    # print(rar_url)
    # print(len(r_nas),len(r_imgs))
    # print(r_nas,r_imgs)
    n=1
    path = f"e://debug//{r_nas[0]}"
    if not os.path.exists(path):
        os.mkdir(path)
    head ={
        'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
        'referer':pli[xx-1]
    }
    for img in r_imgs:
    #     print(img)
        xzwj(img,head,path)
        print(f"{r_nas[0][:-2]},第{n}张下载完成---")
        n += 1
    print("共",len(r_imgs),"张下载完成")
    print("==============开始下载压缩文件============")
    xz = rar_xz(rar_url,head)
    xzwj(xz,head,path)

def main_xz():    
    print("1.性感美女 2.清纯可爱 3.性感御姐 4.制服诱惑")
    ms = input("请选择分类：")
    url1 = "https://dimgw.us/xinggan"
    url2 = "https://dimgw.us/qc"
    url3 = "https://dimgw.us/yj"
    url4 = "https://dimgw.us/zf"
    if int(ms) == 1:
        url = url1
    elif int(ms) == 2:
        url = url2
    elif int(ms) == 3:
        url = url3
    elif int(ms) == 4:
        url = url4
    # print(url)
    resp = requests.get(url,headers=headers)
    pages = re.findall(r'<a class="page-numbers" href="(.*?)</a>',resp.text)[-1]
    #print(resp.status_code)
    page = pages.split(">")[-1]
    print("此类共",page,"页！")
    print("*"*50)
    pna = []
    pli = []
    for p in range(1,int(page)+1):
        purl = url + f"/page/{p}"
        presp = requests.get(purl,headers=headers)
        tree = etree.HTML(presp.text)
        rw_li = tree.xpath('//div[@class="row posts-wrapper"]//div/a[@target="_blank"]/@href')
        rw_na = tree.xpath('//div[@class="row posts-wrapper"]//div/a[@target="_blank"]/img/@alt')
        # print(rw_na)2

        pna.extend(rw_na)
        pli.extend(rw_li)
    print("-"*50,"\n","共有以下美女可选：")
    for na in pna:
        print(pna.index(na)+1,na)
    return pna,pli

pna,pli = main_xz()
var = 1
while var != len(pna):
    xx = int(input("请输入要下载的序号(0退出):"))
    if xx != 0:
        xzxz(xx)
    else:
        print("退出")
        break
    var +=1

yjn866y · 发表于 2022-6-2 11:58

优化了一下，现在可以了

[Python] 纯文本查看 复制代码

import re
import json
import time

headers = {
    'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
    
}
#保存文件
def xzwj(xz,head,path):
    w_na = xz.split("/")[-1]    #拆分地址，以最后一段为存盘的文件名
#     print(w_na)
    w_rar = requests.get(xz,headers=head).content
    with open(path+f'//{w_na}','wb') as f:   
        f.write(w_rar)
        print("正在下载，请耐心等待。。。")
        print(w_na,"下载完成")

#解释压缩文件网址
def rar_xz(rar_url,head):
    xz_res = requests.get(rar_url,headers=head).text
    xz_rar = re.compile(r'window.location=\'(.*?)\'')
    xz = xz_rar.findall(xz_res)[0]
#     print(xz_res)
#     print(xz)
    return xz

def xzxz(xx):   #文件下载
    print("要下载的内容和网址是：",pna[xx-1],pli[xx-1])
    print("---------开始下载展示图片------------")
    r_resp = requests.get(pli[xx-1],headers=headers)
    r_tree = etree.HTML(r_resp.text)
    r_imgs = r_tree.xpath('//div/div/p/img/@src')   #获取每张图片的网址
    r_nas = r_tree.xpath('//div/div/p/img/@title')  #获取下载的图片的文件名
    rar_url = r_tree.xpath('//div/div[@class="pay-box"]/a/@href')[0]  #获取下载文件的网址
    # print(rar_url)
    # print(len(r_nas),len(r_imgs))
    # print(r_nas,r_imgs)
    n=1
    path = f"e://debug//{r_nas[0]}"    #修改e://debug//  处，改变文件存放位置。以美女名为目录名
    if not os.path.exists(path):
        os.mkdir(path)
        print('文件存盘位置',path,'\n\n')
    head ={
        'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
        'referer':pli[xx-1]
    }
    for img in r_imgs:
    #     print(img)
        xzwj(img,head,path)
        print(f"{r_nas[0][:-2]},第{n}张下载完成---")
        n += 1
    print("共",len(r_imgs),"张下载完成")
    print("==============开始下载压缩文件============")
    xz = rar_xz(rar_url,head)
    xzwj(xz,head,path)


def main_xz():    
    print("1.性感美女 2.清纯可爱 3.性感御姐 4.制服诱惑")
    ms = input("请选择分类：")
    url = ["https://dimgw.us/xinggan","https://dimgw.us/qc","https://dimgw.us/yj","https://dimgw.us/zf"]


    # url = "https://dimgw.us/qc"
    pna = []
    pli = []
    for p in range(1,1000):
        purl = url[int(f"{ms}") - 1] + f"/page/{p}"
        presp = requests.get(purl,headers=headers)
        if presp.status_code == 200:
            tree = etree.HTML(presp.text)
            rw_li = tree.xpath('//div[@class="row posts-wrapper"]//div/a[@target="_blank"]/@href')
            rw_na = tree.xpath('//div[@class="row posts-wrapper"]//div/a[@target="_blank"]/img/@alt')
    #         print(rw_na,rw_li)
        else:
            break
        pna.extend(rw_na)
        pli.extend(rw_li)
    print("-"*50,"\n","共有以下美女可选：","\n","-"*50,"\n")
    for na,li in zip(pna,pli):
        print(pna.index(na)+1,na)
    return pna,pli

    

pna,pli = main_xz()
var = 1
while var != len(pna):
    xx = int(input("请输入要下载的序号(0退出):"))
    print('正在提取信息。。。')
    if xx != 0:
        xzxz(xx)
    else:
        print("退出")
        break
    var +=1

imhuihui · 发表于 2022-4-26 18:36

本帖最后由 imhuihui 于 2022-5-30 17:27 编辑

https://wwd.lanzoum.com/b01vehgdi
密码:czxo
我打包好的exe可执行程序，需要的可自取【已更新】
在楼主贴的代码上做了一点小修改，用的pyinstaller打包的
图片下载都存在电脑D盘，下载的时候会自动创建名为 美女写真 的文件夹，图片都下载到里面了
楼主原来的代码下载下来是webp格式的图片，电脑不能直接打开，所以我改了一下代码，把图片转成 jpg格式的了
求支持求评分！

小姐姐的男朋友 · 发表于 2022-4-20 13:39

lanlano 发表于 2022-4-20 00:03
光是代码不会用啊。。老大。。弄个成品软件啊老大。。

第一种方法（自己运行）：安装Anaconda（集成Python运行环境及相关库）和PyCharm（Python编译软件）这两个软件，百度有相关教程；之后创建Python文件复制楼主的代码进去，即可运行。

第二种方法：你可以叫楼主把上述代码打包为exe文件；直接点击exe运行。

ps：https://dimgw.us ←这是楼主给的福利网址

imhuihui · 发表于 2022-5-27 20:26

本帖最后由 imhuihui 于 2022-5-27 20:37 编辑

可以的话给个评分呗

更新后的代码如下：

[Python] 纯文本查看 复制代码

import os
import requests
from lxml import etree
import re
from io import BytesIO
from PIL import Image

headers = {
    'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59'
}
# 保存文件
def xzwj(xz, head, path):
    w_na = xz.split("/")[-1].rsplit(".", 1)[0] + '.jpg'  # 拆分地址，以最后一段为存盘的文件名
    w_rar = requests.get(xz, headers=head)
    byte_stream = BytesIO(w_rar.content)
    im = Image.open(byte_stream)
    if im.mode == "RGBA":
        im.load()  # required for png.split()
        background = Image.new("RGB", im.size, (255, 255, 255))
        background.paste(im, mask=im.split()[3])

    im.save(path + f'/{w_na}', 'JPEG')
    print("正在下载，请耐心等待。。。")

def xzwj2(xz, head, path):
    w_na = xz.split("/")[-1]  # 拆分地址，以最后一段为存盘的文件名
    w_rar = requests.get(xz, headers=head).content
    with open(path + f'//{w_na}', 'wb') as f:  # 修改e://debug//  处，改变文件存放位置。文件目录必须提前建好。
        f.write(w_rar)
        print("正在下载，请耐心等待。。。")
        print(w_na, "下载完成")

# 解释压缩文件网址
def rar_xz(rar_url, head):
    xz_res = requests.get(rar_url, headers=head).text
    xz_rar = re.compile(r"window.location='(.*?)'")
    xz = xz_rar.findall(xz_res)[0]
    return xz

def xzxz(xx):  # 文件下载
    print("要下载的内容和网址是：", pna[xx - 1], pli[xx - 1])
    print("开始下载展示图片".center(30, '-'))
    r_resp = requests.get(pli[xx - 1], headers=headers)
    r_tree = etree.HTML(r_resp.text)
    # 使用xpth选择元素
    r_imgs = r_tree.xpath('//div/div/p/img/@src')  # 获取每张图片的网址
    r_nas = r_tree.xpath('//div/div/p/img/@title')  # 获取下载的图片的文件名
    rar_url = r_tree.xpath('//div/div[@class="pay-box"]/a/@href')[0]  # 获取下载文件的网址
    n = 1

    path = f"d://美女写真//{r_nas[0]}"
    if not os.path.exists(path):
        os.makedirs(path)
    head = {
        'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
        'referer': pli[xx - 1]
    }
    for img in r_imgs:
        xzwj(img, head, path)
        print(f"{r_nas[0][:-2]},第{n}张下载完成---")
        n += 1
    print("共", len(r_imgs), "张下载完成")
    print("============开始下载压缩文件(文件很大)==========")
    xz = rar_xz(rar_url, head)
    xzwj2(xz, head, path)

def main_xz():
    print("1.性感美女 2.清纯可爱 3.性感御姐 4.制服诱惑")
    ms = input("请选择分类：")
    url1 = "https://dimgw.us/xinggan"
    url2 = "https://dimgw.us/qc"
    url3 = "https://dimgw.us/yj"
    url4 = "https://dimgw.us/zf"
    if int(ms) == 1:
        url = url1
    elif int(ms) == 2:
        url = url2
    elif int(ms) == 3:
        url = url3
    elif int(ms) == 4:
        url = url4
    # print(url)
    resp = requests.get(url, headers=headers)
    t = re.findall('<h2 class="entry-title">(.*?)</a></h2>', resp.text, re.S)
    a = 0
    pna = []
    pli = []
    print("此类共", len(t), "页！")
    print("*" * 50 + '\n')
    for i in t:
        # print(i)
        t1 = re.findall('>(.*)', i, re.S)
        t2 = re.findall('href=\"(.*?)\"', i, re.S)
        a += 1
        # 把t1,t2列表中的每个元素分别添加到列表pna，pli
        pna.extend(t1)
        pli.extend(t2)
        # print(t2[0])
        print(str(a) + ')', t1[0])
    return pna, pli

pna, pli = main_xz()
var = 1
while var != len(pna):
    xx = input("请输入要下载的序号(0退出):")
    if xx == '':
        continue
    elif int(xx) != 0:
        xzxz(int(xx))
    else:
        print("已退出！")
        break
    var += 1

lanlano · 发表于 2022-4-20 00:03

光是代码不会用啊。。老大。。弄个成品软件啊老大。。

yjn866y · 发表于 2022-6-5 10:16

yysyWang 发表于 2022-6-4 16:47
一个美女一个文件夹，还是统一一个文件夹？

一人一个屋。。。。。

小姐姐的男朋友 · 发表于 2022-4-21 13:00

本帖最后由小姐姐的男朋友于 2022-4-21 13:10 编辑

songlangwei 发表于 2022-4-21 10:47
安装Anaconda（集成Python运行环境及相关库）和PyCharm（Python编译软件）这两个软件，百度有相关教程； ...

①打开pycharm，然后打开Terminal（Alt+F12），输入：pip install pyinstaller

②安装好pyinstaller库之后，然后在其中输入：pyinstaller -F *.py
*.py为你要打包的.py后缀文件，如：爬取小姐姐.py ；最后生成的exe文件即在dist文件内

PS：这是我打包好的压缩文件，需要自取→：「小姐姐.exe（要解压两次）」https://www.aliyundrive.com/s/DvwhdqPZrjq 提取码: 6f6w
点击链接保存，或者复制本段内容，打开「阿里云盘」APP ，无需下载极速在线查看，视频原画倍速播放。

lickyzh · 发表于 2022-5-4 21:37

谢谢楼主，肾已亏，不说了，先去买点六味地黄丸了

yjn866y · 发表于 2022-4-21 00:13

Asy_少洋发表于 2022-4-20 20:06
www.mly6.com 这个站，很多免费的，可以爬吗

找到要下的小姐姐的页面，复制网址，，填入就行。
不要下太多噢，注意身体

[Python] 纯文本查看 复制代码

# -*- coding:utf-8 -*-
import os,sys
import requests
from lxml import etree
import re
import json
import time

headers = {
    'user-agent' : 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/91.0.4472.114 Safari/537.36 Edg/91.0.864.59',
    
}
# url = "https://www.mly6.com/19157.html"
url = input("请输入要下载的网址(0退出)：")
while url == str(0):
    break
else:
    header = {
        "Referer": url,
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36"
    }
    resp = requests.get(url,headers=headers)
    tree = etree.HTML(resp.text)
    u_img = tree.xpath('//div/article/p/a/@href')
    u_na = tree.xpath('//div//h1/@title')[0].split(r'[')[0]
    u_na =  "".join(u_na.split())
    # print(u_na)
    # print(u_img)
    path = f'e://deubug//{u_na}'
    if not os.path.exists(path):
        os.makedirs(path)
        print(u_na,"目录新建成功")
    else:
        print( f"老司机，<<{u_na}>>目录已存在。。。")
    n = 0
    for img in u_img:
        img_na = img.split('/')[-1]
        print(img_na)
        if os.path.exists(path+"//"+img_na) == True:
            print("文件已存在---","退出。")
            break
        else:
            imgresp = requests.get(img,headers=header)
    #         print(imgresp.status_code)
            with open(path+fr"//{img_na}",'wb') as f: 
                f.write(imgresp.content)
                print("正在下载，请耐心等待。。。")
                print("下载完成")
                n += 1
    print(f"共{n}张全部下完。")

joy8514 · 发表于 2022-4-20 08:29

# -*- coding:utf-8 -*-
这个要加上

Naive2021 · 发表于 2022-4-19 23:20

谢谢兄弟，图太顶了，已无心学习

jay026 · 发表于 2022-4-19 22:38

顶贴，这是怎么判断的

cdk005 · 发表于 2022-4-19 23:00

感谢楼主，我来试试，

jcldkj · 发表于 2022-4-19 23:06

楼主有心了

notifier · 发表于 2022-4-19 23:11

很不错，代码修改下也适用于其他网站。

punkla · 发表于 2022-4-20 00:00

谢谢兄弟分享

KatharsisKing · 发表于 2022-4-20 00:05

提示: 作者被禁止或删除内容自动屏蔽

tsecond · 发表于 2022-4-20 00:21

不错不错有点意思！不过用中文的话编码那边要搞好！你这个代码在python官方的编辑器里面是跑不了的！

帐号		自动登录	找回密码
密码			注册[Register]

[Python 转载] 爬取漂亮小姐姐（有点反爬机制）

免费评分

本帖被以下淘专辑推荐:

免费评分

免费评分

免费评分

个人中心

KatharsisKing KatharsisKing 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	KatharsisKing 发表于 2022-4-20 00:05 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报