吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3343|回复: 8
收起左侧

[Python 转载] 小白学习 正则爬取百度小姐姐图片

  [复制链接]
zheshen 发表于 2018-8-25 13:02
本帖最后由 zheshen 于 2018-8-25 13:07 编辑

本文采取了正则表达式正在学习请勿喷谢谢import requests
import re
import os
from urllib import request
HEADERS = {
    "User-Agent": "Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36"
}
def parse_page(url):
   res = requests.get(url,headers=HEADERS)
   text = res.content.decode('utf-8')
   print(text)
   photo_url = re.findall(r'.*?"thumbURL":"(.*?)"',text,re.DOTALL)
   # print(photo_url)
   title_url_1 = re.findall(r'.*?"fromPageTitle":"(.*?)<.*?>(.*?)<.*?>(.*?)"',text,re.DOTALL)

   for x in range(len(photo_url)-1):
      photo_url_1 = photo_url[x]
      t = title_url_1[x][0] + title_url_1[x][1] + title_url_1[x][2]
      re.sub('[\??\.!。\-\+]','',t)
      jpg = os.path.splitext(photo_url_1)[1]
      name = t+jpg
      request.urlretrieve(photo_url_1, 'imgs/' + name)
      print('%s打印完成'%name)
   print('打印完成')


def main():
   url = 'https://image.baidu.com/search/flip?tn=baiduimage&ie=utf-8&word=%E5%B0%8F%E5%A7%90%E5%A7%90&pn=0&gsm=50&ct=&ic=0&lm=-1&width=0&height=0'
parse_page(url)

if __name__=='__main__':
   main()



请大家点下爱心 谢谢

免费评分

参与人数 4吾爱币 +5 热心值 +4 收起 理由
每文 + 1 + 1 踩踩
李佰学 + 1 + 1 预估预估预估有
uyt + 1 + 1 谢谢大大
really + 2 + 1 给你啦

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

dazui_0 发表于 2018-8-25 13:49
占住沙发的位置, 然后再仔细的看看
lomo369 发表于 2018-8-25 13:53
a13737446797 发表于 2018-8-25 14:00
mcb521 发表于 2018-8-25 14:54
看不懂,太高深了
 楼主| zheshen 发表于 2018-8-25 15:00
mcb521 发表于 2018-8-25 14:54
看不懂,太高深了

其实就是一个正则而已
wushaominkk 发表于 2018-8-25 16:03
请规范代码
【公告】发帖代码插入教程
https://www.52pojie.cn/thread-713042-1-1.html

侧写师 发表于 2018-8-26 14:38 来自手机
有点难 得好好学习一下了
小黑LLB 发表于 2019-2-11 15:59
支持一波 感谢分享 共同学习 一起进步
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-21 10:55

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表