吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 3003|回复: 33
收起左侧

[Python 转载] 爬虫之引导小白之菜鸟心法

  [复制链接]
txq0211 发表于 2022-4-2 23:04
本帖最后由 txq0211 于 2022-4-2 23:16 编辑

《菜鸟心法》
  欲练神功

  必先 * *
  若不 * *
  也能成功


关于爬虫入坑,似乎要会一门开发语言譬如Python。
只是作为业余爱好者,什么才叫会呢?
看着网上的一大堆教程,一堆要忽悠报班学习的,
好像要学好多基础,脑壳痛。
(最近有点忙,就拿前几天摸索的例子聊一聊)

一、天下文章一大抄
回想从小到大各种学习,好像我们学语文不需要记住整本词典,
从最开始学习一篇课文,然后通过那些课文来认识那些字。
我们写作文,貌似也是如此,从模仿开始。
于是便有了:
       (原文)                        (创作)
日照香炉生紫烟,         日照香炉生紫烟,
遥看瀑布挂前川。         李白来到烤鸭店。
飞流直下三千尺,         口水直流三千尺,     
疑是银河落九天。         摸摸口袋没带钱。


好诗,好诗,对仗工整,韵也压上了,写诗好像也挺简单的。
好像模仿别人的例子也不难,于是,我们可以开始第一步模仿。
爬虫之如何引导(忽悠)小白学爬虫

二、大象关冰箱需要几步?
WX20220402-214733.png


做爬虫呢,模仿别人的例子,自己的想法呢,就像如何把大象关冰箱。
先不管自己有没有那么大的冰箱,先借别人的冰箱用用,
根据自己的想法,第一步如何、第二步如何、第三步如何。

于是东抄抄西抄抄,根据自己的想法便是有了第一篇爬虫帖子:
(在52抛砖引玉,大家评价也很确切)

爬虫之微信发送每天60秒读懂世界
WX20220402-214009.png
虽然方法笨了点,但是好像也是这么回事,方法不重要,重要的是目标达成。
三、纸上得来终觉浅,绝知此事要躬行
根据自己的想法,东拼西凑,写出的爬虫好像也过得去。
哈哈,后面的创建到PPT部分完全百度抄的。

爬虫之历代版图保存及创建到ppt

图片.png
有人回帖说,爬小姐姐的图片才是爬虫的动力来源。
好吧,爬小姐姐的图片比这个要稍微复杂点。
想练手的伙伴可以先拿这个爬虫前半部分尝尝鲜。
先在桌面新建一个文件夹,文件夹下建立一个譬如test.py的文件。
然后用小朋友学python的工具打开,试着复制下面我们跑一跑,
WX20220402-222210.png
能跑能下载这些图片的话,可以尝试抄几遍。

[Python] 纯文本查看 复制代码
import requests
import re

url = 'http://bbs.tianya.cn/post-no04-2163192-1.shtml'
response = requests.get(url).text
# 不管三七二十一,先抄,然后再百度了解正则表达式如何提取内容,[/size][size=4][size=4]我们需要提取啥内容,这么抄的逻辑是什么,[/size]想了解的变量可以print看看打印出来的是啥
maplists = re.findall('original="(.+?)"',response)
i=0
for maplist in maplists:
    map_res = requests.get(maplist)
    i += 1
    path = '%03d.jpg'%i
    with open(path,'wb') as f:
        f.write(map_res.content)
        print('已完成%03d张图片下载'%i)

十几行代码,可以快速爬上百张图片,瞬间可以提升学习的兴趣。
四、熟读唐诗三百首,不会作诗也会吟
关于大家好奇的如何批量爬小姐姐的壁纸?
理清逻辑,和手动一样,第一步:打开链接,第二步:获取图片位置,第三部:保存图片。

譬如,我们先来试试如何通过试着改一改前面这个例子,保存小姐姐的图片。
WX20220402-230811.png

[Python] 纯文本查看 复制代码
import requests
import re


url = 'https://www.bilibili.com/read/cv4535874/'
response = requests.get(url).text
maplists = re.findall('data-src="(.+?)"', response)
# 先打印获取的链接
print(maplists)
i = 0
for maplist in maplists:
    # 链接不完整,我们给它补全https://
    maplist = 'https:%s'%maplist
    print(maplist)
    map_res = requests.get(maplist)
    i += 1
    # 这里的图片是webp格式
    path = '%03d.webp' % i
    with open(path, 'wb') as f:
        f.write(map_res.content)
        print('已完成%03d张图片下载' % i)

这不,改改就成了。

免费评分

参与人数 6吾爱币 +6 热心值 +5 收起 理由
lcldh + 2 + 1 收藏了,很好的学习思路。谢谢楼主分享。
小m真2 + 1 + 1 热心回复!
超级大黄蜂 + 1 + 1 我很赞同!
tdm134 + 1 + 1 我很赞同!
beyond1994 + 1 鼓励转贴优秀软件安全工具和文档!
salinko + 1 欢迎分析讨论交流,吾爱破解论坛有你更精彩!

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| txq0211 发表于 2022-5-13 10:22
lcldh 发表于 2022-5-13 09:18
评分收藏了,很好的学习思路。谢谢楼主分享。
请问楼主,可以出一个提取目录标题TXT的思路吗?谢谢

https://www.52pojie.cn/thread-1617083-1-1.html
有的
 楼主| txq0211 发表于 2022-4-4 07:33
luxingyu329 发表于 2022-4-4 00:45
这是关键,去哪抄?  我现在需要

万事不知找度娘。
遇到啥问题,根据自己的想法分解步骤。
报错,百度错误代码。
星光熠熠 发表于 2022-4-2 23:29
 楼主| txq0211 发表于 2022-4-2 23:37
星光熠熠 发表于 2022-4-2 23:29
关键是还是没学会

从简单的慢慢试着改改就好了
cfsxy 发表于 2022-4-3 05:20
谢谢分享
jffwoo 发表于 2022-4-3 07:40
一门语言想学号都不容易
愷龍 发表于 2022-4-3 08:03
及时追更楼主
beyond1994 发表于 2022-4-3 08:54
关注,期待持续更新
bdpqnumw 发表于 2022-4-3 09:04
原来是高级玩家,我只是来看爬虫的。告辞!
zm55555 发表于 2022-4-3 09:19
谢谢分享!
70manlyczj 发表于 2022-4-3 09:55
楼主很文艺嘛,期待更新
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-6-1 08:12

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表