本帖最后由 txq0211 于 2022-4-2 23:16 编辑
《菜鸟心法》
欲练神功
必先 * *
若不 * *
也能成功
关于爬虫入坑,似乎要会一门开发语言譬如Python。
只是作为业余爱好者,什么才叫会呢?
看着网上的一大堆教程,一堆要忽悠报班学习的,
好像要学好多基础,脑壳痛。
(最近有点忙,就拿前几天摸索的例子聊一聊)
一、天下文章一大抄
回想从小到大各种学习,好像我们学语文不需要记住整本词典,
从最开始学习一篇课文,然后通过那些课文来认识那些字。
我们写作文,貌似也是如此,从模仿开始。
于是便有了:
(原文) (创作)
日照香炉生紫烟, 日照香炉生紫烟,
遥看瀑布挂前川。 李白来到烤鸭店。
飞流直下三千尺, 口水直流三千尺,
疑是银河落九天。 摸摸口袋没带钱。
好诗,好诗,对仗工整,韵也压上了,写诗好像也挺简单的。
好像模仿别人的例子也不难,于是,我们可以开始第一步模仿。
爬虫之如何引导(忽悠)小白学爬虫
二、大象关冰箱需要几步?
做爬虫呢,模仿别人的例子,自己的想法呢,就像如何把大象关冰箱。
先不管自己有没有那么大的冰箱,先借别人的冰箱用用,
根据自己的想法,第一步如何、第二步如何、第三步如何。
于是东抄抄西抄抄,根据自己的想法便是有了第一篇爬虫帖子:
(在52抛砖引玉,大家评价也很确切)
爬虫之微信发送每天60秒读懂世界
虽然方法笨了点,但是好像也是这么回事,方法不重要,重要的是目标达成。
三、纸上得来终觉浅,绝知此事要躬行
根据自己的想法,东拼西凑,写出的爬虫好像也过得去。
哈哈,后面的创建到PPT部分完全百度抄的。
爬虫之历代版图保存及创建到ppt
有人回帖说,爬小姐姐的图片才是爬虫的动力来源。
好吧,爬小姐姐的图片比这个要稍微复杂点。
想练手的伙伴可以先拿这个爬虫前半部分尝尝鲜。
先在桌面新建一个文件夹,文件夹下建立一个譬如test.py的文件。
然后用小朋友学python的工具打开,试着复制下面我们跑一跑,
能跑能下载这些图片的话,可以尝试抄几遍。
[Python] 纯文本查看 复制代码 import requests
import re
url = 'http://bbs.tianya.cn/post-no04-2163192-1.shtml'
response = requests.get(url).text
# 不管三七二十一,先抄,然后再百度了解正则表达式如何提取内容,[/size][size=4][size=4]我们需要提取啥内容,这么抄的逻辑是什么,[/size]想了解的变量可以print看看打印出来的是啥
maplists = re.findall('original="(.+?)"',response)
i=0
for maplist in maplists:
map_res = requests.get(maplist)
i += 1
path = '%03d.jpg'%i
with open(path,'wb') as f:
f.write(map_res.content)
print('已完成%03d张图片下载'%i)
十几行代码,可以快速爬上百张图片,瞬间可以提升学习的兴趣。
四、熟读唐诗三百首,不会作诗也会吟
关于大家好奇的如何批量爬小姐姐的壁纸?
理清逻辑,和手动一样,第一步:打开链接,第二步:获取图片位置,第三部:保存图片。
譬如,我们先来试试如何通过试着改一改前面这个例子,保存小姐姐的图片。
[Python] 纯文本查看 复制代码 import requests
import re
url = 'https://www.bilibili.com/read/cv4535874/'
response = requests.get(url).text
maplists = re.findall('data-src="(.+?)"', response)
# 先打印获取的链接
print(maplists)
i = 0
for maplist in maplists:
# 链接不完整,我们给它补全https://
maplist = 'https:%s'%maplist
print(maplist)
map_res = requests.get(maplist)
i += 1
# 这里的图片是webp格式
path = '%03d.webp' % i
with open(path, 'wb') as f:
f.write(map_res.content)
print('已完成%03d张图片下载' % i)
这不,改改就成了。
|