吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2653|回复: 17
收起左侧

[学习记录] Python自学笔记(八)----------数据提取及数据存储

  [复制链接]
l2430478 发表于 2021-1-11 11:12
本帖最后由 l2430478 于 2021-1-11 11:23 编辑

笔记七已经爬取到数据,现在需要进行数据提取。
打开练习网址:http://www.santostang.com/  右键检查。

快照2.jpg

单击左上角的鼠标键按钮,后在页面上单击想要的数据,下面的Elements会出现相应的code在的地方,就定位到想要的元素了。
我们复制教程代码,看能提取到什么?
[Python] 纯文本查看 复制代码
#!usr/bin/python
#coding: UTF-8

import requests
from bs4 import BeautifulSoup                   #从bs4这个库中导入BeautifulSoup
link = "http://www.santostang.com/"         #爬取的网址
headers = { 'User-Agent': 'Mozilla/5.0 (Windows;U; Windows NT6.1;en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}              #模拟用户浏览器性质
r = requests.get(link,headers = headers)

soup = BeautifulSoup(r.text,"lxml")   #使用BeautifulSoup解析这段代码
title = soup.find("h2",class_="uptop").a.text.strip()
print (title)


alt+回车后,提取到数据   :《网络爬虫:从入门到实践》一书勘误。
分析代码含义,在实践网页中右键 查看网页源代码。
快照3.jpg
发现这里的数值和代码里有关联   title = soup.find("h2",class_="uptop")
我们尝试修改,看是否能提取其他数据。
快照4.jpg
[Python] 纯文本查看 复制代码
#!usr/bin/python
#coding: UTF-8

import requests
from bs4 import BeautifulSoup                   #从bs4这个库中导入BeautifulSoup
link = "http://www.santostang.com/"         #爬取的网址
headers = { 'User-Agent': 'Mozilla/5.0 (Windows;U; Windows NT6.1;en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}              #模拟用户浏览器性质
r = requests.get(link,headers = headers)

soup = BeautifulSoup(r.text,"lxml")   #使用BeautifulSoup解析这段代码
title = soup.find("h1",class_="post-title").a.text.strip()
print (title)


提取了了新的数据如下:第四章 – 4.3 通过selenium 模拟浏览器抓取
分析: 这里用到BeautifulSoup这个库对爬下来的页面进行解析。首先需要导入这个库,然后把HTML代码转化为soup对象,接下来用soup.find("h 1 ", class_一”post-title").a.text,strip()得到第一篇文章的标题,并且一打印出来。    对初学者来说,使用eautifulSoup从网页中提取需要的数据更加简单易用。


-------------------数据存储(这些代码不需要你全部理解,会用就行,然后逐步理解更透彻,就可以进修改利用)
    存储到本地的txt文件非常简单,在第二步的基础上加上3行代码就可以把这个字符串保存在text中,并存储到本地。txt文件地址应该和你的Python文件放在同一个文件夹。文件会自动生成,放在默认文件夹中。
[Python] 纯文本查看 复制代码
    import requests
    from bs4 import BeautifulSoup                   #从bs4这个库中导入BeautifulSoup
    link = "http://www.santostang.com/"         #爬取的网址
    headers = { 'User-Agent': 'Mozilla/5.0 (Windows;U; Windows NT6.1;en-US; rv:1.9.1.6) Gecko/20091201 Firefox/3.5.6'}              #模拟用户浏览器性质
    r = requests.get(link,headers = headers)

    soup = BeautifulSoup(r.text,"lxml")   #使用BeautifulSoup解析这段代码
    title = soup.find("h1",class_="post-title").a.text.strip()
    print (title)

    with open('title.txt', "a+" ) as f:
        f.write(title)
        f.close()

cmd即显示了默认位置:
快照6.jpg


快照7.jpg



至此,一个简单的爬虫完成了。


免费评分

参与人数 5吾爱币 +5 热心值 +4 收起 理由
zzhwmh + 1 + 1 热心回复!
xielinhui + 1 + 1 感谢发布原创作品,吾爱破解论坛因你更精彩!
南风招摇令 + 1 我很赞同!
lcgwmsky + 1 + 1 底下应该加个历史的超链接,这样好找之前的笔记
vip11699 + 1 + 1 我很赞同!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

z1991627 发表于 2021-1-11 12:28
学习下   准备按照你的方法试下
pcx127 发表于 2021-1-11 12:43
layuai 发表于 2021-1-11 13:23
郑博士 发表于 2021-1-11 13:58
学习学习
狐白本白 发表于 2021-1-11 15:09
哇,好像把你的每一篇都投币啊,我的天,太感谢了
 楼主| l2430478 发表于 2021-1-11 15:12
狐白本白 发表于 2021-1-11 15:09
哇,好像把你的每一篇都投币啊,我的天,太感谢了

谢谢信任  我也是尽自己所能  分享给大家 把复杂的知识简单化  可能带某某某人顺利起步。
xjshuaishuai 发表于 2021-1-11 15:39
楼主的文章很好,很值得学习!
狐白本白 发表于 2021-1-11 21:18
l2430478 发表于 2021-1-11 15:12
谢谢信任  我也是尽自己所能  分享给大家 把复杂的知识简单化  可能带某某某人顺利起步。

吖,可以带某某某某我顺利起步嘛,我还没开始学,不过马上
 楼主| l2430478 发表于 2021-1-11 22:55
狐白本白 发表于 2021-1-11 21:18
吖,可以带某某某某我顺利起步嘛,我还没开始学,不过马上

没问题 跳过基础跟着笔记七直接开始
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止回复与主题无关非技术内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-2 11:56

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表