吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 2674|回复: 28
收起左侧

[Python 转载] 【Python】-初学笔记-爬取水果食品价格-总计408511条

  [复制链接]
surepj 发表于 2021-12-17 10:49
初学Python爬虫,很多不懂,纯属学习,简单获取了下这个批发市场的食品价格数据。
我看不带请求头(UA、cookies、referer等)也能拿到数据,就没放进去。
没分类的总数据量有408511条(要分类的话,可以在请求时附带上数据),大家可以研究研究各种物品的价格及走势。

[Python] 纯文本查看 复制代码
import requests,pandas # 导入两个模块

url = 'http://www.xinfadi.com.cn/getPriceData.html' # 数据请求的网址
resp = requests.post(url,data={'limit':100}) # 数字为想获得的数据量,最多有408511条数据
get_data = resp.json() # 将得到的数据,解析为json格式
result = get_data['list'] # 保留有用信息
df = pandas.DataFrame(result) # pandas处理数据
df.to_csv('price.csv',index=False,encoding="gbk") # 写入csv文件
print('done!')

免费评分

参与人数 4吾爱币 +2 热心值 +4 收起 理由
日月与你 + 2 + 1 我很赞同!
Duke0910 + 1 谢谢@Thanks!
Pinsir + 1 我很赞同!
XiL + 1 用心讨论,共获提升!

查看全部评分

本帖被以下淘专辑推荐:

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

 楼主| surepj 发表于 2021-12-18 18:42
随遇而安8 发表于 2021-12-18 16:13
json嵌套很多层的数据,怎么取出键值对,一层一层扒开?

[Python] 纯文本查看 复制代码
{'current': xxx, 'limit': xxx, 'count': xxxx, 'list': [{'id': xxxx, 'prodName': 'xxx',  'prodCat': 'xxx',...{:}]}

当时就是拿到这样的嵌套文件,也很晕。
后来我用第6行那个:result = get_data['list'] 去掉了前面的信息,只保留list:后面的值,也就是列表套字典数据。
52小柯柯 发表于 2021-12-17 14:46
surepj 发表于 2021-12-17 11:35
拿到json数据,不知道怎么写入csv格式数据

json不就是dict?dict转list然后写入就行,csv支持list写入,只要把dict的key忽略只留下value,然后用value组成一个list就可以啦
hgf7610 发表于 2021-12-17 10:57
mana19 发表于 2021-12-17 11:06
楼主加油,爬虫还是很有意思的
booting_yao 发表于 2021-12-17 11:21
楼主加油,比我厉害多了
游所为 发表于 2021-12-17 11:22
一脸懵,楼主能带带我不
因为有钳 发表于 2021-12-17 11:22
挺好的真不错,有时间我也想学
52小柯柯 发表于 2021-12-17 11:22
自带csv模块更轻量一点
 楼主| surepj 发表于 2021-12-17 11:33
hgf7610 发表于 2021-12-17 10:57
看不懂      太高深了

我在代码后面有些注释,大概过程,第一步就是用requests模块获得数据,第二步用pandas把数据写入csv文件。
 楼主| surepj 发表于 2021-12-17 11:34
游所为 发表于 2021-12-17 11:22
一脸懵,楼主能带带我不

我也初学,纯属小白
 楼主| surepj 发表于 2021-12-17 11:35
52小柯柯 发表于 2021-12-17 11:22
自带csv模块更轻量一点

拿到json数据,不知道怎么写入csv格式数据
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-4-27 02:05

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表