吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 1075|回复: 26
收起左侧

[经验求助] 寻求自动查询并生成excel文件

  [复制链接]
j江湖君子 发表于 2024-4-5 18:37
500吾爱币
网址如下:http://www.678hzy.com/colleges/scoreline?collegeCode=10003&name=%E6%B8%85%E5%8D%8E%E5%A4%A7%E5%AD%A6
比如选择清华大学,要求自动生成excel文件,文件包含:录取分数线(院校分数线,专业分数线(2021-2023年/物理/本科/各个专业组)[url=]招生计划(2021-2023年/物理/本科/各个专业组),最好能把所有院校的上面数据全部汇总成一个excel文件。[/url]

最佳答案

查看完整内容

文件已发

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

52kun 发表于 2024-4-5 18:37
j江湖君子 发表于 2024-4-9 12:39
大家好,在此收集学科网
有效期截止到2024年4月16日12:38,麻烦在此之前点击以下链接将文件发送给我,支 ...

文件已发
clocks 发表于 2024-4-5 21:56
叫我小白呀 发表于 2024-4-5 22:12
xi520 发表于 2024-4-5 22:38
找个人做个爬虫吧,不过,数据是网站的重要资源,估计很难爬下来
 楼主| j江湖君子 发表于 2024-4-5 22:40
请大佬们出手!
h7867 发表于 2024-4-5 22:46
将网站数据自动生成Excel文件并包含特定信息,通常涉及几个步骤,包括数据抓取、处理和格式化。以下是一种可能的解决方案:

数据抓取:

使用爬虫工具:Python的Scrapy库或BeautifulSoup库都是常用的网页爬虫工具,可以编写脚本来抓取网站上的数据。
利用API:如果目标网站提供了API接口,那么可以直接通过调用API来获取所需数据,这通常比爬取网页更为高效和稳定。
浏览器插件或在线工具:对于非技术用户,可以使用一些浏览器插件或在线的数据抓取工具来简化抓取过程。

数据处理:

清洗和整理数据:抓取到的数据可能需要进行清洗,去除无关信息、重复项或错误数据。
筛选和提取特定信息:根据需求,提取出录取分数线(院校分数线、专业分数线)和招生计划(年份、学科、层次、专业组)等相关信息。

数据格式化:

使用Python库:利用pandas库可以方便地处理和分析数据,并将其导出为Excel文件。
Excel自动化:如果数据量不大,也可以直接在Excel中使用公式或VBA脚本来处理数据。

汇总数据:

合并多个Excel文件:如果数据来自多个来源或页面,可能需要将多个Excel文件合并为一个。这可以通过pandas库或使用Excel的“合并查询”功能来实现。
使用公式汇总数据:在合并后的Excel文件中,可以使用SUM、AVERAGE等函数来汇总数据。

注意事项:

遵守法律法规和网站规定:在抓取网站数据时,务必遵守相关法律法规和网站的robots.txt文件规定,不得侵犯他人权益。
数据准确性和完整性:抓取的数据可能存在误差或遗漏,需要进行仔细核对和验证。
wchenfeng 发表于 2024-4-5 22:56
里面都是要开VIP的
 楼主| j江湖君子 发表于 2024-4-6 08:50
wchenfeng 发表于 2024-4-5 22:56
里面都是要开VIP的

vip账号我有的,我需要方法
 楼主| j江湖君子 发表于 2024-4-6 08:51
h7867 发表于 2024-4-5 22:46
将网站数据自动生成Excel文件并包含特定信息,通常涉及几个步骤,包括数据抓取、处理和格式化。以下是一种 ...

你可以编写脚本来抓取网站上的数据么?
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-15 05:14

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表