寻求自动查询并生成excel文件

j江湖君子 · 发表于 2024-4-5 18:37

网址如下：http://www.678hzy.com/colleges/scoreline?collegeCode=10003&name=%E6%B8%85%E5%8D%8E%E5%A4%A7%E5%AD%A6
比如选择清华大学，要求自动生成excel文件，文件包含：录取分数线（院校分数线，专业分数线（2021-2023年/物理/本科/各个专业组））[url=]招生计划（2021-2023年/物理/本科/各个专业组），最好能把所有院校的上面数据全部汇总成一个excel文件。[/url]

52kun · 发表于 2024-4-5 18:37

j江湖君子发表于 2024-4-9 12:39
大家好，在此收集学科网
有效期截止到2024年4月16日12:38，麻烦在此之前点击以下链接将文件发送给我，支 ...

文件已发

clocks · 发表于 2024-4-5 21:56

你这个得找人定制程序或脚本吧

叫我小白呀 · 发表于 2024-4-5 22:12

不就是清洗数据么

xi520 · 发表于 2024-4-5 22:38

找个人做个爬虫吧，不过，数据是网站的重要资源，估计很难爬下来

j江湖君子 · 发表于 2024-4-5 22:40

请大佬们出手！

h7867 · 发表于 2024-4-5 22:46

将网站数据自动生成Excel文件并包含特定信息，通常涉及几个步骤，包括数据抓取、处理和格式化。以下是一种可能的解决方案：

数据抓取：

使用爬虫工具：Python的Scrapy库或BeautifulSoup库都是常用的网页爬虫工具，可以编写脚本来抓取网站上的数据。
利用API：如果目标网站提供了API接口，那么可以直接通过调用API来获取所需数据，这通常比爬取网页更为高效和稳定。
浏览器插件或在线工具：对于非技术用户，可以使用一些浏览器插件或在线的数据抓取工具来简化抓取过程。

数据处理：

清洗和整理数据：抓取到的数据可能需要进行清洗，去除无关信息、重复项或错误数据。
筛选和提取特定信息：根据需求，提取出录取分数线（院校分数线、专业分数线）和招生计划（年份、学科、层次、专业组）等相关信息。

数据格式化：

使用Python库：利用pandas库可以方便地处理和分析数据，并将其导出为Excel文件。
Excel自动化：如果数据量不大，也可以直接在Excel中使用公式或VBA脚本来处理数据。

汇总数据：

合并多个Excel文件：如果数据来自多个来源或页面，可能需要将多个Excel文件合并为一个。这可以通过pandas库或使用Excel的“合并查询”功能来实现。
使用公式汇总数据：在合并后的Excel文件中，可以使用SUM、AVERAGE等函数来汇总数据。

注意事项：

遵守法律法规和网站规定：在抓取网站数据时，务必遵守相关法律法规和网站的robots.txt文件规定，不得侵犯他人权益。
数据准确性和完整性：抓取的数据可能存在误差或遗漏，需要进行仔细核对和验证。

wchenfeng · 发表于 2024-4-5 22:56

里面都是要开VIP的

j江湖君子 · 发表于 2024-4-6 08:50

wchenfeng 发表于 2024-4-5 22:56
里面都是要开VIP的

vip账号我有的，我需要方法

j江湖君子 · 发表于 2024-4-6 08:51

h7867 发表于 2024-4-5 22:46
将网站数据自动生成Excel文件并包含特定信息，通常涉及几个步骤，包括数据抓取、处理和格式化。以下是一种 ...

你可以编写脚本来抓取网站上的数据么？

帐号		自动登录	找回密码
密码			注册[Register]

[经验求助] 寻求自动查询并生成excel文件

最佳答案