吾爱破解 - LCG - LSG |安卓破解|病毒分析|www.52pojie.cn

 找回密码
 注册[Register]

QQ登录

只需一步,快速开始

查看: 4722|回复: 12
收起左侧

[其他原创] 某企查数据爬取

  [复制链接]
jiujiukeji 发表于 2021-1-26 16:30
本帖最后由 jiujiukeji 于 2021-1-26 16:43 编辑

[PHP] 纯文本查看 复制代码
<?php
$companyNameStr=$_GET['n'];


$value=getInfo($companyNameStr);
echo '公司名称'.' '.'经营范围'.' '.'注册地址'.' '.'所属行业'.' '.'企业类型'."\n";
echo $value['entName'].' '.$value['scope'].' '.$value['district'].' '.$value['industry'].' '.$value['entType']."\n";


function getInfo($companyName){
    $url='https://aiqicha.baidu.com/s?q='.urlencode($companyName).'&t=0';
    $urlInfo=file_get_contents($url);

    $reTag=get_tag_data($urlInfo,'<body><div id="app"></div><script>','</script>');
    $arr=explode('window.pageData =',$reTag);
    $resArr=explode('/* eslint-enable */',$arr[1]);

    $newStrs=$resArr[0];
    $newstr = substr(trim($newStrs),0,-1);
    $body=json_decode($newstr,true);
    $pid=$body['result']['resultList'][0]['pid'];
    $detail_url='https://aiqicha.baidu.com/detail/basicAllDataAjax?pid='.$pid;
    $detailJson=file_get_contents($detail_url);
    $detailArr=json_decode($detailJson,true);
    $result=$detailArr['data']['basicData']; //返回的企业信息JSON串  可以根据自己需要提取
    return $result;
}
function get_tag_data($str, $start, $end)
{
    if ( $start == '' || $end == '' )
    {
        return;
    }
    $str = explode($start, $str);
    $str = explode($end, $str[1]);
    return $str[0];
}

PHP版本爬取某企查企业信息,根据自己需要可以批量爬取

使用方式
http://你的域名/?n=企业名

免费评分

参与人数 3吾爱币 +3 热心值 +2 收起 理由
rzhxw + 1 没啥用啊,爬出的东西还是企查查免费 的东西
万福大爷 + 1 + 1 热心回复!
ZhiYing520 + 1 + 1 学习学习。厉害

查看全部评分

发帖前要善用论坛搜索功能,那里可能会有你要找的答案或者已经有人发布过相同内容了,请勿重复发帖。

子竹聆风 发表于 2021-1-27 21:16
[Shell] 纯文本查看 复制代码
2021-01-27 15:09:14 [comsumer_company_base_info_baidu] INFO: 从redis获取商户信息字典: {'merchant': '青岛环球物业管理有限公司'}
2021-01-27 15:09:33 [scrapy.downloadermiddlewares.retry] ERROR: Gave up retrying <GET https://xin.baidu.com/s/a?q=%E9%9D%92%E5%B2%9B%E7%8E%AF%E7%90%83%E7%89%A9%E4%B8%9A%E7%AE%A1%E7%90%86%E6%9C%89%E9%99%90%E5%85%AC%E5%8F%B8&t=1&p=1&s=20&o=0&f=> (failed 11 times): [<twisted.python.failure.Failure twisted.internet.error.ConnectionDone: Connection was closed cleanly.>]


原先的百度企业信用接口关闭了
ZenHaBit 发表于 2021-1-26 17:04
jiujiukeji 发表于 2021-1-26 17:00
接口没法掉  你可以去试试。  都是防爬取接口  我这都是页面上采集下来的

我记得好像 调用这个接口,数据和页面一起返回给你 数据是一个json串 你用json串的特征进行截取 就可以提取json字符串 转换一下就可以了
吾爱师姐! 发表于 2021-1-26 16:46
caocao300 发表于 2021-1-26 16:46
好东西,不登录可以爬不?
 楼主| jiujiukeji 发表于 2021-1-26 16:47
caocao300 发表于 2021-1-26 16:46
好东西,不登录可以爬不?

可以的,不需要登录
淡默 发表于 2021-1-26 16:47
来个可以使用代{过}{滤}理的脚本
ZhiYing520 发表于 2021-1-26 16:49
不错,不错
吾爱师姐! 发表于 2021-1-26 16:50
出个教程吧!对php不熟悉的不知道怎么用

ZenHaBit 发表于 2021-1-26 16:57
这不叫爬虫吧 爱企查直接有接口可以调用的
 楼主| jiujiukeji 发表于 2021-1-26 17:00
ZenHaBit 发表于 2021-1-26 16:57
这不叫爬虫吧 爱企查直接有接口可以调用的

接口没法掉  你可以去试试。  都是防爬取接口  我这都是页面上采集下来的
您需要登录后才可以回帖 登录 | 注册[Register]

本版积分规则 警告:本版块禁止灌水或回复与主题无关内容,违者重罚!

快速回复 收藏帖子 返回列表 搜索

RSS订阅|小黑屋|处罚记录|联系我们|吾爱破解 - LCG - LSG ( 京ICP备16042023号 | 京公网安备 11010502030087号 )

GMT+8, 2024-5-1 12:17

Powered by Discuz!

Copyright © 2001-2020, Tencent Cloud.

快速回复 返回顶部 返回列表