简单的静态页面java爬虫

HK仅輝 · 发表于 2020-11-20 12:15

本帖最后由 HK仅輝于 2020-11-20 12:43 编辑

[Java] 纯文本查看 复制代码

import org.jsoup.Connection;
import org.jsoup.Jsoup;
import org.jsoup.nodes.Document;
import org.jsoup.nodes.Element;
import org.jsoup.select.Elements;

import com.gargoylesoftware.htmlunit.WebClient;
import com.gargoylesoftware.htmlunit.html.HtmlPage;

import java.io.*;
import java.net.URL;

public class pc {

        public static void main(String[] args) throws IOException {
                // TODO Auto-generated method stub
                long t1=System.currentTimeMillis();
                //访问目标网址
                Connection connection1=Jsoup.connect("https://desk.3gbizhi.com/");
                //连接成功后获取Document对象
                Document document1= connection1.get();
                Element elementDiv=document1.selectFirst("[class=menuw mtm]");
                Element elementDiv1=elementDiv.selectFirst("[class=cl r]");//搜索class=cl r   标签
                Element elementUL=elementDiv1.selectFirst("[class=cl]");
                Elements elementLis=elementUL.select("li");//通过找到的ul 搜索ul里面的所有li标签
                for(Element elementLi:elementLis) {//遍历所有找到的li
                        Element elementA=elementLi.selectFirst("a");//搜索li里的a标签                
                        String herURL=elementA.attr("href");//把a标签中的 href属性的值获取到
                        //System.out.println(herURL);
                        Element elementADiv=elementA.selectFirst("div");//把a标签里的标签找到
                        String innerName= elementADiv.text();//把标签里的文字获取到
                        
                        
                        
                        System.out.println("创建"+innerName+"文件夹");
                        File file=new File("E://桌面//img//"+innerName);
                        if(!file.exists()){//如果文件夹不存在
                                file.mkdir();//创建文件夹
                        }
                        
                        Connection connection2=Jsoup.connect(herURL);//访问新的小图连接
                        Document document2=connection2.get();//
                        Element elementDiv2=document2.selectFirst("[class=contlistw mtw]");
                        Element elementUl=elementDiv2.selectFirst("[class=cl]");
                        Elements elementLI=elementUl.select("li");//搜索ul里的li标签
                        for(Element elementLIS:elementLI) {
                                Element elementDivName=elementLIS.selectFirst("[class=tips]");
                                String divName= elementDivName.text();
                                System.out.println("下载"+divName);

                                Element elementAA=elementLIS.selectFirst("a");//搜索li里的a标签        
                                String herURLA=elementAA.attr("href");//把a标签中的 href属性的值获取到
                                //System.out.println(herURLA);
                                
                                Connection connection3=Jsoup.connect(herURLA);//访问图片下载的连接   showcontw mtw
                                Document document3=connection3.get();        
                                Element elementDiv3=document3.selectFirst("[class=showcontw mtw]");

                                Element elementAa=elementDiv3.selectFirst("[class=bz_size_show]");//搜索li里的a标签
                                String xiaURL=elementAa.attr("href");
                                //System.out.println(xiaURL);
                                
                                
                                URL url=new URL(xiaURL);
                                InputStream is=url.openStream();
                                FileOutputStream fos=new FileOutputStream("E://桌面//img//"+innerName+"//"+divName+".jpg");
                                byte[] b=new byte[2048]; 
                                int count=is.read(b);
                                while(count!=-1) {
                                        fos.write(b,0,count);
                                        fos.flush();
                                        count=is.read(b);        
                             }                        
                                fos.close();
                                is.close();        
                        }
                }
                
                long t2=System.currentTimeMillis();
                double a=(t2-t1)/1000;
                System.out.println("下载完毕"+"用时："+a+"s");
        }
}

BaconOle · 发表于 2020-11-20 12:28

原来用c++也写过一个爬虫，加了一个用哈希表和布隆过滤器配合来防止重复抓去相同的页面，这东西得多线程，不然效率很慢。

shr123 · 发表于 2020-11-20 12:36

HK仅輝发表于 2020-11-20 12:33
怎么编辑，多加些注释？
小白，没发过多少帖子

你要学会怎么插入代码而不是把代码直接搞上来
就比如这样

[Java] 纯文本查看 复制代码

.annotation system Ldalvik/annotation/InnerClass;
    accessFlags = 0x609
    name = "AnimationListener"
.end annotation

shr123 · 发表于 2020-11-20 12:22

楼主重新编辑一下吧

HK仅輝 · 发表于 2020-11-20 12:29

BaconOle 发表于 2020-11-20 12:28
原来用c++也写过一个爬虫，加了一个用哈希表和布隆过滤器配合来防止重复抓去相同的页面，这东西得多线程， ...

刚开始学着写，就懂个爬取静态页面

HK仅輝 · 发表于 2020-11-20 12:33

shr123 发表于 2020-11-20 12:22
楼主重新编辑一下吧

怎么编辑，多加些注释？
小白，没发过多少帖子

52pojie666z · 发表于 2020-11-20 13:26

提示: 作者被禁止或删除内容自动屏蔽

BaconOle · 发表于 2020-11-20 19:45

HK仅輝发表于 2020-11-20 12:29
刚开始学着写，就懂个爬取静态页面

可以从页面中用匹配字符串的方式抽取url，用url获取ip地址，向这个ip发送get请求，他又会给你返回个页面，循环往复，只要根页面选的好，理论上能爬去所有网页。

songjing · 发表于 2021-9-27 17:57

感谢大哥，刚在你的基础上爬了一下我想要的素材

帐号		自动登录	找回密码
密码			注册[Register]

[Java 转载] 简单的静态页面java爬虫

免费评分

个人中心

52pojie666z 52pojie666z 当前离线好友阅读权限 0 听众最后登录 1970-1-1 头像被屏蔽	52pojie666z 发表于 2020-11-20 13:26 提示: 作者被禁止或删除内容自动屏蔽

	回复支持举报