Java爬虫获取不到全的html，java爬取整个网站图片

小程序：扫一扫查出行
【扫一扫了解最新限行尾号】
复制小程序

java爬虫抓取指定数据

需要先用img标签的正则表达式匹配获取到img标签，再用src属性的正则表达式获取这个img标签中的src属性的图片url，然后再通过缓冲输入流对象读取到这个图片url的图片信息，配合文件输出流将读到的图片信息写入到本地即可。

使用jsoup解析到这个url就行，dom结构如下：look-inside-cover类只有一个，所以直接找到这个img元素，获取src属性，就可以获取到图片路径。

以下是一般的实现步骤：导入相关的Java网络爬虫库，如Jsoup等。编写Java代码，使用网络爬虫库发送HTTP请求，获取网页的HTML源代码。使用网络爬虫库解析HTML源代码，提取所需的数据。对提取的数据进行处理和存储，可以保存到本地文件或导入到数据库中。

一般爬虫都不会抓登录以后的页面，如果你只是临时抓某个站，可以模拟登录，然后拿到登录以后的Cookies，再去请求相关的页面。

java获取html

使用java.net包下的URL类，可以将一个网页（链接）封装成一个URL对象。URL对象有一个openStream()方法，使用该方法可以获取该网页的输入流，我们可以通过读取输入流的方式获得网页的内容，并通过输出流写入HTML文件中。补充：步骤：通过URL对象的openStream()方法获得网页的字节输入流。

is.close()；还可以用专门获取网页的JAR包，好像是jsoap？上面的代码没有考虑转码的问题。如果是中文可能出现乱码，注意要统一编码格式。--- 修改了一下servlet的doPost方法，解决编码问题。我的页面是utf-8编码。

jsoup 是一款 Java 的HTML 解析器，可直接解析某个URL地址、HTML文本内容。它提供了一套非常省力的API，可通过DOM，CSS以及类似于JQuery的操作方法来取出和操作数据。据说它是基于MIT协议发布的。

用java怎样提取提取网页部分html内容 File input = new File(/tmp/input.html)；Document doc = Jsoup.parse(input， UTF-8， IP)；看看这个代码，调用 doc.text() 方法即可。

为什么用JAVA获取不了这个网页的源代码

1、第一次使用eclipse查看jar包里的源代码时，没有导入jdk的项目源码，所以无法查看源码。查看源代码的方法：打开eclipse，点击window，之后选择Preferences选项。找到Java选项，点开，选择Installed JRES，此时右边是列表窗格，列出了系统中的JRE环境，选择你的JRE，然后点边上的Edit。

2、乱码问题，可以设置编码解决。Java一般支持UTF-8 如果不是，你可以多改几个编码看看哪个是中文。你也可以把读取到的字节码显示成二进制看看到底是哪种编码，不同编码很好辨认的。。比如英文的UTF-8 它是高八位全一样。

3、第二种方法就是根据浏览器状态栏或工具栏中的点击“查看”然后就用一项“查看源代码”，点击查看源代码即可查看此网页的源代码源文件。首先打开谷歌浏览器(GoogleChrome)，任意打开一个网页(例如百度)，在浏览器右上角的菜单中找到更多工具开发者工具并打开(也可以直接按F12打开)。

4、)， encoding))；// 得到输入流，即获得了网页的内容 String line； // 读取输入流的数据，并显示 while ((line = reader.readLine()) ！= null) { System.out.println(line)；} } } 根据具体问题类型，进行步骤拆解／原因原理分析／内容拓展等。