Hutoll
HTTP客户端

爬取开源中国的开源资讯

# 爬取开源中国的开源资讯

简介

这个案例展示了如何利用 Hutool 中的 HttpUtil 和 ReUtil 工具类，进行简单的网页爬取。我们将以开源中国的开源资讯板块为例，通过 HTTP 请求获取页面内容，并使用正则表达式提取其中的资讯标题。整个过程涵盖了从页面分析到数据提取的关键步骤。

# 1. 页面分析

在爬取页面内容之前，我们首先需要分析页面结构。通过 Chrome 开发者工具（F12），我们可以清楚地看到页面加载的内容、分页请求的 URL 及其参数，以及目标 HTML 标签的结构。以下是我们分析过程的几个关键点：

定位目标页面：在开源中国主页找到“开源资讯”板块，并点击进入“全部资讯”。
查看分页请求：下拉页面至底部，观察网络请求。我们发现分页请求的 URL 是 https://www.oschina.net/action/ajax/get_more_news_list?newsType=&p=2，其中 p 参数代表页码。
分析 HTML 结构：查看返回的 HTML 源码，确定标题标签的结构，使用 <span class="text-ellipsis"> 包围的内容即为我们需要提取的标题。

通过上述分析，我们可以确定爬取的 URL 以及正则表达式。

# 2. 模拟 HTTP 请求并爬取页面内容

我们使用 HttpUtil.get 方法获取页面内容，使用 ReUtil.findAll 提取其中的资讯标题。完整代码如下：

import cn.hutool.core.util.ReUtil;
import cn.hutool.http.HttpUtil;
import cn.hutool.core.lang.Console;

import java.util.List;

public class OschinaCrawlerExample {
    public static void main(String[] args) {
        // 请求列表页内容
        String listContent = HttpUtil.get("https://www.oschina.net/action/ajax/get_more_news_list?newsType=&p=2");

        // 使用正则表达式获取所有标题
        List<String> titles = ReUtil.findAll("<span class=\"text-ellipsis\">(.*?)</span>", listContent, 1);

        // 遍历并打印所有标题
        for (String title : titles) {
            Console.log("标题: {}", title);
        }
    }
}

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

HttpUtil.get：发起 GET 请求，获取页面内容。
- String listContent = HttpUtil.get(url); 获取指定 URL 的 HTML 内容。
ReUtil.findAll：使用正则表达式查找并提取匹配的内容。
- 第一个参数是正则表达式，<span class="text-ellipsis">(.*?)</span> 用于匹配 HTML 中的标题部分。
- 第二个参数是要处理的文本内容，listContent 即为从页面获取的 HTML 内容。
- 第三个参数为分组索引，这里 1 表示提取正则表达式中第一个括号内的内容（即标题部分）。

作用： 通过简洁的代码实现网页内容的自动化提取，适用于数据采集、信息爬取等场景。

实际开发场景： 该案例适用于处理类似资讯列表、文章目录等需要定向提取页面内容的需求。

# 3. 结果展示与解析

运行上述代码后，控制台会打印出抓取的所有资讯标题：

标题: 开源项目 1
标题: 开源项目 2
标题: 开源项目 3
...

1
2
3
4

整个过程核心代码仅为两行：一行是请求页面内容，另一行是通过正则表达式提取目标内容。正则表达式中的 (.*?) 表示匹配任意字符，并采用非贪婪模式，以确保匹配到最短的内容。

# 4. 进一步扩展

在实际开发中，爬取网页内容可能面临多种挑战，包括但不限于：

封 IP：一些网站会检测频繁访问并封禁 IP，可以通过设置代理或降低爬取频率解决。
请求头和 Cookie：某些网站对请求头信息有严格要求，需模拟真实浏览器行为发送请求。
验证码：遇到验证码可以通过图像识别或人工操作解决。

Hutool 提供了丰富的 HTTP 工具类，使得这些问题在编码时可以轻松应对。

# 5. 结语

Hutool 通过简洁的 API，使得网页爬取变得简单高效。在处理爬虫任务时，页面分析和数据提取是关键，而 Hutool 提供的 HttpUtil 和 ReUtil 工具可以大大简化这项工作。

编辑此页

上次更新: 2024/12/28, 18:32:08

← HTTP 状态码 - `HttpStatus` Received fatal alert handshake_failure 错误→