程序员scholar 程序员scholar
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
npm

(进入注册为作者充电)

  • 快速入门

  • 克隆

  • 类型转换

  • 日期时间

  • IO流相关

  • 工具类

  • 语言特性

  • JavaBean

  • 集合类

  • Map

  • Codec编码

  • 文本操作

  • 注解

  • 比较器

  • 异常

  • 数学

  • 线程和并发

  • 图片

  • 网络

  • 源码编译

  • 配置文件

  • 日志

  • 缓存

  • JSON

  • 加密解密

  • DFA查找

  • HTTP客户端

    • Http 客户端工具类 - `HttpUtil`
    • HTML 工具类 - `HtmlUtil`
    • HTTP 响应 - `HttpResponse`
    • HTTP 请求 - `HttpRequest`
    • UA 工具类 - `UserAgentUtil`
    • HTTP 状态码 - `HttpStatus`
    • 爬取开源中国的开源资讯
      • 1. 页面分析
      • 2. 模拟 HTTP 请求并爬取页面内容
      • 3. 结果展示与解析
      • 4. 进一步扩展
      • 5. 结语
    • Received fatal alert handshake_failure 错误
  • 定时任务

  • 扩展

  • 切面

  • 脚本

  • Office文档操作

  • 系统调用

  • 图形验证码

  • 网络Socket

  • JWT

  • Hutoll
  • HTTP客户端
scholar
2024-08-20
目录

爬取开源中国的开源资讯

# 爬取开源中国的开源资讯

简介

这个案例展示了如何利用 Hutool 中的 HttpUtil 和 ReUtil 工具类,进行简单的网页爬取。我们将以开源中国的开源资讯板块为例,通过 HTTP 请求获取页面内容,并使用正则表达式提取其中的资讯标题。整个过程涵盖了从页面分析到数据提取的关键步骤。

# 1. 页面分析

在爬取页面内容之前,我们首先需要分析页面结构。通过 Chrome 开发者工具(F12),我们可以清楚地看到页面加载的内容、分页请求的 URL 及其参数,以及目标 HTML 标签的结构。以下是我们分析过程的几个关键点:

  1. 定位目标页面:在开源中国主页找到“开源资讯”板块,并点击进入“全部资讯”。
  2. 查看分页请求:下拉页面至底部,观察网络请求。我们发现分页请求的 URL 是 https://www.oschina.net/action/ajax/get_more_news_list?newsType=&p=2,其中 p 参数代表页码。
  3. 分析 HTML 结构:查看返回的 HTML 源码,确定标题标签的结构,使用 <span class="text-ellipsis"> 包围的内容即为我们需要提取的标题。

通过上述分析,我们可以确定爬取的 URL 以及正则表达式。

# 2. 模拟 HTTP 请求并爬取页面内容

我们使用 HttpUtil.get 方法获取页面内容,使用 ReUtil.findAll 提取其中的资讯标题。完整代码如下:

import cn.hutool.core.util.ReUtil;
import cn.hutool.http.HttpUtil;
import cn.hutool.core.lang.Console;

import java.util.List;

public class OschinaCrawlerExample {
    public static void main(String[] args) {
        // 请求列表页内容
        String listContent = HttpUtil.get("https://www.oschina.net/action/ajax/get_more_news_list?newsType=&p=2");

        // 使用正则表达式获取所有标题
        List<String> titles = ReUtil.findAll("<span class=\"text-ellipsis\">(.*?)</span>", listContent, 1);

        // 遍历并打印所有标题
        for (String title : titles) {
            Console.log("标题: {}", title);
        }
    }
}
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
  • HttpUtil.get:发起 GET 请求,获取页面内容。
    • String listContent = HttpUtil.get(url); 获取指定 URL 的 HTML 内容。
  • ReUtil.findAll:使用正则表达式查找并提取匹配的内容。
    • 第一个参数是正则表达式,<span class="text-ellipsis">(.*?)</span> 用于匹配 HTML 中的标题部分。
    • 第二个参数是要处理的文本内容,listContent 即为从页面获取的 HTML 内容。
    • 第三个参数为分组索引,这里 1 表示提取正则表达式中第一个括号内的内容(即标题部分)。

作用: 通过简洁的代码实现网页内容的自动化提取,适用于数据采集、信息爬取等场景。

实际开发场景: 该案例适用于处理类似资讯列表、文章目录等需要定向提取页面内容的需求。

# 3. 结果展示与解析

运行上述代码后,控制台会打印出抓取的所有资讯标题:

标题: 开源项目 1
标题: 开源项目 2
标题: 开源项目 3
...
1
2
3
4

整个过程核心代码仅为两行:一行是请求页面内容,另一行是通过正则表达式提取目标内容。正则表达式中的 (.*?) 表示匹配任意字符,并采用非贪婪模式,以确保匹配到最短的内容。

# 4. 进一步扩展

在实际开发中,爬取网页内容可能面临多种挑战,包括但不限于:

  • 封 IP:一些网站会检测频繁访问并封禁 IP,可以通过设置代理或降低爬取频率解决。
  • 请求头和 Cookie:某些网站对请求头信息有严格要求,需模拟真实浏览器行为发送请求。
  • 验证码:遇到验证码可以通过图像识别或人工操作解决。

Hutool 提供了丰富的 HTTP 工具类,使得这些问题在编码时可以轻松应对。

# 5. 结语

Hutool 通过简洁的 API,使得网页爬取变得简单高效。在处理爬虫任务时,页面分析和数据提取是关键,而 Hutool 提供的 HttpUtil 和 ReUtil 工具可以大大简化这项工作。

编辑此页 (opens new window)
上次更新: 2024/12/28, 18:32:08
HTTP 状态码 - `HttpStatus`
Received fatal alert handshake_failure 错误

← HTTP 状态码 - `HttpStatus` Received fatal alert handshake_failure 错误→

Theme by Vdoing | Copyright © 2019-2025 程序员scholar
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式