程序员scholar 程序员scholar
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
首页
  • Java 基础

    • JavaSE
    • JavaIO
    • JavaAPI速查
  • Java 高级

    • JUC
    • JVM
    • Java新特性
    • 设计模式
  • Web 开发

    • Servlet
    • Java网络编程
  • Web 标准

    • HTML
    • CSS
    • JavaScript
  • 前端框架

    • Vue2
    • Vue3
    • Vue3 + TS
    • 微信小程序
    • uni-app
  • 工具与库

    • jQuery
    • Ajax
    • Axios
    • Webpack
    • Vuex
    • WebSocket
    • 第三方登录
  • 后端与语言扩展

    • ES6
    • Typescript
    • node.js
  • Element-UI
  • Apache ECharts
  • 数据结构
  • HTTP协议
  • HTTPS协议
  • 计算机网络
  • Linux常用命令
  • Windows常用命令
  • SQL数据库

    • MySQL
    • MySQL速查
  • NoSQL数据库

    • Redis
    • ElasticSearch
  • 数据库

    • MyBatis
    • MyBatis-Plus
  • 消息中间件

    • RabbitMQ
  • 服务器

    • Nginx
  • Spring框架

    • Spring6
    • SpringMVC
    • SpringBoot
    • SpringSecurity
  • SpringCould微服务

    • SpringCloud基础
    • 微服务之DDD架构思想
  • 日常必备

    • 开发常用工具包
    • Hutoll工具包
    • IDEA常用配置
    • 开发笔记
    • 日常记录
    • 项目部署
    • 网站导航
    • 产品学习
    • 英语学习
  • 代码管理

    • Maven
    • Git教程
    • Git小乌龟教程
  • 运维工具

    • Docker
    • Jenkins
    • Kubernetes
  • 算法笔记

    • 算法思想
    • 刷题笔记
  • 面试问题常见

    • 十大经典排序算法
    • 面试常见问题集锦
关于
GitHub (opens new window)
npm

(进入注册为作者充电)

  • 快速入门

  • 克隆

  • 类型转换

  • 日期时间

  • IO流相关

  • 工具类

  • 语言特性

  • JavaBean

  • 集合类

  • Map

  • Codec编码

  • 文本操作

  • 注解

  • 比较器

  • 异常

  • 数学

  • 线程和并发

  • 图片

  • 网络

  • 源码编译

  • 配置文件

  • 日志

  • 缓存

  • JSON

  • 加密解密

  • DFA查找

  • HTTP客户端

    • Http 客户端工具类 - `HttpUtil`
    • HTML 工具类 - `HtmlUtil`
      • 1. 转义 HTML 特殊字符 - HtmlUtil.escape
      • 2. 反转义 HTML 特殊字符 - HtmlUtil.unescape
      • 3. 清除指定 HTML 标签 - HtmlUtil.removeHtmlTag
      • 4. 清除所有 HTML 标签 - HtmlUtil.cleanHtmlTag
      • 5. 清除指定 HTML 标签但保留内容 - HtmlUtil.unwrapHtmlTag
      • 6. 去除 HTML 标签中的指定属性 - HtmlUtil.removeHtmlAttr
      • 7. 去除指定标签的所有属性 - HtmlUtil.removeAllHtmlAttr
      • 8. 过滤 HTML 文本以防止 XSS 攻击 - HtmlUtil.filter
    • HTTP 响应 - `HttpResponse`
    • HTTP 请求 - `HttpRequest`
    • UA 工具类 - `UserAgentUtil`
    • HTTP 状态码 - `HttpStatus`
    • 爬取开源中国的开源资讯
    • Received fatal alert handshake_failure 错误
  • 定时任务

  • 扩展

  • 切面

  • 脚本

  • Office文档操作

  • 系统调用

  • 图形验证码

  • 网络Socket

  • JWT

  • Hutoll
  • HTTP客户端
scholar
2024-08-20
目录

HTML 工具类 - HtmlUtil

# HTML 工具类 - HtmlUtil

简介

HtmlUtil 是 Hutool 提供的一个用于处理 HTML 字符串的工具类,适用于爬虫、数据清洗等场景。通过 HtmlUtil,可以实现对 HTML 特殊字符的转义与反转义、去除或保留标签、清理标签属性、过滤 XSS 攻击等操作,极大简化了对 HTML 内容的处理。

# 1. 转义 HTML 特殊字符 - HtmlUtil.escape

在处理 HTML 内容时,经常需要对特殊字符进行转义。HtmlUtil.escape 方法可以将 HTML 中的特殊字符转义为对应的实体符号,以确保内容在浏览器中正确显示。

示例:转义 HTML 特殊字符

import cn.hutool.http.HtmlUtil;

public class HtmlEscapeExample {
    public static void main(String[] args) {
        String html = "<html><body>123'123'</body></html>";
        // 将 HTML 特殊字符转义
        String escaped = HtmlUtil.escape(html);
        System.out.println(escaped);
        // 输出结果: &lt;html&gt;&lt;body&gt;123&#039;123&#039;&lt;/body&gt;&lt;/html&gt;
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.escape(String html):转义 HTML 特殊字符。
    • html:要转义的 HTML 字符串。
    • 返回值:返回转义后的字符串,特殊字符被替换为实体符号。

作用: 用于将 HTML 内容中的特殊字符(如 <、>、& 等)转义,避免内容在浏览器中被解析为 HTML 标签。

实际开发场景: 在输出用户生成的内容(如评论、消息等)到网页时,可以使用该方法转义内容,防止 XSS 攻击。

# 2. 反转义 HTML 特殊字符 - HtmlUtil.unescape

如果需要还原被转义的 HTML 特殊字符,可以使用 HtmlUtil.unescape 方法。

示例:还原被转义的 HTML 特殊字符

import cn.hutool.http.HtmlUtil;

public class HtmlUnescapeExample {
    public static void main(String[] args) {
        String escapedHtml = "&lt;html&gt;&lt;body&gt;123&#039;123&#039;&lt;/body&gt;&lt;/html&gt;";
        // 还原转义的 HTML 特殊字符
        String unescaped = HtmlUtil.unescape(escapedHtml);
        System.out.println(unescaped);
        // 输出结果: <html><body>123'123'</body></html>
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.unescape(String html):还原被转义的 HTML 特殊字符。
    • html:要还原的 HTML 字符串。
    • 返回值:返回还原后的字符串,实体符号被替换为对应的特殊字符。

作用: 在需要将转义后的 HTML 内容还原为原始格式时,可以使用该方法。

实际开发场景: 在处理从数据库或接口获取的 HTML 数据时,常需要先转义再还原,以保证内容的正确显示。

# 3. 清除指定 HTML 标签 - HtmlUtil.removeHtmlTag

在处理爬虫抓取的网页内容时,经常需要去掉某些特定的标签及其内容。HtmlUtil.removeHtmlTag 可以清除指定标签及其包含的内容。

示例:清除指定 HTML 标签

import cn.hutool.http.HtmlUtil;

public class HtmlRemoveTagExample {
    public static void main(String[] args) {
        String html = "pre<img src=\"xxx/dfdsfds/test.jpg\">";
        // 清除 img 标签及其内容
        String result = HtmlUtil.removeHtmlTag(html, "img");
        System.out.println(result);
        // 输出结果: pre
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.removeHtmlTag(String html, String tag):清除指定的 HTML 标签及其内容。
    • html:要处理的 HTML 字符串。
    • tag:要移除的标签名称。
    • 返回值:返回清除标签后的字符串。

作用: 在处理网页内容时,可以通过该方法去掉不需要的广告、图片、脚本等标签。

实际开发场景: 在进行数据清洗时,常需要清理网页中的广告、无关内容等,可以使用该方法实现。

# 4. 清除所有 HTML 标签 - HtmlUtil.cleanHtmlTag

有时只需要保留 HTML 内容而去掉所有的标签,可以使用 HtmlUtil.cleanHtmlTag 方法。

示例:清除所有 HTML 标签

import cn.hutool.http.HtmlUtil;

public class HtmlCleanTagExample {
    public static void main(String[] args) {
        String html = "pre<div class=\"test_div\">\r\n\t\tdfdsfdsfdsf\r\n</div><div class=\"test_div\">BBBB</div>";
        // 清除所有 HTML 标签,保留标签内的内容
        String result = HtmlUtil.cleanHtmlTag(html);
        System.out.println(result);
        // 输出结果: pre\r\n\t\tdfdsfdsfdsf\r\nBBBB
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.cleanHtmlTag(String html):清除所有 HTML 标签,保留标签内的内容。
    • html:要处理的 HTML 字符串。
    • 返回值:返回清除标签后的内容,仅保留文本内容。

作用: 用于快速提取网页中的纯文本内容,去掉所有 HTML 标签。

实际开发场景: 在需要获取网页中的文本信息、如爬虫数据分析时,可以使用该方法提取内容。

# 5. 清除指定 HTML 标签但保留内容 - HtmlUtil.unwrapHtmlTag

如果需要移除标签但保留标签内的内容,可以使用 HtmlUtil.unwrapHtmlTag 方法。

示例:清除指定 HTML 标签但保留内容

import cn.hutool.http.HtmlUtil;

public class HtmlUnwrapTagExample {
    public static void main(String[] args) {
        String html = "pre<div class=\"test_div\">abc</div>";
        // 清除 div 标签,但保留其内容
        String result = HtmlUtil.unwrapHtmlTag(html, "div");
        System.out.println(result);
        // 输出结果: preabc
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.unwrapHtmlTag(String html, String tag):清除指定的 HTML 标签,但保留标签内的内容。
    • html:要处理的 HTML 字符串。
    • tag:要移除的标签名称。
    • 返回值:返回移除标签后的内容,标签内的文本被保留。

作用: 用于去掉无关的包装标签,但保留其内的有效内容。

实际开发场景: 在处理嵌套标签时,去掉外层的包装标签,但保留实际内容。

# 6. 去除 HTML 标签中的指定属性 - HtmlUtil.removeHtmlAttr

当需要清除 HTML 标签中的某些属性时,可以使用 HtmlUtil.removeHtmlAttr 方法。

示例:去除 HTML 标签中的指定属性

import cn.hutool.http.HtmlUtil;

public class HtmlRemoveAttrExample {
    public static void main(String[] args) {
        String html = "<div class=\"test_div\"></div><span class=\"test_div\"></span>";
        // 去除 class 属性
        String result = HtmlUtil.removeHtmlAttr(html, "class");
        System.out.println(result);
        // 输出结果: <div></div><span></span>
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.removeHtmlAttr(String html, String attr):去除 HTML 标签中的指定属性。
    • html:要处理的 HTML 字符串。
    • attr:要移除的属性名称。
    • 返回值:返回去除指定属性后的 HTML 字符串。

作用: 用于删除标签中的多余或不必要的属性。

实际开发场景: 在处理 HTML 数据时,可能需要去掉某些敏感属性或多余属性以简化代码。

# 7. 去除指定标签的所有属性 - HtmlUtil.removeAllHtmlAttr

如果需要去除指定标签的所有属性,可以使用 HtmlUtil.removeAllHtmlAttr 方法。

示例:去除指定标签的所有属性

import cn.hutool.http.HtmlUtil;

public class HtmlRemoveAllAttrExample {
    public static void main(String[] args) {
        String html = "<div class=\"test_div\" width=\"120\"></div>";
        // 去除 div 标签的所有属性
        String result = HtmlUtil.removeAllHtmlAttr(html, "div");
        System.out.println(result);
        // 输出结果: <div></div>
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.removeAllHtmlAttr(String html, String tag):去除指定标签的所有属性。
    • html:要处理的 HTML 字符串。
    • tag:要移除属性的标签名称。
    • 返回值:返回去除所有属性后的 HTML 字符串。

作用: 适用于清理

标签中所有的属性,保留标签的结构。

实际开发场景: 在清理不需要的标签属性或防止 XSS 攻击时使用。

# 8. 过滤 HTML 文本以防止 XSS 攻击 - HtmlUtil.filter

为了防止 XSS 攻击,可以使用 HtmlUtil.filter 方法过滤危险的 HTML 标签和内容。

示例:过滤 HTML 文本以防止 XSS 攻击

import cn.hutool.http.HtmlUtil;

public class HtmlFilterExample {
    public static void main(String[] args) {
        String html = "<script>alert('XSS');</script>";
        // 过滤 HTML 文本,防止 XSS 攻击
        String filtered = HtmlUtil.filter(html);
        System.out.println(filtered);
        // 输出结果: ""
    }
}
1
2
3
4
5
6
7
8
9
10
11
  • HtmlUtil.filter(String html):过滤 HTML 文本,防止 XSS 攻击。
    • html:要处理的 HTML 字符串。
    • 返回值:返回过滤后的安全 HTML 字符串,移除危险标签。

作用: 主要用于过滤用户输入的 HTML 内容,防止恶意代码注入。

实际开发场景: 在 Web 应用中处理用户提交的内容时,使用该方法可以有效防止 XSS 攻击。


以上是按照你提供的模板重新总结的 HtmlUtil 工具类,涵盖了主要的功能、API 使用方法、参数说明以及实际开发中的应用场景。如果有更多内容需要补充,随时告诉我!

编辑此页 (opens new window)
上次更新: 2024/12/28, 18:32:08
Http 客户端工具类 - `HttpUtil`
HTTP 响应 - `HttpResponse`

← Http 客户端工具类 - `HttpUtil` HTTP 响应 - `HttpResponse`→

Theme by Vdoing | Copyright © 2019-2025 程序员scholar
  • 跟随系统
  • 浅色模式
  • 深色模式
  • 阅读模式