HTML 工具类 - HtmlUtil
# HTML 工具类 - HtmlUtil
简介
HtmlUtil
是 Hutool 提供的一个用于处理 HTML 字符串的工具类,适用于爬虫、数据清洗等场景。通过 HtmlUtil
,可以实现对 HTML 特殊字符的转义与反转义、去除或保留标签、清理标签属性、过滤 XSS 攻击等操作,极大简化了对 HTML 内容的处理。
# 1. 转义 HTML 特殊字符 - HtmlUtil.escape
在处理 HTML 内容时,经常需要对特殊字符进行转义。HtmlUtil.escape
方法可以将 HTML 中的特殊字符转义为对应的实体符号,以确保内容在浏览器中正确显示。
示例:转义 HTML 特殊字符
import cn.hutool.http.HtmlUtil;
public class HtmlEscapeExample {
public static void main(String[] args) {
String html = "<html><body>123'123'</body></html>";
// 将 HTML 特殊字符转义
String escaped = HtmlUtil.escape(html);
System.out.println(escaped);
// 输出结果: <html><body>123'123'</body></html>
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.escape(String html)
:转义 HTML 特殊字符。html
:要转义的 HTML 字符串。- 返回值:返回转义后的字符串,特殊字符被替换为实体符号。
作用: 用于将 HTML 内容中的特殊字符(如 <
、>
、&
等)转义,避免内容在浏览器中被解析为 HTML 标签。
实际开发场景: 在输出用户生成的内容(如评论、消息等)到网页时,可以使用该方法转义内容,防止 XSS 攻击。
# 2. 反转义 HTML 特殊字符 - HtmlUtil.unescape
如果需要还原被转义的 HTML 特殊字符,可以使用 HtmlUtil.unescape
方法。
示例:还原被转义的 HTML 特殊字符
import cn.hutool.http.HtmlUtil;
public class HtmlUnescapeExample {
public static void main(String[] args) {
String escapedHtml = "<html><body>123'123'</body></html>";
// 还原转义的 HTML 特殊字符
String unescaped = HtmlUtil.unescape(escapedHtml);
System.out.println(unescaped);
// 输出结果: <html><body>123'123'</body></html>
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.unescape(String html)
:还原被转义的 HTML 特殊字符。html
:要还原的 HTML 字符串。- 返回值:返回还原后的字符串,实体符号被替换为对应的特殊字符。
作用: 在需要将转义后的 HTML 内容还原为原始格式时,可以使用该方法。
实际开发场景: 在处理从数据库或接口获取的 HTML 数据时,常需要先转义再还原,以保证内容的正确显示。
# 3. 清除指定 HTML 标签 - HtmlUtil.removeHtmlTag
在处理爬虫抓取的网页内容时,经常需要去掉某些特定的标签及其内容。HtmlUtil.removeHtmlTag
可以清除指定标签及其包含的内容。
示例:清除指定 HTML 标签
import cn.hutool.http.HtmlUtil;
public class HtmlRemoveTagExample {
public static void main(String[] args) {
String html = "pre<img src=\"xxx/dfdsfds/test.jpg\">";
// 清除 img 标签及其内容
String result = HtmlUtil.removeHtmlTag(html, "img");
System.out.println(result);
// 输出结果: pre
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.removeHtmlTag(String html, String tag)
:清除指定的 HTML 标签及其内容。html
:要处理的 HTML 字符串。tag
:要移除的标签名称。- 返回值:返回清除标签后的字符串。
作用: 在处理网页内容时,可以通过该方法去掉不需要的广告、图片、脚本等标签。
实际开发场景: 在进行数据清洗时,常需要清理网页中的广告、无关内容等,可以使用该方法实现。
# 4. 清除所有 HTML 标签 - HtmlUtil.cleanHtmlTag
有时只需要保留 HTML 内容而去掉所有的标签,可以使用 HtmlUtil.cleanHtmlTag
方法。
示例:清除所有 HTML 标签
import cn.hutool.http.HtmlUtil;
public class HtmlCleanTagExample {
public static void main(String[] args) {
String html = "pre<div class=\"test_div\">\r\n\t\tdfdsfdsfdsf\r\n</div><div class=\"test_div\">BBBB</div>";
// 清除所有 HTML 标签,保留标签内的内容
String result = HtmlUtil.cleanHtmlTag(html);
System.out.println(result);
// 输出结果: pre\r\n\t\tdfdsfdsfdsf\r\nBBBB
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.cleanHtmlTag(String html)
:清除所有 HTML 标签,保留标签内的内容。html
:要处理的 HTML 字符串。- 返回值:返回清除标签后的内容,仅保留文本内容。
作用: 用于快速提取网页中的纯文本内容,去掉所有 HTML 标签。
实际开发场景: 在需要获取网页中的文本信息、如爬虫数据分析时,可以使用该方法提取内容。
# 5. 清除指定 HTML 标签但保留内容 - HtmlUtil.unwrapHtmlTag
如果需要移除标签但保留标签内的内容,可以使用 HtmlUtil.unwrapHtmlTag
方法。
示例:清除指定 HTML 标签但保留内容
import cn.hutool.http.HtmlUtil;
public class HtmlUnwrapTagExample {
public static void main(String[] args) {
String html = "pre<div class=\"test_div\">abc</div>";
// 清除 div 标签,但保留其内容
String result = HtmlUtil.unwrapHtmlTag(html, "div");
System.out.println(result);
// 输出结果: preabc
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.unwrapHtmlTag(String html, String tag)
:清除指定的 HTML 标签,但保留标签内的内容。html
:要处理的 HTML 字符串。tag
:要移除的标签名称。- 返回值:返回移除标签后的内容,标签内的文本被保留。
作用: 用于去掉无关的包装标签,但保留其内的有效内容。
实际开发场景: 在处理嵌套标签时,去掉外层的包装标签,但保留实际内容。
# 6. 去除 HTML 标签中的指定属性 - HtmlUtil.removeHtmlAttr
当需要清除 HTML 标签中的某些属性时,可以使用 HtmlUtil.removeHtmlAttr
方法。
示例:去除 HTML 标签中的指定属性
import cn.hutool.http.HtmlUtil;
public class HtmlRemoveAttrExample {
public static void main(String[] args) {
String html = "<div class=\"test_div\"></div><span class=\"test_div\"></span>";
// 去除 class 属性
String result = HtmlUtil.removeHtmlAttr(html, "class");
System.out.println(result);
// 输出结果: <div></div><span></span>
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.removeHtmlAttr(String html, String attr)
:去除 HTML 标签中的指定属性。html
:要处理的 HTML 字符串。attr
:要移除的属性名称。- 返回值:返回去除指定属性后的 HTML 字符串。
作用: 用于删除标签中的多余或不必要的属性。
实际开发场景: 在处理 HTML 数据时,可能需要去掉某些敏感属性或多余属性以简化代码。
# 7. 去除指定标签的所有属性 - HtmlUtil.removeAllHtmlAttr
如果需要去除指定标签的所有属性,可以使用 HtmlUtil.removeAllHtmlAttr
方法。
示例:去除指定标签的所有属性
import cn.hutool.http.HtmlUtil;
public class HtmlRemoveAllAttrExample {
public static void main(String[] args) {
String html = "<div class=\"test_div\" width=\"120\"></div>";
// 去除 div 标签的所有属性
String result = HtmlUtil.removeAllHtmlAttr(html, "div");
System.out.println(result);
// 输出结果: <div></div>
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.removeAllHtmlAttr(String html, String tag)
:去除指定标签的所有属性。html
:要处理的 HTML 字符串。tag
:要移除属性的标签名称。- 返回值:返回去除所有属性后的 HTML 字符串。
作用: 适用于清理
标签中所有的属性,保留标签的结构。
实际开发场景: 在清理不需要的标签属性或防止 XSS 攻击时使用。
# 8. 过滤 HTML 文本以防止 XSS 攻击 - HtmlUtil.filter
为了防止 XSS 攻击,可以使用 HtmlUtil.filter
方法过滤危险的 HTML 标签和内容。
示例:过滤 HTML 文本以防止 XSS 攻击
import cn.hutool.http.HtmlUtil;
public class HtmlFilterExample {
public static void main(String[] args) {
String html = "<script>alert('XSS');</script>";
// 过滤 HTML 文本,防止 XSS 攻击
String filtered = HtmlUtil.filter(html);
System.out.println(filtered);
// 输出结果: ""
}
}
2
3
4
5
6
7
8
9
10
11
HtmlUtil.filter(String html)
:过滤 HTML 文本,防止 XSS 攻击。html
:要处理的 HTML 字符串。- 返回值:返回过滤后的安全 HTML 字符串,移除危险标签。
作用: 主要用于过滤用户输入的 HTML 内容,防止恶意代码注入。
实际开发场景: 在 Web 应用中处理用户提交的内容时,使用该方法可以有效防止 XSS 攻击。
以上是按照你提供的模板重新总结的 HtmlUtil
工具类,涵盖了主要的功能、API 使用方法、参数说明以及实际开发中的应用场景。如果有更多内容需要补充,随时告诉我!