1. /**
    2. * 去除文章内容页页面代码里的HTML标签
    3. * Created by yanyl on 2018/6/4.
    4. */
    5. public class DelTagsUtil {
    6. /**
    7. * 去除html代码中含有的标签
    8. * @param htmlStr
    9. * @return
    10. */
    11. public static String delHtmlTags(String htmlStr) {
    12. //定义script的正则表达式,去除js可以防止注入
    13. String scriptRegex="<script[^>]*?>[\\s\\S]*?<\\/script>";
    14. //定义style的正则表达式,去除style样式,防止css代码过多时只截取到css样式代码
    15. String styleRegex="<style[^>]*?>[\\s\\S]*?<\\/style>";
    16. //定义HTML标签的正则表达式,去除标签,只提取文字内容
    17. String htmlRegex="<[^>]+>";
    18. //定义空格,回车,换行符,制表符
    19. String spaceRegex = "\\s*|\t|\r|\n";
    20. // 过滤script标签
    21. htmlStr = htmlStr.replaceAll(scriptRegex, "");
    22. // 过滤style标签
    23. htmlStr = htmlStr.replaceAll(styleRegex, "");
    24. // 过滤html标签
    25. htmlStr = htmlStr.replaceAll(htmlRegex, "");
    26. // 过滤空格等
    27. htmlStr = htmlStr.replaceAll(spaceRegex, "");
    28. return htmlStr.trim(); // 返回文本字符串
    29. }
    30. /**
    31. * 获取HTML代码里的内容
    32. * @param htmlStr
    33. * @return
    34. */
    35. public static String getTextFromHtml(String htmlStr){
    36. //去除html标签
    37. htmlStr = delHtmlTags(htmlStr);
    38. //去除空格" "
    39. htmlStr = htmlStr.replaceAll(" ","");
    40. return htmlStr;
    41. }
    42. public static void main(String[] args){
    43. String htmlStr= "<script type>var i=1; alert(i)</script><style> .font1{font-size:12px}</style><span>少年中国说。</span>红日初升,其道大光。<h3>河出伏流,一泻汪洋。</h3>潜龙腾渊, 鳞爪飞扬。乳 虎啸 谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有" +
    44. "八荒。<a href=\"www.baidu.com\">前途似海,来日方长</a>。<h1>美哉我少年中国,与天不老!</h1><p>壮哉我中国少年,与国无疆!</p>";
    45. System.out.println(getTextFromHtml(htmlStr));
    46. }
    47. }

    main方法运行结果:

    1. 少年中国说。红日初升,其道大光。河出伏流,一泻汪洋。潜龙腾渊,鳞爪飞扬。乳虎啸谷,百兽震惶。鹰隼试翼,风尘吸张。奇花初胎,矞矞皇皇。干将发硎,有作其芒。天戴其苍,地履其黄。纵有千古,横有八荒。前途似海,来日方长。美哉我少年中国,与天不老!壮哉我中国少年,与国无疆!