当前位置: 首页 > news >正文

delphi 正则提取html中的内容

function ExtractTextFromHTML(const HTML: string): string;
var
  RegEx: TRegEx;
begin
  Result := HTML;

  // 移除<script>标签及其内容
  Result := TRegEx.Replace(Result, '<script.*?>.*?</script>', '', [roIgnoreCase, roSingleLine]);

  // 移除<style>标签及其内容
  Result := TRegEx.Replace(Result, '<style.*?>.*?</style>', '', [roIgnoreCase, roSingleLine]);

  // 移除所有HTML标签
  Result := TRegEx.Replace(Result, '<[^>]+>', '', [roIgnoreCase]);

  // 去除网址(新增部分)
  // 匹配 http/https/ftp 协议开头的URL
  Result := TRegEx.Replace(Result, '\b(https?|ftp)://[^\s/?#$%&]*[^\s?#$%&/]', '');


http://www.mrgr.cn/news/93971.html

相关文章:

  • Hugging Face的Transformers核心模块:Pipelines(参数说明,各种模型类型调用案例)
  • 『PostgreSQL』 Ubuntu 系统下PG15的安装与 PGVector 配置指南
  • 01.02、判定是否互为字符重排
  • Word 小黑第2套
  • 仅仅使用pytorch来手撕transformer架构(2):多头注意力MultiHeadAttention类的实现和向前传播
  • NX二次开发,创建基准平面
  • 正则表达式(2)匹配规则
  • ①Modbus TCP转Modbus RTU/ASCII网关同步采集无需编程高速轻松组网
  • AI学习记录 - PPO算法草稿
  • LiveCommunicationKit OC 实现
  • 力扣热题 100:二叉树专题进阶题解析(后7道)
  • 23种设计模式简介
  • Liunx(CentOS-6-x86_64)使用Nginx部署Vue项目
  • VUE3开发-9、axios前后端跨域问题解决方案
  • 英语学习(GitHub学到的分享)
  • 滑动窗口算法-day7(越长越合法子数组)
  • 18、函数的反柯里化
  • SpringMVC 基本概念与代码示例
  • 【git】 贮藏 stash
  • 《 C++ 点滴漫谈: 三十 》高手写 C++,参数这样传才高效!你真的用对了吗?