当前位置: 首页 > news >正文

Java爬虫

package Pachong;import java.util.regex.Matcher;
import java.util.regex.Pattern;public class Regx {public static void main(String[] args) {String str ="Java自从95年问世以米,经历了很多版本,目前企业中用的最多的是Java8和Java11,"+"因为这两个是长期支持版本,下一个长期支持版本是Java17,相信在未来不久Java17也会逐渐登上历史舞台";
//        method1(str);Pattern p = Pattern.compile("Java\\d{0,2}");Matcher m = p.matcher(str);while (m.find()){String s1 = m.group();System.out.println(s1);}}private static void method1(String str) {//Pattern:表示正则表达式//Matcher:文本匹配器,作用按照正则表达式的规则去读取字符串,从头开始读取//获取正则表达式对象Pattern p = Pattern.compile("Java\\d{0,2}");//获取文本匹配器的对象//m:文本匹配器的对象//str:大串//p:规则//m要在石头人中找符合p规则的小串Matcher m = p.matcher(str);//拿着文本匹配器从头开始读取,寻找是否有满足规则的字串//如果没有,方法返回false//如果有,返回true。在底层记录字串的起始索引和结束索引+1//0,4boolean b = m.find();//方法底层会根据find方法记录的索引进行字符串的截取// substring(起始索引,结束索引);包头不包尾// (0,4)但是不包含4索引// 会把截取的小串进行返回String s1 = m.group();System.out.println(s1);}
}

有?:和没有这个代表的是衔接的意思

?!这个是不需要有后面的这些数字意思

abbbbbbbbbbbbbaaaaaaaaaaaaaa

贪婪爬取:在爬取数据的时候,尽可能的多获取数据 ab+

非贪婪爬取:在爬取数据的时候,尽可能的少获取数据 ab+?

分组

每组是有组号的,也就是序号

规则1:从1开始,连续不间断

规则2:以左括号为基准,最左边的是第一组,其次为第二组,以此类推

捕获分组:

后续还要继续使用本组数据

正则内部使用:\\组号

正则外部使用:$组号

非捕获分组:

分组之后不需要再用本组数据,仅仅是把数据括起来


http://www.mrgr.cn/news/15215.html

相关文章:

  • 关于武汉芯景科技有限公司的实时时钟芯片XJ8337开发指南(兼容DS1337)
  • 2024年8月29日(harbor似有仓库管理,Docker-compose容器编排)
  • 【Docker】docker的简介与部署方法
  • 2022 年高教社杯全国大学生数学建模竞赛-C 题 古代玻璃制品的成分分析与鉴别详解+分类模型Python代码源码
  • SpringBoot 的注解原理,及自定义注解
  • 【自己电脑打开不了产品发的AXURE,HTML需求原型直接简单解决方式】
  • 基于vue框架的残疾人就业帮扶平台97c5w(程序+源码+数据库+调试部署+开发环境)系统界面在最后面。
  • 大语言模型数据增强与模型蒸馏解决方案
  • GMS——利用 ChatGPT 和扩散模型进行制造业革命
  • CRUD的最佳实践,联动前后端,包含微信小程序,API,HTML等(二)
  • TensorFlow 的基本概念和使用场景。
  • AI学习记录 - 线性代数(3Blue1Brown)
  • 美国硅谷多ip服务器用途广吗?
  • nefu暑假acm集训1 构造矩阵 个人模板+例题汇总
  • 【精选】基于数据可视化的智慧社区内网平台(程序员阿龙出品精品)
  • cesium 发光线
  • (三)了解MySQL 【用户创建和权限/索引】
  • 天玑9200 V2双芯联动旗舰手机Vivo X90拆解
  • 你好GPT-4o,程序员如何通过GPT-4o提升自己的编码能力
  • wpf prism 《3》 弹窗 IOC