教程 > python 3 教程 > 阅读:266

python 从字符串中删除 html 标记——迹忆客-ag捕鱼王app官网

使用 re.sub() 方法从字符串中删除 html 标签,例如 result = re.sub(r'<.*?>', '', html_string)re.sub() 方法将删除字符串中的所有 html 标记,将它们替换为空字符串。

import re
html_string = """
  • apple
  • banana
  • kiwi
""" result = re.sub(r'<.*?>', '', html_string) # apple # banana # kiwi print(result)

re.sub 方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。

如果未找到该模式,则按原样返回字符串。

我们传递给 re.sub() 方法的第一个参数是一个正则表达式。

方括号 <> 匹配 html 标记的开始和结束字符。

. 匹配除换行符以外的任何字符。

星号 * 匹配前面字符(任何字符)的 0 次或多次重复。

添加问号 ? 在限定符使其执行非贪婪或最小匹配之后。

例如,使用正则表达式 <.*?> 将只匹配

查看笔记

扫码一下
查看教程更方便
网站地图