扫码一下
查看教程更方便
使用 re.sub() 方法从字符串中删除 html 标签,例如 result = re.sub(r'<.*?>', '', html_string)
。 re.sub()
方法将删除字符串中的所有 html 标记,将它们替换为空字符串。
import re
html_string = """
- apple
- banana
- kiwi
"""
result = re.sub(r'<.*?>', '', html_string)
# apple
# banana
# kiwi
print(result)
re.sub 方法返回一个新字符串,该字符串是通过用提供的替换替换模式的出现而获得的。
如果未找到该模式,则按原样返回字符串。
我们传递给 re.sub() 方法的第一个参数是一个正则表达式。
方括号 <
和 >
匹配 html 标记的开始和结束字符。
点 .
匹配除换行符以外的任何字符。
星号 *
匹配前面字符(任何字符)的 0 次或多次重复。
添加问号 ?
在限定符使其执行非贪婪或最小匹配之后。
例如,使用正则表达式 <.*?>
将只匹配