返回顶部

Python清除html文件中内容的方法

[复制链接]
程序员007Lv.9 显示全部楼层 发表于 2021-9-28 14:59:01 |阅读模式 打印 上一主题 下一主题
  方法一:


[Python] 纯文本查看 复制代码
In [97]: str_ = ''
    ...: flag = 1
    ...: for ele in test:
    ...:     if ele == "<":
    ...:         flag = 0
    ...:     elif ele == '>':
    ...:         flag = 1
    ...:         continue
    ...:     if flag == 1:
    ...:         str_ += ele
    ...:        
In [98]: str_
Out[98]: 'just for testjust for testtest'
In [99]: str_ = ''
    ...: flag = 1
    ...: for ele in test:
    ...:     if ele == "<":
    ...:         flag = 0
    ...:     elif ele == '>':
    ...:         flag = 1
    ...:         ele = ' '
    ...:     if flag == 1:
    ...:         str_ += ele
    ...:        
In [100]: str_
Out[100]: ' just for test   just for test  test '


  方法二:


[Python] 纯文本查看 复制代码
import re
In [156]: pat = re.compile('(?<=\>).*?(?=\<)')
In [157]: pat.findall(test)
Out[157]: ['just for test', '', '', 'just for test', '', 'test']
In [158]: ''.join(pat.findall(test))
Out[158]: 'just for testjust for testtest'


  方法三:

[Python] 纯文本查看 复制代码
pat = re.compile('>(.*?)<')
''.join(pat.findall(test))


  方法四:

[Python] 纯文本查看 复制代码
In [167]: pat = re.compile('<[^>]+>', re.S)
In [168]: pat.sub('', test)
Out[168]: 'just for testjust for testtest'


回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

达内教育:成立于2002年。致力于面向IT互联网行业,培养软件开发工程师、测试工程师、系统管理员、智能硬件工程师、UI设计师、网络营销、会计等职场人才 达内使命:缔造年轻人的中国梦、缔造达内员工的中国梦 达内愿景:做管理一流的教育公司
  • 商务合作

  • 微信公众号

  • Powered by Discuz! X3.4 | Copyright © 2002-2021, 达内教育 Tedu.cn
  • 京ICP备08000853号-56 |网站地图 | 京公网安备 11010802029508号