Question
我如何利用假歌和乐午餐从html中删除阶级特性?
Example
我有:
<p class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>
我想:
<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>
What I ve tried so far
I veecked out lxml.html.clean.Cleaner 但是,它没有办法排除等级属性。 页: 1 然而,这并没有消除阶级归属。
大量搜查毫无用处。 我认为,<代码>}/code>在html和python中都使用了进一步的泥土探测结果。 许多结果似乎也严格涉及xml。
Im还开放给其他提供人类接口的假装模块。
非常感谢。
Solution
由于“Dan Roberts”的答复,我提出了以下解决办法。 面向今后试图解决同一问题的民间人士。
import lxml.html
# Our html string we want to remove the class attribute from
html_string = <p class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>
# Parse the html
html = lxml.html.fromstring(html_string)
# Print out our "Before"
print lxml.html.tostring(html)
# .xpath below gives us a list of all elements that have a class attribute
# xpath syntax explained:
# // = select all tags that match our expression regardless of location in doc
# * = match any tag
# [@class] = match all class attributes
for tag in html.xpath( //*[@class] ):
# For each element with a class attribute, remove that class attribute
tag.attrib.pop( class )
# Print out our "After"
print lxml.html.tostring(html)