Question

Question

Question

我如何利用假歌和乐午餐从html中删除阶级特性?

Example

我有:

<p class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>

我想:

<p>Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>

What I ve tried so far

I veecked out lxml.html.clean.Cleaner 但是,它没有办法排除等级属性。页: 1 然而,这并没有消除阶级归属。

大量搜查毫无用处。我认为,<代码>}/code>在html和python中都使用了进一步的泥土探测结果。许多结果似乎也严格涉及xml。

Im还开放给其他提供人类接口的假装模块。

非常感谢。

Solution

由于“Dan Roberts”的答复,我提出了以下解决办法。面向今后试图解决同一问题的民间人士。

import lxml.html

# Our html string we want to remove the class attribute from
html_string =  <p class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p> 

# Parse the html
html = lxml.html.fromstring(html_string)

# Print out our "Before"
print lxml.html.tostring(html)

# .xpath below gives us a list of all elements that have a class attribute
# xpath syntax explained:
# // = select all tags that match our expression regardless of location in doc
# * = match any tag
# [@class] = match all class attributes
for tag in html.xpath( //*[@class] ):
    # For each element with a class attribute, remove that class attribute
    tag.attrib.pop( class )

# Print out our "After"
print lxml.html.tostring(html)

Answer 1

现在我可以对此进行检验,但这似乎是一般的想法。

for tag in node.xpath( //*[@class] ):
    tag.attrib.pop( class )

Answer 2

lxml.html.clean. 清洁工确实工作,但需要适当的配置。

import lxml.html
from lxml.html import clean

html_string =  <p id="test" class="DumbClass">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p> 
tree = html.fromstring(html_string)

cleaner = html.clean.Cleaner()
cleaner.safe_attrs_only = True
cleaner.safe_attrs=frozenset([ id ])
cleaned = cleaner.clean_html(tree)
print(html.tostring(cleaned))

成果:

b <p id="test">Lorem ipsum dolor sit amet, consectetur adipisicing elit</p>

Answer 3

lxml elment,.attrib 物体中含有属性字典,你可以像你一样取而代之。

下面只是一个简单的例子,说明如何在html中替换名词。

鉴于html:

<div><img src="http://www.example.com/logo.png"></div>

法典:

from lxml.html import fromstring
from lxml.html import _transform_result

html = "<div><img src="http://www.example.com/logo.png"></div>"
doc = fromstring(html)
for el in doc.iter( img ):
    if "src" in el.attrib:
        el.set( data-src , el.get( src ))
        del el.attrib["src"]
print _transform_result(type(html), doc)

结果:

<div><img data-src="http://www.example.com/logo.png"></div>

Question

Example

What I ve tried so far

Solution

友情链接