Question

我试图从下面的给定字符串中提取一些信息

>>> st =    
... <!-- info mp3 here -->
...                             192 kbps<br />2:41<br />3.71 mb  </div>
... <!-- info mp3 here -->
...                             3.49 mb  </div>
... <!-- info mp3 here -->
...                             128 kbps<br />3:31<br />3.3 mb   </div>
...    
>>>

现在当我使用下面的正正数时我的输出是

>>> p = re.findall(r <!-- info mp3 here -->s+(.*?)<br />(.*?)<br />(.*?)s+</div> ,st)
>>> p
[( 192 kbps ,  2:41 ,  3.71 mb ), ( 128 kbps ,  3:31 ,  3.3 mb )]

但我需要的产出是

[( 192 kbps ,  2:41 ,  3.71 mb ),(None,None, 3.49mb ), ( 128 kbps ,  3:31 ,  3.3 mb )]

因此,我的问题是,我如何更改上面的 regex 来匹配所有条件。我相信,我目前的regex 严格依赖于 lt;br/> 标签,所以我如何以该标签为条件。

我知道我不应该用regex 来分析 html,但现在这是我最合适的方法。

Answer 1

虽然我想知道有没有更优雅的解决方案。你当然可以将列表理解合并为一行,但我认为这样会降低代码的总体清晰度。至少这样你就可以从现在起三个月后遵循你所做的...

st =    
<!-- info mp3 here -->
                            192 kbps<br />2:41<br />3.71 mb  </div>
<!-- info mp3 here -->
                            3.49 mb  </div>
<!-- info mp3 here -->
                            128 kbps<br />3:31<br />3.3 mb   </div>
   

p = re.findall(r <!-- info mp3 here -->s+(.*?)s+</div> ,st)
p2 = [row.split( <br /> ) for row in p]
p3 = [[None]*(3 - len(row)) + row for row in p2]

>>> p3
[[ 192 kbps ,  2:41 ,  3.71 mb ], [None, None,  3.49 mb ], [ 128 kbps ,  3:31 ,  3.3 mb ]]

取决于字符串的变异性, 你可能需要写一个更通用的清洁功能, 将它条纹, 案件, 随便什么, 并绘制成地图, 绘制到您退出的每件物品上。

Answer 2

这里的regex 解答方法比较具体一些。我不确定这比> 回答更可取,但我猜想我按要求回答问题。前两个选择组不是返回 noone ,而是返回空字符串 ,我想这大概足够接近了。



注意嵌套组结构。 前两个外组是可选的, 但需要 < code_ lt; br/ & gt;  标签才能匹配。 这样, 如果小于两个 < code_ lt; br/ gt;  标签, 最后一个项目直到结尾才匹配 :

rx = r   <!-- info mp3 here -->s+   # verbose mode; escape literal spaces
         (?:                             # outer non-capturing group  
            ([^<>]*)                     # inner capturing group without <>
            (?:<br />)                  # inner non-capturing group matching br
         )?                              # whole outer group is optional
         (?:                             
            ([^<>]*)                     # all same as above
            (?:<br />)                
         )?
         (?:                             # outer non-capturing group
            (.*?)                        # non-greedy wildcard match
            (?:s+</div>)                # inner non-capturing group matching div
         )                               # final group is not optional


测试 :

>>> re.findall(rx, st, re.VERBOSE)
[( 192 kbps ,  2:41 ,  3.71 mb ), 
 (  ,   ,  3.49 mb ), 
 ( 128 kbps ,  3:31 ,  3.3 mb )]


请注意 re.VERBOSE  的旗帜,这是必要的,除非删除上面所有空白和注释。

友情链接