我希望能够进行大规模搜索并替换文档,以便实现文本正常化。
例如:
- Find all uses of U.S.A, USA and replace with United States Of America
- Find all ampersands (&) and replace with the word and
我还想在系统上添加新的规则,而不必修改任何代码。所以搜索替换配对存储在数据库中,这意味着任何人都可以添加、更新、删除规则。
我一直在与Python re 模块合作,该模块非常漂亮,而且最理想的是,我想将一个图例列表传递给子命令,然后通过每个图例并进行替换。除了对图例列表进行循环,然后为每个图例创建一个常规表达式之外,还有更好的方法来做到这一点吗? 它非常缓慢,效率低下,特别是大文件:
replacements = [
r( USA , United States Of America ),
(r U.S.A , United States Of America ),
(r US of A , United States of America )]
for replacement in replacements:
document = re.sub(replacement[0],replacement[1],document