I have a huge number of files to sort all named in some terrible convention.
Here are some examples:
(4)_mr__mcloughlin____.txt
12__sir_john_farr____.txt
(b)mr__chope____.txt
dame_elaine_kellett-bowman____.txt
dr__blackburn______.txt
这些名字应该代表不同的人(发言者)。另一个IT部门的某人使用一些脚本从大量的XML文件中生成了这些名字,但是如您所见,命名非常愚蠢,难以理解。
我需要分类成千上万个这些文件,每个人都有多个文本文件,每个文件都有一些愚蠢的东西使文件名不同,可能是更多的下划线或一些随机数字。它们需要按发言人进行排序。
这将会更容易,如果有一个脚本去处理大部分工作,这样我就可以回去合并那些应该被放在相同名称下的文件夹。
我想到了几种方法来做这件事。
- parse the names from each file and sort them into folders for each unique name.
- get a list of all the unique names from the filenames, then look through this simplified list of unique names for similar ones and ask me whether they are the same, and once it has determined this it will sort them all accordingly.
我计划使用Perl,但如果值得的话,我可以尝试一种新的语言。我不确定如何逐个读取目录中的每个文件名,并将其转换为字符串以进行实际名称的解析。我也不完全确定如何在Perl中使用正则表达式解析,但这可能可以通过谷歌解决。
对于排序,我只想使用 shell 命令:
`cp filename.txt /example/destination/filename.txt`
但只是因为那是我所知道的,所以它最容易。
我甚至没有任何伪代码的想法,所以如果有人知道最好的操作序列,我全听着呢。我想我需要很多帮助,我对任何建议都很开放。非常非常感谢任何能够帮忙的人。
Sorry, this statement is incomplete. Please provide more context or information for me to translate.