不幸的是,我使用的是一个非常大的语料库,它被扩展到数百个.gz文件中——实际上价值24G(打包)。Python确实是我的母语(哈哈),但我想知道我是否没有遇到需要学习“更快”语言的问题?
每个.gz文件包含一个纯文本文档,大约56MB的gzip文件,大约210MB的解压缩文件。
每一行都有一个n-gram(二元图、三元图、四元图等),右边还有一个频率计数。我基本上需要创建一个文件,将每个四边形的子串频率与其整个串频率计数一起存储(即,总共10个数据点的4个unigram频率、3个bigram频率和2个trigram频率)。每种类型的n-gram都有自己的目录(例如,所有bigram都出现在自己的一组33.gz文件中)。
我知道一个简单的强力解决方案,以及导入哪个模块来处理Python中的gzipped文件,但我想知道是否有什么东西不会占用我几周的CPU时间?任何关于加快这一进程的建议,无论多么微小,都将不胜感激!