我想知道如何在Hadoop/HDFS/Hbase中版本数据。 它应该成为你模型的一部分,因为变化非常可能(大数据是长期收集的)。
HDFS (基于文件的后端) 的主要示例 。
sample-log-file.log :
timestamp x1 y1 z1 ...
timestamp x2 y2 z2 ...
我现在想知道该如何添加版本信息。
Version inside file-format
log-file.log :
timestamp V1 x1 y1 z1 ...
timestamp V2 w1 x2 y2 z1 ...
Version inside file-name
*log-file_V1.log* 缩略语
timestamp x1 y1 z1 ...
*log-file_V2.log*
timestamp w1 x1 y1 z1 ...
第二个选项( 文件名中的版本) 对我来说感觉更干净一些, 适合 HDFS ( 我可以简单地使用 & v2* 作为排除旧版本风格文件的模式 ) 。 另一方面, 我还需要执行两个不同的任务, 因为无法分析一个任务中的版本片段 。
关于HBase,我想在HBase中,该版本将在另一个表格栏中定义结尾(HDFS是实施细节,并作为HBase的后端使用)如何?
后端Hadoop/HDFS/HBase的数据版本的替代版本?
谢谢!
我的问题是如何处理版本信息本身, 而不是时间戳。