Question

我在构建一个数据可视化, 我想用 CSV 作为我的基础数据格式, 用于亮度和易用性。我的源数据是重 XML, 所以我把它转换成 CSV, 使用 Python 和 lxml 。

我的问题是。当我在 XML 中有多个子标记时, 比如以下的 < code@ lt; City> 标记 :

<Country>
   <Name>France</Name>
   <Cities>
   <City><Name>Paris</Name></City>
   <City><Name>Lyon</Name></City>
   </Cities>
</Country>
<Country>
   <Name>Germany</Name>
   <Cities>
   <City><Name>Berlin</Name></City>
   <City><Name>Munich</Name></City>
   <City><Name>Aachen</Name></City>
   </Cities>
</Country>

我该如何在我的 CSV 文件中代表他们?我可以想到两个选项。第一个选项是为每个城市增加一列,直到 CityN:

 Country,City1,City2,City3
 France,Paris,Lyon,,
 Germany,Berlin,Munich,Aachen

第二是为所有城市使用一个阵列:

 Country,Cities
 France,[Paris,Lyon]
 Germany,[Berlin,Munich,Aachen]

也许最好的格式仅仅取决于我想如何查询数据, 但我想我会在这里检查一下, 看看是否有一个既定的或更好的方法来这样做。

Answer 1

鉴于您将使用 CSV, 数组版本将保存文档的基于字段的结构。没有数组术语, 逗号会以字段分隔符和字段分隔符内的一个值超载, 无法确定哪个在起作用, 除非从记录左侧计数字段。

非数组版本还将您的数据限制为每个记录类型的一个嵌套收藏。这不是当前示例中的一个问题, 但它可能属于您应用程序中的另一个记录类型。使用( 单一的) 标准方法可以提高清晰度和可维护性。

友情链接