我在构建一个数据可视化, 我想用 CSV 作为我的基础数据格式, 用于亮度和易用性。 我的源数据是重 XML, 所以我把它转换成 CSV, 使用 Python 和 lxml 。
我的问题是。 当我在 XML 中有多个子标记时, 比如以下的 < code@ lt; City> code> 标记 :
<Country>
<Name>France</Name>
<Cities>
<City><Name>Paris</Name></City>
<City><Name>Lyon</Name></City>
</Cities>
</Country>
<Country>
<Name>Germany</Name>
<Cities>
<City><Name>Berlin</Name></City>
<City><Name>Munich</Name></City>
<City><Name>Aachen</Name></City>
</Cities>
</Country>
我该如何在我的 CSV 文件中代表他们?我可以想到两个选项。 第一个选项是为每个城市增加一列,直到 CityN:
Country,City1,City2,City3
France,Paris,Lyon,,
Germany,Berlin,Munich,Aachen
第二是为所有城市使用一个阵列:
Country,Cities
France,[Paris,Lyon]
Germany,[Berlin,Munich,Aachen]
也许最好的格式 仅仅取决于我想如何查询数据, 但我想我会在这里检查一下, 看看是否有一个既定的 或更好的方法来这样做。