原标题:Migrations across databases with inconsistend database backend - Input?


It is typical a relational database centered around a single User table.

Things to consider

  • Duplicate rows between production and testing may exist in almost any table.
  • Any column in any User-related table in testing may miss content from production, or contain updated information due to User re-registration.
  • All tables contain created and updated columns.

我一直通过一个SOAP层与数据库连接,因为它是“麻醉”的方法。 然而,我确实有使用这些数据库的机器的行政渠道。

你们是否有任何方法、任何建议、帮助我实现我的目标的任何要点? 也许与,实际上是什么。


<>1>。 首先支持所有数据。 说这句话永远不会受到伤害!

2. Establish a reasonable sample size, i.e. how many records are you willing to look at in details, partly based on your time/money and the value of corrected accurate data.

<>3>。 编制这些记录的表格。

<>4>。 如果你能够(外部)确定哪些是真实的,则可能使用电子邮件地址或其他领域与其他数据进行比较。

<>5>。 寻找模式。 是否有任何个领域:即:补贴、日期、用户_id等,视其是否有助于了解哪些记录是好的? 看看价值模式、低/高幅度、重复抽样数据(许多记录一栏的同值)、没有时间的日期、有孤儿的外国身份证的记录、你可以检查的几件事!

<>6>。 确定你们的最后宽容——你们是否寻求100%? 或者,有99.94%的固定为ok(well,然后是!) 用户?

7. Look at those duplicates you mentioned. For those records, can you apply any rule such as older record or newer record or low ID number to at least eliminate them?




