脏数据的隐患

http://tech.ddvip.com   2008年01月18日    社区交流

内容摘要:本文引用一些经典案例为你讲述当数据整合出现问题时会遇到的麻烦……

  很多时候,问题不仅仅是简单的数据录入错误或者是“脏数据进脏数据出”的问题而已。很多企业在进行不同操作系统之间的数据移植或从老的SQL版本中升级数据等操作时并没有做好充分计划。他们总是希望利用手头上任何可利用资源火速进行,而把数据清洗任务冀望于以后完成。更甚者,他们的测试环境和操作环境可能并不一致,或者他们只用少量数据子集来测试,没有测试过的数据很可能会在后面的操作引发大麻烦。

  企业经历着深刻的技术革命,却没有在数据整合和维护的管理上花费足够的时间和精力,最终只会成为不良数据的牺牲品。在数据迁移的过程中,有无数的机会让它们成为不良数据。

  不要指望IT部门来验证你的数据。让与这些数据密切相关的有能力的用户来帮助你做好数据整合计划和测试。在你决定进行整合之前,先查看一下所有数据,确定用于从中提取数据的应用软件。如果可以,最好测试所有的数据而不是其中某个子集,要知道正如上面的例子所示,就算是一个小的不能再小的错误都会把你和你的数据拉进痛苦的深渊。

  我们最后再用一个实例来说明小错误和大麻烦之间的关系。

  某商业风险管理解决方案供应商的某位客户创建了一个SQL服务器数据库,用来确定是否有错误的CAD文件在其网络内部流窜。原本的设想是,如果错误的数据包超过某设定阈值,公司管理员就会知道并进行数据挖掘和清洗工作。问题是他们不小心颠倒了数据库的规则设置(把两个阈值放反了),导致错误数据包越多,提交公司的报告里显示的网络运行情况就越好。最后该公司网络被某种蠕虫病毒入侵,破坏了他们的工程CAD档案。他们不得不重头开始花费大量的金钱来重建大部分的文档。这一切都是因为一个非常简单数据提取设置错误造成的。

  希望本文讲述的内容能够让大家对数据整合有个正确的认识,数据整合不可规避,并且要谨慎行事。

来源:IT专家网    作者:cyw    责编:豆豆技术应用

正在加载评论...