脏数据的隐患

豆豆网   技术应用频道   2008年01月18日  【字号: 收藏本文

内容摘要:本文引用一些经典案例为你讲述当数据整合出现问题时会遇到的麻烦……

  所有的数据都会快速老化,就像放射性物质发生衰变一样,而联络数据比其他数据老化得更快。数据库管理人员必须定期更新每一个系统的数据。

  美国工商资料库是个巨额产业,而联络资料是所有资料中最受销售人员青睐的,但也是最难维护的。2004年成立于美国的Jigsaw.com是一个在线商务联络资料数据库,面向销售专业人员,采用Wiki式数据清洗方式来维护。该网站的三十多万名用户通过上传新名片资料或纠正错误的名片资料来换取点数,上传的每条记录必须完整,如果上传不正确或是资料太老旧,就会扣除相应的点数。而用户能得到的利益就是用获得的点数购买自己所需要的名片资料。

  Jigsaw的首席执行官Jim Fowler称一家科技公司想要把他们公司的数据库和Jigsaw的数据库进行比较,以便清除不良数据。该科技公司拥有四万条记录,其中只有65%是当前可用的,而且全部数据都不完整。Jigsaw发现他们大部分合作客户都拥有很多毫无价值的数据,根本就没办法去匹配纠正。公司花费了数百万美元在客户关系管理软件上,可见这些数据有多糟糕。有时候公司的真正价值不在拥有的数据本身,而在于有没有能力与时俱进地跟上数据变化的速度。Jigsaw的能力正是在于完善数据并进行自我清洗,如果没有自我修正的机制,Jigsaw也只不过是一家毫无价值的数据公司而已。

  5. 小错误与大麻烦

  好数据和不良数据之间的差别很可能就体现在一个小点上。某专案优化解决方案供应商的高级顾问告诉我们,他曾为一个大型数据整合项目做顾问,这个项目看起来一切都运行正常,但六个月后,某人打开一个数据表,只看到了一排排符号,什么数据都没有。

  这其实只是一个字符代码错误:本来在一些域里应该用省略号(三个点)的,但有人只输入了两个点,导致了整个数据线的崩溃。该公司不得不费尽力气从备份中重新创建整个数据库:查找省略号,然后用正确数据替换。

来源:IT专家网    作者:cyw    责编:豆豆技术应用

正在加载评论...