脏数据的隐患
http://tech.ddvip.com 2008年01月18日 社区交流
内容摘要:本文引用一些经典案例为你讲述当数据整合出现问题时会遇到的麻烦……
重复数据的问题一直都让IT管理员头痛不已。数据库越庞大,这个问题越严重。但是,很少有人真正认识到问题的严重性。如果有人告诉你他的客户数据库里有2.7%的重复数据,很可能低估了。不过,我们也没有什么灵丹妙药彻底解决这个问题,即使我们能够利用数据匹配技术来沙里淘金,跨越多个数据库找出唯一有用的信息,最难的一关可能是让企业里的不同利益团体就什么数据可以大家共享以及如何构建匹配达成一致。同一个机构里的两个不同的部门可能对匹配和重复项有完全不同的定义。类似的数据整合工作会因为相关人员不能对“谁才是数据的所有者”以及“什么数据可以拿来与别人交换”的意见不和而土崩瓦解。
4. 小心老化的数据
相信很多人对魔域大冒险(Zork)这款最经典的文字冒险游戏还记忆犹新,通过问答形式由游戏设置提供情景描述,而玩家输入选择关键词判断来推动游戏发展,是现代RPG游戏的鼻祖。现在,还有不少人仍在开发这类古老的游戏,这也没什么,问题是他们数据库里保存的用户资料也同样的古老。
某老款游戏开发商利用MailChimp的网络营销服务来联系以前的一万名客户,就是为了提醒他们游戏的第二版终于完成了。他们所用的大部分电子邮件地址至少是十年前的,其中有一部分是Hotmail帐户,很久之前就被遗弃不用了,以致微软已经把这些邮件地址当成垃圾邮件陷阱了。于是,一天之内,所有的MailChimp邮件都被Hotmail的垃圾邮件过滤器列入了黑名单。
幸好游戏开发商以前保留了原始记录,包括每位客户下载其游戏时的IP地址,这成了MailChimp的救命稻草。MailChimp给Hotmail的客服发了紧急申明,证明这些邮箱帐户是合法客户,只是年代比较久远。第二天,hotmail就把MailChimp从黑名单中解救出来了。
来源:IT专家网 作者:cyw 责编:豆豆技术应用