脏数据的隐患
http://tech.ddvip.com 2008年01月18日 社区交流
内容摘要:本文引用一些经典案例为你讲述当数据整合出现问题时会遇到的麻烦……
于是,以诸如“亲爱的白痴客户Linlin”这样的措词抬头的邮件开始源源不断的发到客户邮箱里。
当然没有任何客户会签约使用这项新服务。该机构直到开始检查他们所发出的邮件时,才弄清楚前因后果。
我们拥有的数据不是属于我们自己的。如今世界的联系日趋紧密,很可能会有人找到了你的数据,并把它利用在一个你完全想象不到的地方。如果你从别的地方获取数据,那么在你利用它们执行新任务时,必须要确保你的数据质量管理水平过关了。
判断水平“过不过关”,取决于你要如何利用这些数据。正确性是判断数据质量的基本要素之一,对于直邮产业,数据的准确率达到70%至80%就可能就够了。而对于制药业,你就必须达到99%甚至更高。不过,没有什么公司想要或者需要完美的数据,更不用说为了得到完美数据而付出金钱,因为要数据保持完美的代价太昂贵了。问题是要怎样利用数据,以及数据的准确率达到什么程度才足够好。
2. 死去的人有没有选举权
相信大家对数据清洗(Data cleansing)这个术语并不陌生,它是数据整合过程中必须进行的一个复杂过程,通过检测和清除掉垃圾数据(包括不正确、过时、冗余以及不完整的数据),以保证数据的正确性、可靠性、完整性和一致性。从字面上,我们就可以看出数据清洗是一个“生死攸关”的问题。下面讲述的也是“生死攸关”的事例。2006年美国国会选举期间,某政府工作志愿者在通过电话让已登记的选民来投票的过程中发现,每十个选民中有三个是已经死去的人,因此没有资格投票。现代社会里死者数据不全所引发的问题很常见,确实也给生者带来了很大的困扰。
对于诸如保险公司、投资公司、基金公司、通讯公司等拥有大量客户的服务类企业而言,客户数据是其重要的财富来源。然而,客户数据质量问题却一直是困扰企业开发新服务项目的绊脚石。在一项关于客户数据质量的调查研究中发现,平均而言,8-15%的客户数据记录存在各种问题,例如各种证件号码输入错误、联系方式过期等等。其中有五分之一的数据问题是由于客户的死亡造成的,其中一部分客户死亡时间超过十年却仍保留着股东的身份。
来源:IT专家网 作者:cyw 责编:豆豆技术应用