为什么数据整合很难?图灵奖得主迈克尔·斯通布雷克这样“解答”

5月26日,2022中国国际大数据产业博览会开幕式在线上举办。2014图灵奖得主、世界知名数据库科学家迈克尔·斯通布雷克在开幕式上说,为什么数据整合很难,因为必然会遇到要集成多个数据源的情况。

迈克尔·斯通布雷克举出例子,他说,假设你的员工数据库设在巴黎,而我的员工数据库设在纽约,你有员工,我也有员工;你的员工拿的是定期薪水,我的员工拿的是计时计件工资,所以这两种数据库模式不一样;你的员工的薪水用欧元支付,而我的员工薪水用美元支付,货币单位也不一样,我付给员工的工资是税前总额以美元计,而你付给员工的薪水是税后净额以欧元计,而且包含午餐补贴……所以你得付出精力,把双方数据进行统一协调,然后还得想办法处理无效数据。

想象一下,这些数据中可能有10%的数据丢失或出错,最简单的例子是有很多人会输入-99,而这是空值,如果你在分析时把-99当成了真实数值,那么你肯定会得到错误的结果,所以必须清理数据,同时也必须清除重复数据。如果有一名员工部分时间在巴黎工作,部分时间在纽约工作,那么就必须删掉重复数据,避免重复计算。当然,其中没有任何捷径,得将数据进行模糊匹配。比如,我是在巴黎工作的斯通布雷克,而另一个人是在纽约上班的斯通布雷克,两者只有姓氏不一样,所有这样的混乱都必须解决,而这一过程很复杂,也很难,但如果不这么做,数据分析就没有意义,机器学习模型就会失效自然这一切也就丧失了价值意义。

(贵阳日报融媒体记者 高春春)