人工智能潮起,巨头纷纷抢滩,萨摩耶数科会用迁移学习激起怎样的浪花?
曾几何时,让·鲍德里亚说“人工智能的可悲之处在于它不够巧妙,因而不够智能。”如今,用这句话描述人工智能已越来越不恰当。
苹果、特斯拉、滴滴、百度等国内外巨头在无人驾驶上的频频加码,让无人驾驶技术进入了发展的快车道。但自动驾驶,只是人工智能的一个细分领域。
“人工智能是我们人类正在从事的最为深刻的研究方向之一,甚至要比火与电还更加深刻。” 桑德尔·皮猜曾指出。
近期,一项名为“迁移学习”的技术被谷歌、阿里云、萨摩耶数科等知名企业频频提及,这项技术虽然不如智能驾驶那么“接地气”,但在商业应用上的价值却毫不逊色。
图片来源于网络
无处不在的迁移学习
究竟什么是迁移学习?“你永远不能理解一种语言——除非你至少理解两种语言。”英国作家杰弗里·威廉斯的这句话有助于我们理解什么是迁移学习。
不必讨论它冗长的概念,只需要思考一些生活中的细节。在幼儿园学习拼音的时候,老师教我们“a、o、e、i、u、ü”,教我们声母、韵母如何搭配组合;而在我们学习英语的时候,常常自然而然地将一些拼音中的规律带到音标中,这就是迁移学习一个常见的应用。
学习一类外语时,人们常常将在学习母语过程中的经验、技巧、习惯、方式不自觉的迁移运用于新语种的学习当中。如果是可借鉴的经验与方法,我们会获取并且加深这种学习方式,如果是不适用的方法,我们则会放弃,换一种学习方式。
迁移学习的原理与人类学习语言的过程十分相似,在从源领域(比如汉语中拼音)学习的过程中,根据目标领域(比如英语中的音标)的数据特性,来决定是否需要将知识从源领域迁移到目标领域。
数据是人工智能的底层基础,也是人工智能时代最核心的竞争力之一,必然“洛阳纸贵”。
如果源数据是“1”,那迁移学习的价值在于,它可以在源数据在源领域实现自身“1”的价值的同时,在诸多目标领域实现0.5、0.6乃至0.9的价值;使用迁移学习的新模型在开发过程中,也不用经历“从0到1”的过程,而是从0.5、0.6乃至0.9起步。
在萨摩耶数科看来,迁移学习就是“借力打力”,酷似诸葛孔明草船借箭,通过“借力”它将自己学习的框架放大,找到更多更有“能力”的样本,并且充分利用他们的能力。
如今迁移学习已成为机器学习的基础研究领域之一,在计算机视觉、文本分类、医疗健康领域有着广阔的应用场景,当然也包括金融领域。
“与广告推荐等领域相比,金融领域获取的无偏样本不仅仅需要获客成本、营销推广费用,更需要付出昂贵的客户逾期成本。而使用迁移学习的时候,就可以直接采用大量的业务样本,这种近乎于零成本的样本获取方式的优势正是建模样本所或缺的,能够解决有标注的样本的昂贵的产生代价问题。” 萨摩耶数科人工智能部负责人指出。
萨摩耶数科是一家以AI为驱动的金融数字科技公司,现有团队规模超450人,其中风控及研发技术人员占比80%以上,依托人工智能和云计算等技术,为金融机构提供全方位、专业的数字金融科技服务。截至2021年一季度,萨摩耶数科已与包括商业银行、消费金融公司在内的超100家机构达成合作,累计注册用户超7130万。
而迁移学习就是萨摩耶数科在人工智能领域广泛应用的技术之一。
萨摩耶数科与迁移学习
萨摩耶数科是国内较早将迁移学习应用于金融科技领域的企业之一。通过结合萨摩耶数科内部常用的自动建模平台AUTOMAN,萨摩耶数科开发了一套合适自身特点和需求的迁移学习工具。
例如在通过AUTOMAN自动建模过程中,在存在两份建模数据集(目标数据集、辅助数据集)的前提下,通过迁移学习的方式,来调整两份样本中每个样本实例的权重,通过每一轮的迭代,使得目标数据集中的错分样本权重提高,同时使得辅助数据集中的错分样本权重降低;如此,使得辅助数据集中有用的样本可以为建模集所用,而无用的样本从建模集中剔除,来实现建模数据样本的调整。
该工具是否真的能通过迁移学习的方法改善建模效果?萨摩耶数科举了一个项目实例:
此项目模拟了两个数据集用迁移学习方式改善建模效果的实例,实际的样本构成如下表所示:
最终建模效果如下图所示,在相同的跨时间建模样本上验证模型效果,KS从0.328提升到0.406,效果有了非常显著的提升。尽管两份数据集的正样本比例有着巨大的差距(图1所示),但迁移学习可以在迭代的过程中消除这种差异,将可用数据为建模数据集所用。
从此项目实例可以看出,迁移学习在金融领域大有可为,而萨摩耶数科就是这项技术的先行者之一。
经过了十余年的发展,金融科技已经走过了一个完整的周期,大浪淘沙之下,穿越周期的企业很少,其中就有萨摩耶数科的身影。“穿越周期需要终局思维”萨摩耶数科董事长林建明曾如此说。
萨摩耶数科的终局思维体现在哪里?就在诸如迁移学习等人工智能技术上。截止2021年Q1季度,萨摩耶数科知识产权申请(专利、商标、著作权)418个,行业获奖超50项。
6月初,智源研究院理事长张宏江一次活动上指出:在智能化时代,AI已经像电力一样变成无所不在的能力,数据已经像燃料一样变得随处都需要。
诚然,人工智能早已不再是局限于围棋上的阿尔法狗,它与我们的生活联系越来越紧密,若说AI是“电力”,数据是“燃料”,那迁移学习这类技术是什么呢?在萨摩耶数科看来,它是人类在提升“燃料”使用效率的探索,就像人类对内燃机的改进和研究。