起底电商平台背后爬虫产业链:淘宝12亿条数据泄露

一年一度618电商盛宴,在买买买的同时,“如何省钱”成为大家最关心的问题。比价、返利、优惠券都是消费者在网购时的刚需。

但在这些“优惠”背后已产生灰色地带,爬虫由于成本和门槛较低,成为黑产常用的技术手段。

返利平台非法爬虫获取淘宝用户个人数据

近日,河南省一则裁判文书揭开了部分淘宝返利平台的黑幕

不法分子爬取淘宝客户个人信息近12亿条,用于自身“淘宝客”业务,在微信群中进行淘宝商品的推广,从而获得淘宝网佣金商家服务费

裁判文书显示,2019年以来,被告人逯某受雇于被告人黎某,逯某在其家中利用自己开发的爬虫软件,通过淘宝网页接口爬取淘宝客户的信息,并将其中淘宝客户的手机号码提供给黎某开设的浏阳泰创网络科技有限公司(下称“浏阳泰创”)用于经营活动,该公司从2019年8月至2020年7月非法获利为395.26万元。

司法鉴定,逯某通过其开发的软件爬取淘宝客户数字ID、淘宝昵称、手机号码等淘宝客户信息共计11.8亿条,逯某将其爬取信息中的淘宝客户手机号码通过微信文件的形式发送给黎某使用,共计1971.26万条。

2020年8月,淘宝(中国)软件有限公司报警称,2020年7月6日至13日之间,有黑产通过mtop订单评价接口绕过平台风控批量爬取加密数据,爬取字段量巨大,7月6日至13日之间平均每天爬取数量500万,爬取内容包括买家昵称、用户评价内容、昵称等敏感字段。经淘宝网站排查,逯某有重大作案嫌疑,方案发。

证人证言证实,浏阳泰创主要业务是淘宝客,在微信群中进行淘宝商品推广,从而获得淘宝的佣金和商家服务费。2019年起,逯某利用自写软件爬取淘宝客户信息后,不定时将公司需要的淘宝客户手机号码发送给黎某,黎某在收到手机号码后将信息数据导入“微信加人”软件,加微信好友成功后,由公司员工负责发送广告链接,用户在广告群中购买商品,公司从中获得佣金。

多位证人对于微信群总数的描述不一,根据其描述,最多可达1100个群,每个群人数在90人到200人之间不等,按此粗略计算,使用浏阳泰创建立返利平台的用户人数至少10万人。浏阳泰创平台在一年间获得经营额超过395万元,违法所得超过34万元。

返利平台“惠”了谁

目前国内返利平台众多,从不同电商平台来看,阿里巴巴自营“阿里妈妈”平台、京东自营“京东联盟”平台等都是电商自营的大数据营销平台;从业务通道来看,涉及网页端、APP客户端、微博、微信等多种渠道。

记者下载体验了阿里巴巴自营平台“阿里妈妈”的返利模式。用户可以在淘宝联盟注册成为“淘宝客”,复制想要推广的商品链接,可以从淘宝联盟后台获取专属推广链接,任何买家复制该推广链接进入店铺完成购买后,推广的用户可以获得卖家按一定比例支付的佣金。

简单来说,返利平台实际上是营销推广平台,电商平台的商家从销售额中按比例支付佣金,其中一部分以优惠券链接的方式给到消费者价格优惠,另一部分支付给返利平台或个人作为营销推广费用。在消费者自认为从返利平台获得优惠券得到实惠的同时,返利平台也通过赚取商家分佣获利,赚得钵满盆满

一些头部的返利平台已进军资本市场,例如今年1月,“淘粉吧”也进入上市辅导阶段,拟在A股挂牌上市,5月,返利网数字科技有限公司(SH.600228)借壳昌九生化上市。

电商平台爬虫拉锯战

爬虫对电商平台的威胁由来已久。

据记者了解,目前针对电商平台的爬虫行为主要有商品详情页爬虫、用户隐私数据爬虫、交易数据爬虫等三大类,其中商品详情页爬虫是许多比价平台的惯用技术手段

业内人士指出,目前电商平台最敏感的爬虫行为就是对商品详情页的爬虫,尤其是价格数据,一方面友商之间始终在采取各种手段互相爬取数据,另一方面有黑产利用各平台之间差价牟利

维择科技系统架构师赵晓彪告诉记者,一些比价平台通过爬取电商平台商品详情页面数据,为网站平台引流,再通过流量变现获利,这并非长久之计。在未来电商平台反爬虫技术逐渐完善后,将面临技术与合规方面的压力。

据悉,近两年来,针对数据安全保护,国内一些大厂已成立了团队研究相关问题,具体包括数据存储安全、计算安全、传输安全等三个方面。针对电商平台的爬虫与反爬虫技术处于相互演进、相互促进的长期拉锯阶段。

目前电商平台已采取措施,通过限制访问次数、前端页面展示加密、提高人机识别技术等拦截识别黑产,提高黑产作恶成本。

值得关注的是,近期全国各地加快数据立法,例如,在此前深圳发布的数据条例征求意见稿中,明确了数据公平竞争原则。

这意味着未来电商平台数据爬虫将面临更高的违法成本。

据征求意见稿规定市场主体不得使用非法手段破坏其他市场主体所采取的保护数据的技术措施;不得违反行业惯例收集或者利用其他市场主体数据;不得利用非法收集的他人数据提供替代性产品或者服务;不得未经其他市场主体或者消费者同意,将其他市场主体的数据直接进行商业利用;不得采取法律、法规规定禁止侵害其他市场主体或者消费者合法权益的其他行为。