分享嘉宾:杜中伟 贝壳找房
编辑整理:崔文倩 滴滴出行
出品平台:DataFunTalk
导读:贝壳黑灰产实验室,主要偏向研究和溯源。业务与策略对抗,由其他部门进行。因此这里主要介绍贝壳在居住服务行业,黑灰产情报和溯源相关的内容。主要内容包括:① 介绍居住服务行业黑灰产的场景;② 黑灰产情报建设;③ 溯源体系和溯源能力建设;④ 打击取证。
首先和大家分享下居住服务行业的黑灰产现状。
1. 行业服务模式
贝壳是对传统中介进行了互联网产业升级。这个行业的上游是新房开发商和二手房业主(包括买卖和租赁),下游是买家和租客。
居住服务行业的交易平台包括三类:
信息聚合平台:提供信息聚合和匹配功能,服务者和用户之间进行纯线下的联系,平台不做任何保证。好处:平台不针对买家和卖家收取费用;问题:匹配效率、服务质量、房源信息真实度欠佳。
交易平台型:针对一些中介和开发商,定制了一些服务,可以把交易各个环节的服务都引入到线上来,从中收取一定的服务费。
平台自营型:例如贝壳。有线下的服务团队,链家+其他品牌加盟,同时也有线上的服务。
2. 行业灰黑产
居住服务行业的黑灰产,包括传统的互联网黑灰产,也包括一些行业特有的类型。
传统灰黑产,可以分为以下几类:
流量层:流量攻击、爬虫导致的流量风险、重大活动时的勒索(游戏行业比较常见);
设备层:对抗非常激烈,包括虚拟设备、群控、云控设备等;
账号层:垃圾注册、养号扫号、人机对抗等;
业务层:通用的薅羊毛、拉新等;
数据层:针对信息的对抗,例如竞对盗取平台上的客户信息和商机等,例如竞对爬取了新上房源信息。
行业特有的黑灰产,主要围绕人(经纪人)、房(房源)、客(客源)三点来展开:
虚假房源、客源;
私单飞单:成交转移到线下,私自成交;
窃取平台上的房源或者客源;
经纪人绩效造假:经纪人为了达成KPI指标,进行经营绩效作弊;
体外经营:品牌加盟到平台后,实际经营都在其他平台进行,仅仅通过平台来获取资源信息。
对于外部黑灰产,和内部产业链之间的关联,具体展开介绍:
居住平台上的服务流程可以分为3个大流程:房源和客源录入到平台上、经纪人对客房进行回复和带看、买卖家成交以及给经纪人分佣。
外部黑灰产在与居住平台内部的服务流程结合时,能渗透的环节并不多。主要原因是居住行业交易频次低、金额大、且黑灰产能直接获取利益的环节不多,这是和传统互联网不同的地方。
黑灰产主要的直接获利点:参与裂变营销活动,得到优惠券。
主要获利方式:黑灰产养号,通过经纪人作弊,黑灰产间接获利。
外部黑产的工具的应用方式:黑卡物料;专门的团伙,通过一些工具和软件,对物料进行加工;专门的团队,在经纪人群体中进行推广。
3. 典型场景1:C端虚假注册
首先介绍一个典型的作弊场景,C端注册一些虚假的账号,卖给下游的经纪人进行作弊。
上游从卡商和接码平台拿到一些账号后,联合一些黑产工具(例如改机和代理环境),注册生成了账号。号商往往会进行分级代理,其中一级号商进行账号生成,二级号商进行账号销售。售卖方式有两种,一部分账号销售给了经纪人,进行业务中的虚假带看和B端拉新;另一部分销售给了羊毛党,参与C端拉新和营销奖励活动,能够直接产生利益。
具体来讲,整个产业链比较复杂。第一个环节是来自卡商的黑卡和拦截卡,会直接对接接码平台,号商拿到卡后通过各种渠道进行售卖。这些渠道包括贴吧、淘宝、闲鱼等等。
我们对这些外部黑产动态进行了监控,动态监测目前有多少针对平台的黑灰产工具、账号在平台的使用情况,并借助外部工具监控接码平台针对贝壳的接码成本、接码数量。通过监控黑产的产业链和物料价格,可以检测目前我们的黑产攻防做的好不好。如果我们的防护做的比较好,对应的物料价格会上涨。
上下游产业链中的工具,相对来说比较单一。主要是定制并组合了注册、录房录客、接码和打码平台。平时我们要持续对各个环节的工具,进行对抗。
黑灰产的分销渠道,主要有两类,一是通过贝壳C端APP的IM工具,与经纪人聊天,提供推广信息,但是很快会被IM相关的攻防策略拦截,后续黑产迭代到了只发微信信息,再通过微信朋友圈介绍工具明细。另一类是在传统的黑产推广渠道,例如贴吧、电商平台、闲鱼,经纪人在这些渠道找黑产信息。
4. 典型场景2:爬虫软件
爬虫行业非常成熟,技术门槛低,在线上房地产行业对抗弱于互联网其他行业。目前以贝壳为数据源的爬虫已知至少有62款,大部分商业爬虫提供给同业使用者的价格在199至455元/年,价格非常低。
上图是我们检测到的一些爬虫软件,功能非常齐全,而且支持很多平台。爬虫会用于定制服务,一键抓取线上房源,搬到其他平台。
爬虫的产业链是,软件开发商开发好软件后,一部分直营销售,另一部分代理销售,通过VIP服务,销售给经纪人。爬虫公司内部的核心是销售和财务团队,技术团队相对比较简单,分为破解组、数据组、产品组。破解组人一般不会太多,2~3个人就够了,而且一次破解后可能2~3年都能继续使用。数据组在破解的基础上,进行数据的采集和加工。
爬虫的主要危害:
实时从平台获取了商机;零成本获取了平台的信息,有些平台甚至连水印都不去掉,直接使用,结合线下信息撮合了成交,为平台带来了很大损失。
有些爬虫利用了平台漏洞或者未公开功能,获取了经纪人手机号,可以用于其他用途,侵犯了公民个人隐私。
爬虫侵占了大量的流量和服务资源。
下面,重点分享下对抗黑灰产的主要措施。
1. 情报使用流程
主要包括情报收集、信息加工、情报溯源和处理。与传统互联网风控对抗不同之处是,除了关心外部黑灰产对抗外,贝壳更多关注经纪人内部的情报,需要收集经纪人一线的黑灰产情报。
情报采集的架构分为三层:
第一层是情报采集,一类来自城市举报,包括泄露case、违规工单、专门采集的线索。另一类来自外部监控,比如羊毛论坛、贴吧等,了解外部黑灰产在技术、工具、数据上的情况。还有一类是内部监控,SRC的白帽子情报,反爬部门的情报信息,终端采集的数据等。中间涉及的业务类型,都通过情报采集层进行了覆盖。
第二层是溯源处理,我们更多专注在经纪人的账号、设备、业务操作层面的数据。对这些信息进行加工,进行情报溯源。最终我们的输出是,情报高危黑名单,以及手机号、设备的黑库,和作弊工具库。
第三层是使用运营,主要联动的业务方是执法部门,例如联动职业道德进行打击,或者进行专项的治理、规则优化。另一类是联动风控和产品部门,对典型的风控产品和策略,进行迭代和优化。
这里重点讲一下,我们和传统互联网不一样的内部情报采集。贝壳面向广大经纪人团队,了解作弊方式、作弊时间、作弊人信息。不定期举办奖励活动,将提供线索的经纪人发展为线人,给提供情报的经纪人奖励贝壳币,贝壳币可以用于提高经纪人的曝光率。
接下来介绍第三部分,针对上面采集到的情报,我们如何溯源。
1. 武器库
整体思路是,第一部分是通过最原始人工的方式,收集黑灰产的特征、作弊手法、关联群体。第二部分是在这个基础上,把能固化下来的部分,实现自动化。
武器库具体来讲,在硬件部分,我们购买了黑产使用比较多的设备和软件;我们也储备了一些黑产物料;并且购买了黑产的代理资源,做到IP比较多,可以进行切换;采集了内外部的情报;并进行IP画像、获得了企业溯源的资源。
2. 溯源技术架构
技术架构上,底层以日志和情报为主,数据层根据各种业务场景抽象出各类规则和策略,再上一层会写一些比较清晰的场景进行抽象。最终溯源出来的结果,会放在存储层,一个是审计平台,一个是风控平台,输出给不同部门进行打击。
举例来说,我们在房源泄露场景实现了自动溯源。接到了房源泄露的线报后,首先我们排查是否已知场景发生泄露,会先在已知场景的规则和模型里跑,定位到泄露时间和泄露人。如果是未知的泄露场景,我们会结合泄露的时间和周期,定位到异常数据,模糊定位到可能的泄露房源,找到这个未知的泄露渠道。最后我们会根据各维度特征,看设备环境是否异常、是否有ROOT、是否装了黑产工具、WiFi打点位置是否异常、账号历史上有么有其他泄露行为、是否存在100次浏览1次带看等。根据不同维度的数据异常情况,算出经纪人的泄露风险值,,最终找到高危的经纪人列表,由线下调查团队进行核实。
我们把整个打击分为溯源、分析、报案、取证、打击五个阶段。
溯源阶段:需要通过日志、行为、样本,明确作弊手法、作弊工具。
分析阶段:明确罪名,目前主要3个罪名,一个是侵犯公民个人信息,第二个是非法获取计算机系统,第三个是破坏计算机系统。可以看一下具体的司法解释,贴合条款写方案材料。
报案阶段:需要一些有法务工作经验的同事,写作方案书。与警方进行初步的沟通,尽量用通俗的语言解释作弊情况。并提交相应材料。
取证阶段:警方会指定第三方鉴定所,进行取证。基本的取证流程有固定的时间和地点,进行录屏。
抓捕阶段:关键的是需要技术人员配合,现场抓捕,需要当场抓获一些工具和数据。需要的话,在抓捕后的审讯阶段,也要配合警方诉讼。
Q:黑产使用宽带的人多吗?
A:我们没有特别去计算宽带和4G的比例,主要是定位是否有一些特别的UA,根据爬虫行为这些固定的特征来定位问题。
Q:溯源激励和区块链有比较大的关系,目前有没有使用区块链?
A:目前还没有和区块链结合,未来场景合适的话可以考虑。
在文末分享、点赞、在看,给个3连击呗~
分享嘉宾:
活动推荐:
2022年02月19日,由英伟达、中电港联合举办的《深度学习推理优化与部署实践》技术分享,邀请英伟达、京东科技、vivo技术大咖,围绕“如何给深度学习加速?”为大家带来系列分享,感兴趣的小伙伴可识别下方海报二维码进行报名。
关于我们: