利用机器学习,深度挖掘数据并反欺诈
数据架构 2019年 03月 22日55 英国分公司总裁 Richard Wheaton 通过本文概述了如何使用机器学习识别欺诈,并给出了相关的起步建议。
说起数字广告的效能,假如我们发现某个测量值完美到难以置信的程度,那么这背后很可能有问题。所以,我们应该仔细研究一番,以判断其真假。例如,如果您正在进行一项年度促销广告活动,发现视频购买远超预期和业内均值,那么在重新预定库存前,不妨深度挖掘一下相关数据,您会对挖掘出来的结果惊叹不已!
在数字性能媒体方面,惊人的参与率往好的方向想往往是未曾识别的监测错误而造成,而往坏的方向想,那就是欺诈。“点击”通常都不是真人完成,也不是观看者真的参与其中,相反更有可能是机器人完成,或是点击农场哄抬指标,导致不按照科学原理思考问题的客户和机构因为一两个极好的响应测量值而高估了媒体效能。
机器学习如何识别欺诈模式
IAS 和 MOAT 这一类平台的监测欺诈的能力极强,它们既可用于核实广告是否真的在浏览器上进行了投放和被观看,也可标记出例如广告堆叠和机器人骗流量的欺诈性活动。然而,由于广告欺诈给广告主们造成每年将近140亿英镑的损失,相当于欺诈产生了同样金额的收益,所以新的欺诈手段获得的投入远远高于 IAS 和 MOAT 等类似平台所能提供的应对措施。而机器学习可用于弥补以上平台工具产出的欺诈报告的短板,确保您可以尽可能尽职地核实您的媒介购买质量。
反欺诈活动应当着重识别各类趋势和模式,并深度识别异常模式。特别要指出的是,客户和媒介代理机构对自身的媒体活动熟悉程度远胜于旁人,因此也最适合识别与广告活动性能和媒体互动相关的异常模式,而机器学习在这一领域大有可为。充分利用内部数据科学资源可以增加一次额外的核准,以确保库存购买的质量,并将媒介支出浪费降至最低。 这一点对于那些运作大型复杂程序购买系统的客户尤为重要。
非监督式机器学习技巧
机器学习可以分为三类:监督式学习、非监督式学习、强化学习。为了识别媒体和电商项目持续运行中出现的异常模式,各品牌应当使用非监督式学习技术,点击率、跳出率和其他站点交互指标都可用于监测预设标准的行为。
就一般性欺诈分析而言,代理机构和品牌应达成一致,精挑细选一批变量,其中涵盖所需的容量、互动和销售率;此外,算法也可以挑选出有效的区间,并添加视觉化较高的热力图,以供决策和报告所用。
这一方法的优点在于计算机可以分析多个测量标准,标出媒体团队未能关注到的异常统计学模式,速度远远快过人工计算。值得一提的是,这一策略并非是要创造一个机器学习怪物来运作媒介购买,而是可以在开展广告活动的过程中就能够产出报告并采取行动,而不是等到广告活动结束几周以后再来识别异常。
设置机器学习的关键要求是标记媒体和网站资产,创建符合品牌需求的广告系列逻辑,并可访问及处理多个查询和数据集的云计算实例,如谷歌云平台。当然,您需要一名数据科学家构建输入和输出,以确保输入和输出与您的商业目标保持一致。实施这项策略将为您带来一次绝佳的机会,限制欺诈,并让您真实了解自家广告效能。