浅谈机器学习之系列二:监督式学习——基于过往数据,预测未来行为

客户体验 2019年 01月 07日

在专题探讨机器学习系列文章的第一篇中,我们已了解了机器学习的主要目的就是借助计算机自动化执行一般性工作。为实现这一目标,机器学习算法根据某个数学模型力求模仿人类学习。

机器学习解决方案可分为三大类:监督式学习、非监督式学习、强化学习。首先来看第一类。

为什么说机器学习并非神奇魔法?

“预测未来数据”这个概念强调的是监督学习,但因为含有“预测”这个字眼,往往被误读。如果有人说,“我手里握着一只绿色水果,近似圆形,直径约7.2厘米,重达152克,内含籽和果核”,您很可能会猜到这是一个苹果。基于童年时期,家长以一种不直接言明的方式教给了你如何辨别苹果的知识,因此对未来数据做出了预测。各种描述性的变量,如重量、形状、颜色等,都可称为“可观测变量”,而判断“这是一个苹果”的事实则是“目标(Target)”。

如果向机器学习算法导入这些变量,并清楚说明水果的名称,则相当于输入了监督式的信息。然后,选取一只你不知道名称的水果,搜集该水果的信息,并将信息输入模型,模型就会根据之前学习的内容预测该水果最可能正确的名称。但模型不可能预知未知的事物,意思是如果只给模型提供了有关苹果和梨的数据供其学习,之后却向其展示了一只香蕉,那么模型是绝不可能猜出这是一只香蕉的!然而,如果给模型提供了足够多新水果的信息,那么它在一秒钟内就能给出正确答案。

应用到数字化营销——最重要的是数据是否合适

只要能搜集到足够多的监督式的过往信息,监督式学习就可以解决许多重大问题。这些过往的数据可从各搜索引擎中获取(遵循特定的提问,搜索引擎可以显示出最匹配的结果,并就搜索提问给出正确的答案等),也可从推荐系统中获取(例如Netflix的影片推荐),还可以从定价或广告归因模型中获取。例如,你想查明用户的社会人口信息,以便调整为实现某个目标而的策略方式。根据足量的标签信息(真实的用户社会人口数据),监督式学习就可以学会目标和网络导航之间的规则,从而推断出对剩余人群的价值。

监督式学习通常也可用于预测用户的行为:她/他在不久的将来会购买产品吗?她/他的流失几率有多大?参考客户长期购买记录或过往流失记录,只要能获取相关有意义的信息,算法就可以学会解释目标的规则。实际上,如果90%的用户因为某个热线服务而流失,但该热线服务并未被记录在案,从逻辑上讲,该算法将无法产出令人满意的结果。

因此,在决定花费数月的精力从事一个机器学习的项目之前,请记住,机器学习并非神奇魔法:算法学会了各种规则,自然会像人类一样将变量与目标关联起来。现在就可以开始思考可采用何种方式来解释感兴趣的目标了,也要核实需要使用的变量是否可得哟!如果变量不可得,则尽力收集这些变量信息,之后再大笔投入时间去探索您的机器学习模型吧。

想了解更多吗?请继续关注我们,后续文章里我们将探讨非监督式学习和强化学习 。

还想再来一杯茶吗?