太阳城娱乐-太阳城娱乐官网

登录 | 注册
主页 > 太阳城娱乐官网 > 正文
广告位-100%*70 唯一官网:www.crjwz.com
广告位-100%*70 唯一官网:www.crjwz.com

周以真:因果推断中大数据与AI如何赋能营销决策

admin 2019-09-06 20:04 太阳城娱乐官网
广告位-100%*70 唯一官网:www.crjwz.com
广告位-100%*70 唯一官网:www.crjwz.com

“数字化营销”作为一个热词,已成为大部分企业的需求。但是,大数据和AI究竟是怎样影响决策的?背后的原理是什么?

8月28日,深演智能2019中国AI营销年度峰会(MarTech China Conference 2019)在上海召开。会上,哥伦比亚大学数据科学研究院(DSI)主任、美国计算机协会(ACM)会士、IEEE院士周以真,基于因果推断,阐述了大数据与AI如何赋能营销决策。

周以真:因果推断中大数据与AI如何赋能营销决策

 

传统的回归分析只能分析变量的相关关系,却无法识别变量的因果关系。然而对经济学和企业营销来说,找到影响结果的原因却至关重要。因此,有效识别变量间因果关系的新兴研究范式“因果推断”开始兴起。

中国社科院信息化研究中心秘书长姜奇平在《因果关系与大数据》中写道:“如何从相关关系中推断出因果关系,才是大数据真正问题所在。这个问题,被称为因果推断,它是苹果iPhone 6的语音识别和谷歌的无人驾驭汽车技术的基础。”

举例来说,每年游泳馆人流量和冰淇淋销量成明显的正相关关系,但是二者间却不存在因果关系。是由于游泳馆人流量的增加,才导致冰淇淋销量的提升吗?或是因为冰淇淋销量增加,从而导致游泳馆人流量增加?都不是,二者之间的正相关关系是由其共同原因——天气导致的。

一个更加模糊且看起来合情合理的例子是:某案例表明,阅读科学博客越多的人,其科学素养水平就越高,那么二者间是否具有因果关系?许多人可能会误认为是,但实际上二者间可能仅存在着某些双向因果关系。我们无法区分是阅读科学博客越多的人,其科学素养水平就越高,还是科学素养高的人本来就喜欢读博客。那么在此模棱两可的情况下,二者间因果关系的判断可能并不稳健。

这还引申出了一个问题:内生性。研究机票销量与价格的关系时,二者存在双向因果,票价具有内生性。这时,就需要找一种合适的变量来代替票价,这个变量被称为“工具变量”。要选一个与票价相关,而与销量不相关的变量作为工具变量,比如石油价格。

还有一个问题是反事实预测。在探究接受大学教育和不接受大学教育对于个体收入的影响时,只有通过探究同一个体接受大学教育和不接受大学教育两种情况下收入的差距,才能准确识别出大学教育对个人收入影响的因果关系。但是,正如人不能同时踏进同一条河流一样,一个人同时既接受大学教育也不接受大学教育的反事实现象无法观测。

因果推断主要基于反事实预测展开。反事实预测就是提出“如果条件不成立”的假设,预测结果会如何。当X 成立时Y 的结果,与X 不成立时Y 的反事实结果之间有显著差异时,则称变量X 对变量Y有因果关系,反之则没有因果关系。在实验中,在控制其他变量相同的情况下,用实验组和对照组来模拟X成立和X不成立。

周以真举了一个例子来说明因果推断。

比如世界人工智能大会的召开,会提高到上海机票的需求量,那么航空公司该如何进行机票定价呢?

原理是这样的:找出所有影响机票销量的变量——票价、假期、人工智能大会的召开,这些变量的关系可以写成一个函数,其实最为重要的是我们想找到函数中有怎样的因果关系。我们可以通过大数据和AI训练深度神经网络,缩小误差,并在保留的数据上进行验证结果。

首先,给票价找一个工具变量——石油价格。

然后,对票价进行仿真模拟。利用工具变量训练深度神经网络,可以最小化反事实预测误差,并在保留数据上验证结果模型。最后发现,大会的召开对票价具有显著的因果关系。

大数据在因果推断中的另外两个应用是代表性抽样和综合控制。

周以真以预测大选为例来说明大数据与代表性抽样。美国预测大选的时候,一般会由第三方机构对全国公民进行代表性抽样,进行民意调查,来预测大选结果。而通过大数据的应用,可以不用再进行代表性抽样,直接采用非代表性抽样结果。在进行多层回归和后分层后,把每个用户解构,来分析他们单独的特征,比如白人男性18-22岁生活在纽约,男性、生活在纽约这样的特征可以提取出来,在不同类别人群中找到一个有代表性的抽样人群。实验发现,这样预测的结果比传统预测方法更为准确。

关于综合控制的案例,周以真谈到了加州99号提案对吸烟的影响。1998年,加州通过了99号提案,对香烟提高25%的税收,人们想知道99号提案的通过,是否会导致吸烟率下降。但是,也有别的因素可以影响吸烟率。那么,如何判断到底是不是99号提案的原因?答案是把其他49个州综合地作为一个控制组,而无需把每个州作为单独元素,再对比加州实验组。采用综合控制的方法,先看加州的情况,再看其他49个州的情况,最后发现加州的吸烟率下降更为明显,由此这部分可以归功于99号提案的影响。

当然这是过去的例子,近期哥伦比亚大学在研究一个强大综合控制的方案,即便在有缺失数据、噪声数据的情况下,也可以采用这种方案,这个强大综合控制方案所追踪的结果,跟之前的综合控制结果是吻合的。它是一个多变量的强大综合控制工具,可以纳入更多的变量和维度。

推荐您阅读更多有关于“”的文章

广告位-100%*70 唯一官网:www.crjwz.com
广告位-100%*70 唯一官网:www.crjwz.com
广告位-100%*70 唯一官网:www.crjwz.com
广告位-100%*70 唯一官网:www.crjwz.com
热门浏览
热门标签
推荐文章
    广告位-303*303 唯一官网:www.crjwz.com