这段时间,没有什么概念比“大数据”更能打动企业家和投资者了。持这一想法的人认为,我们现在能从人们的网上行为和移动电话上收集到大量信息,这使得我们能越来越具体的预测他们的行为以及购买倾向。
但这些假设真的成立吗?彼得·费德就是怀疑者之一。他是美国宾夕法尼亚大学沃顿商学院的消费者分析计划(Customer Analytics Initiative)的负责人之一,同时也是该校一名市场营销学教授。费德在接受记者李·戈麦斯的采访时谈到了一些他的顾虑。
科技创业: 对于技术群体中流行的“大数据”的观点,您会如何描述?
费德:“多多益善”。如果你可以给我更多的客户数据--如果你能获取到他们行为的更多方面、他们与别人的联系、他们的兴趣所在等等--我可以很准确地判断此人的一切。我可以预测他们会买什么、什么时候买、以什么价钱买,以及通过什么渠道买。
那么这种观点到底哪儿不对?
这让我想起了很多在15年前发生在CRM(客户关系管理)领域的事情。当时的想法是:“哇,我们可以开始收集所有这些不同的交易和数据信息,然后,伙计,想想我们能做出的所有预测吧。”但现在随便问问别人,当说到“CRM“时他会想到什么,你会听到“挫折感”、“灾难”、“昂贵”和“失控”。它实际上成了IT界一场轰动的竹篮打水活动。而现在恐怕我们的“大数据”也走的是这条道路。
近来似乎有不少企业都承诺,可以利用一些Twitter上的数据流或Facebook上的评论来做出一些预测:预测股票价格,或产品的市场接受度等等。
这都是信口开河。如果你能给我细致的数据:例如一个人发的Twitter文和此人的交易记录,让我可以看到他们如何互动,这是另一回事。但是,现在不是这么个情况。人们太专注于性感的社交媒体上的东西,追捧的过了头。
有人说,你描述的这种对数据的崇拜,在与移动计算相关的创业公司中很常见。你认为这是真的吗?如果真是这样,这是不是意味着,此后一两年内,会有很多的企业家和风投人要失望了?
每种新的可追踪技术都会引起一场“数据崇拜”,从90年代的电子邮件和网络浏览一直到如今的移动通信和地理定位服务,都是如此。太多的人认为手机是一个“全新的世界”,能提供过去不可想象的对行为的绝妙理解方式。可有许多基本行为模式在这些平台上都惊人的一致。这不代表它们乏味或不重要。但是,有一些基本方法可以帮助我们在移动世界里理解和预测这些行为(因而需要关键数据来完成这些任务),这些方法并不像大家想象的那么激进。
但移动计算不是可以提供某些特别有用的数据吗?比如一个人的位置信息,比如你在某个时刻正在商店购物这一事实。这样的信息似乎是非常有价值的。
一点不错。我不是一个彻底的数据“勒德分子”(Luddite,害怕或者厌恶技术的人)。毫无疑问,新技术将有能力提供许多从前获得不到的真正有用的数据。关键的问题是:这样的数据,我们到底需要多少呢?例如,我们需要一个购物者每分每秒的位置信息吗?把观察到的这一系列情况与其他行为数据(例如,购物者仔细看了哪些商品)整合起来,会不会更有帮助?还是只是因为能够知道这些感觉很好?在顾客的行程结束后,这些数据我们应该保存多少?
一个真正的数据学家会有很好的感觉来回答这些问题,并把部分眼光放在实际决策上。但是,大数据的狂热爱好者可能会说,“全保存下来,你永远不知道什么时候会派上用场,也许将来进行数据挖掘时用得着。”这就是“老派”和“新派”分析师之间的区别。
你应该不反对机器学习吧?这种技术为语言翻译等领域带来了革命性的进步,还带来了像Hadoop这样的新的数据库工具。
我要确保我的博士生们学习所有这些新兴的技术,因为他们都对某些任务至关重要。机器学习非常善于分类,善于把不同东西放在不同的桶里。如果我想知道这个人下次会买哪个品牌的东西,或者他将投票给共和党还是民主党,没有任何东西比机器学习更适合了,而且它始终在不断进步中。
问题是有很多不那么容易“分类”的决策,例如,当要决定“何时”而不是“哪一个”的时候。机器学习在执行这些任务时可能会发生戏剧性地崩溃。掌握机器学习和数据库管理之外的多组技能,是非常重要的。但许多搞“大数据”的人不知道自己的盲点所在。
你似乎认为,有些数据学方面的最出色工作在很久以前就完成了。
行为预测的黄金时代出现在40或50年前,当时的数据非常稀缺,企业不得不尽可能的从有限的数据中挖掘出尽量多的启发。
想想莱斯特·旺德曼(Lester Wunderman),他在20世纪60年代创造了那句“直销”。他搞的是真正的数据学。他说过,“让我们把所知道的一切关于这些消费者的内容写下来。他们买了什么,我们送了什么商品目录,他们为哪些商品买了单”。这是很困难的,因为他没有一个Hadoop集群为他干活。
那他发现了什么?
他(和其他老派的直销商)留给我们的是强大依旧的RFM分析法:最近一次消费(R),消费频率(F),和消费金额(M)。
其中“F”和“M”是很浅显的,并不需要什么科技。“R”的部分最有趣,因为它并不那么显而易见。最近一次消费或最后一次交易的时间,甚至不见得应该位列这三大关键测量值之一,更别说名列榜首了。但研究发现,最近有过购买经验的客户,即使买的不多,也比很久不活跃的客户更有价值。这非常令人惊讶。
有些古老的模型真的很惊人,即使到了今天也是如此。向任何从事直销的人询问RFM,他们都会说:“说点我不知道的吧。”但如果你问任何一个电子商务业的人,他们很可能会不知道你在说什么。或者他们会使用很多大数据,并最终重新发现一套新的RFM,而且可能还不如原版好用。
大数据和数据学家看上去好像很受尊敬。
在投资界有“技术图表派”。他们眼看着(股票)价格弹上去又跌下来,落到所谓30块钱的“阻力位”或20块钱的“支撑位”。这些人光盯着数据,却并没有为这些变化和活动的原因提出一个基本解释--比如,其实股价的变化和公司的管理质量有关。
在金融学者中,图表派往往被视为庸医。但很多搞大数据的人和他们完全一样。他们说:“我们只是盯着数据寻找模式,然后在发现模式之后再采取进一步行动。”简言之,我们称之为“数据学”的东西里没什么真正的科学含量,这是一个很大的问题。
有没有哪个行业在这方面做得比较好的?
有,保险业。精算师可以很有信心的说出跟你特征相同的人中,能活到80岁以上的人的比例。但是,他们绝对不会预测你何时离世。他们知道界限在哪里。
哪怕对过去的行为了如指掌,我们也往往没有足够的信息来对未来做出有意义的预测。事实上,我们掌握的数据越多,就会生出越多虚假的信心。我们的预测准确率不仅不会完美,还将低的出奇。作为科学家和商人,最重要的是了解我们的局限所在,并用使用最合适的科学来填补空白。全世界的所有数据都无法为我们实现这一目标。