大数据大数据更像是个口号,其实没那么神奇-

■ 对话动机

近来,大数据不断被提及,成为了一个热门概念。

企业纷纷宣称自己的大数据能力很强,但网民被推送的“精准广告”常常是没用的垃圾信息处理。中国企业的大数据能力究竟如何?大数据方便了生活,也带来了隐私和安全风险,其边界在哪里?

6月12日,就大数据的热点问题,新京报记者和北京大学光华管理学院商务统计与经济计量系教授王汉生展开对话。

■ 人物简介

王汉生

北京大学光华管理学院商务统计与经济计量系教授,博士生导师,系主任。北京大学商务智能研究中心主任。博雅立方科技有限公司首席科学家。微信公众号“狗熊会”创始人。1998年北京大学数学学院概率统计系本科毕业,2001年美国威斯康星大学麦迪逊分校统计系博士毕业。美国统计协会2014年会士(Fellow)。他主要研究高维数据分析,统计学在电子商务领域的应用等,尤其关注网络数据和位置轨迹数据的统计分析。

■ 核心观点

大数据分析并非新奇概念,大数据能力提升的挑战是随着技术进步而产生的新的数据类型,包括中文文本,网络结构,位置轨迹等,需要建立全新的分析模型;国内行业中,边际利润较低的电商利用大数据发展空间有限,但传统制造业利用大数据前景非常好;国家需要对大数据带来的隐私风险进行规范,需要平衡行业与个体的利益。

大数据更像是一个口号

有些企业赶时髦,强调自己是做大数据的,但其实他们的数据分析能力惨不忍睹

新京报:最近,大数据概念炙手可热,很多企业包括上市公司都在谈大数据。你如何看待大数据这个概念?

王汉生:这不是一个严格的学术定义。它更像是一个口号,一种公共宣传的需要。随着技术的进步,大数据有一定的实质性变化。例如:产生了新的数据类型,达到了一定的量级。但是也有不少被神化的地方。比如原来金融投资的数据就很大,也在实际应用中有体现,只不过当时没有人关注。

新京报:现在很多企业都宣称其数据已经达到一个新的量级。

王汉生:有些企业以前是做物流的,有的是做3C的,现在它们都在赶时髦,强调自己是做大数据的,但其实它们的数据分析能力惨不忍睹。过去是什么样,现在还是什么样。当然也不排除其中有不错的企业,自始至终注重从数据产生价值。

汽车等产业大数据发展空间更大

我看好家具、汽车等这些利润率不错的传统产业,他们未来利用大数据的空间很大

新京报:现在国内宣称大数据能力最强的是电商行业。有报道说电商现在可以做到用户一登录,他们就能判断用户需要什么,从而提前发货,将用户想买的东西送到。现实中有实现的吗?

王汉生:这是很难实现的。对于极小部分购买行为非常有规律的人,他们的购物需求是可预测的。但是在多数情况下,消费者的购买行为是高度不可预测的。个性化推荐存在了这么多年,商品推送变为顾客的购买行为的转化率一般也就百分之几,如果能到百分之十已经是非常高了。毕竟数据分析只是描述市场和消费者的行为,并不会帮助人做决定。

新京报:国内电商现在利用大数据主要还是在商品页面的个性化推送方面。你认为做得如何?

王汉生:页面推送的成本非常低,不涉及物理上的搬运,它的边际成本几乎是零。这方面国内做得越来越好,个别情况下转化率可以做到百分之十。这个过程中不仅仅涉及算法精确问题,还要考虑网站整体的服务质量。

新京报:未来国内电商进一步提升利用大数据能力的空间有多大?

王汉生:我不看好电商行业,因为电商行业的边际利润已经很低了。我看好家具、汽车等这些利润率不错的传统产业,以及基金保险等传统的金融行业。他们未来利用大数据的空间很大。另外一个很大的大数据的利用方向是营销相关的,为中小企业解决广告投放困难的服务。

新京报:怎么利用大数据帮助中小企业解决广告投放难题?

王汉生:中小企业做在线营销优势不大,一个只面向方圆几公里内顾客的咖啡厅没必要到门户网站或者电视台上去做广告,小企业也买不起这样的广告。他们需要精准定位的广告。利用LBS(基于位置服务)工具产生的大数据进行定向营销的空间很大。但现在的问题是,基于用户位置的营销平台越来越多,中小企业筛选成本很高。

“便利”与“隐私”需平衡

隐私保护管得太松,网民隐私得不到保护;管得太紧,企业的创新受限

新京报:尽管大数据潜力巨大,但也给个人和企业的信息安全带来风险。

王汉生:现在我国,甚至全球范围内,法律对隐私保护的界定是不够清晰的,缺乏统一认识的。例如网民在电商浏览商品的记录,是网民的,还是电商的,还是网民和电商共有的?现在无定论。欧洲对个人隐私这方面的监管是非常严格的,但这也限制了欧洲的互联网企业发展。美国对这方面的监管相对松散一些,中国也还在学习摸索的阶段。但隐私保护这一刀切在哪里还没有结论,管得太松,网民隐私得不到保护;管得太紧,企业的创新受限,行业发展受限。所以,我们享受了互联网带来的便利,也需要让渡一些隐私的空间。但是,具体需要让渡多少,需要国家、企业、个人的逐步理解沟通。

新京报:现在数据分析对人的识别可以准确到什么程度?

王汉生:我不确信中国在这方面的这种分析能力。根据公开的文献,在美国只要提供邮编、性别和出生年月,87%的人就可以被独立识别出来。目前企业可以通过一个人的购买行为,识别到独一无二的一个虚拟人,企业可以知道这个虚拟人的很多喜好,但这个人叫什么名字,做什么的,一般情况下,企业还是不知道的。普通的企业,也没有动力去知道。但如果有好事者,把电商获取的数据和其他数据对接,就能识别到具体的人了。所以隐私保护还是非常重要。

新京报:现在智能手机安装的软件,不少都要求获取大量权限,有的甚至要求有监听通话和短信的权限,这些软件对个人资料的大范围收集是有必要的么?

王汉生:我不了解这些行为背后的动机。据我对行业的了解,大多数企业拿回去,啥也干不了。

热门推荐