腾讯自曝:大数据平台的秘密

首先向搞数据工作的同行们表示敬意,兢兢业业做数据不容易,把数据做出成效更不容易。当年在腾讯做产品,还是在飞亚达办公,经常跑上飞亚达10楼的数据平台部探索数据寻求支持。记得那时接口业务数据的小姑娘是annazhao,不知道是否还在腾讯数据平台部。

第一篇讲述腾讯内部大数据平台的文章。首先向搞数据工作的同行们表示敬意,兢兢业业做数据不容易,把数据做出成效更不容易。当年在腾讯做产品,还是在飞亚达办公,经常跑上飞亚达10楼的数据平台部探索数据寻求支持。记得那时接口业务数据的小姑娘是annazhao,不知道是否还在腾讯数据平台部。


腾讯分享日,是个了解腾讯,了解中国互联网的好机会,相对那些高大上的高峰论坛,相对那些大佬的巅峰对话,腾讯开放日的分论坛更接地气,分身乏术,我仅仅听了大数据分论坛。


大数据,这个词越来越热,很多人都在谈大数据,其实很多张口闭口大数据的人,或许都不知道数据是如何产生、传递、存储、运算到应用。有段时间,看到一些大数据文章,就感觉纯属凑热闹,小数据都没搞明白,成天扯大数据。大数据,真的不是普通公司可以做的。



早上9点开始到晚上18点,7个小时,都是关于数据的演讲,腾讯、华为、京东、大众点评等公司的数据专家分别讲述各自的数据理论与实践,当天简直是信息爆炸,我用手机拍下200多张PPT,即使原来对数据有些研究,对腾讯数据平台也比较了解,要整理出来和大家分享,也需要一些时间消化整理。

曾经是腾讯内部举办的商业智能日,如今走向开放。

由于周五晚上睡太晚,差不多凌晨5点才睡,当天上午迟到半个多小时。本来以为会打瞌睡,没想到聚精会神听了一天,或许是源于兴趣吧而带来的专注。
腾讯数据平台的思路,早已熟悉,这次算复习,再次感受腾讯数据平台的成长,技术性已经是领先水平,在产品与业务发展的指导与支撑并转化为生产力方面,仍有非常大的想象空间。
当天几家公司的大数据应用,相对局限于个性化推荐,例如广告精准投放、推荐商品、推荐用户、推荐应用等等。或许,国内的大数据应用由于商业公司功利性的限制,当天几家演讲的公司,大数据的商业化目标明确,而精准个性推荐是其中最有效的手段。


腾讯大数据现状


IBM将“大数据”理念定义为4个V:大量化(Volume)、多样化(Variety)、快速化(Velocity)以及产生的价值(Value)。我们可以从这几个方面一起看看腾讯大数据现状。

从业务角度

腾讯数据真的够大。腾讯数据平台自研的TDW替换了商业数据库,实现公司级数据集中存储,总记录达到375万亿跳,日接入5千亿条,覆盖移动设备数7.7亿。


从平台角度看

腾讯数据平台从设备8400台,单集群5600台,总存储100PB+;日新增数据200TB+,月数据增长率10%,日均JOB数100万,日均计算量5PB,量够大,速度也够快。


从用户角度看

这里的用户,指的是腾讯内部员工。腾讯员工2万多人,腾讯数据门户的月活跃是2500左右,也就是说访问腾讯数据门户的人占比公司10%+;每月处理数据提取分析的任务数是1万个,如果访问者每人都会提数据任务,平均就是一个人提4个左右的分析提取任务;用户画像分析任务为1.2万,可以看出腾讯对用户画像的重视程度。

腾讯大数据的多样性

下面的图,腾讯数据平台已经接入100多个产品的各类数据,例如:用户行为、账号属性、收入数据等等。



腾讯数据平台产品架构


腾讯数据平台从五个方面进行产品设计,分别是:数据管理、数据监控、数据分析、数据可视化、数据挖掘。
这也是我曾经在腾讯、YY语做过的数据产品运营工作的主线,五个方面分别通过各种数据产品落地,为公司内部产品策划、产品运营、产品营收、客服、财务等提供数据支撑。


腾讯业务平台与数据服务

下面这张图非常清晰的阐明了腾讯数据平台的数据服务与业务平台的关系。数据服务的核心是分布式存储、实时计算(TRC)、离线计算(TDW),以数据产品的方式对外呈现于应用,业务平台则考虑用户接入、业务逻辑、关系型存储的工作。


其中,对于海量数据来说,至关重要的是 Gaia高效的资源调度,提供高并发的任务调度与资源管理,为实现秒级的数据监控与实时运算提供保证。

Gaia高效的资源调度




腾讯大数据应用成效

数据成为生产力,支持海量用户产品发展。


腾讯广点通,精准广告投放,

腾讯信鸽——大数据精准移动推送


用户留存率提升100%,用户活跃提升100%

给腾讯信鸽打个广告,网址是:http:// xg.qq.com/



游戏模型,助力手游精细化运营

自助分析

自助报表

黄金眼——快速报表


实时监控



用户画像


最后,附上当天的大数据分论坛讲演列表。