我们一直致力于企事业单位、政府机关等行业的网站建设、网络推广、品牌广告设计!
长沙切换城市
TEL:13278865557Add:长沙市雨花区左家塘城南郡B栋倚天阁1010#  详细

当前位置:首页> 行业新闻

淘宝指数是淘宝官方的免费的数据分享平台

日期:2016-29-04来源:浏览:

淘宝指数是淘宝官方的免费的数据分享平台,于2011年年底上线,通过它,用户可以窥探淘宝购物数据,了解淘宝购物趋势。而且产品不仅仅针对淘宝卖家,还包括淘宝买家及广大的第三方用户。同时承诺将永久免费服务,成为阿里巴巴旗下一强大精准的数据产品。
按照数据的流向来划分,我们把淘宝数据产品的技术架构分为五层,分别是数据源、计算层、存储层、查询层和产品层。位于架构顶端的是我们的数据来源层,这里有淘宝主站的用户、店铺、商品和交易等数据库,还有用户的浏览、搜索等行为日志等。这一系列的数据是数据产品最原始的生命力所在。
在数据源层实时产生的数据,通过淘宝自主研发的数据传输组件DataX、DbSync和Timetunnel准实时地传输到一个有1500个节点的Hadoop集群上,这个集群我们称之为“云梯”,是计算层的主要组成部分。在“云梯”上,我们每天有大约40000个作业对1.5PB的原始数据按照产品需求进行不同的MapReduce计算。这一计算过程通常都能在凌晨两点之前完成。相对于前端产品看到的数据,这里的计算结果很可能是一个处于中间状态的结果,这往往是在数据冗余与前端计算之间做了适当平衡的结果。
不得不提的是,一些对实效性要求很高的数据,例如针对搜索词的统计数据,我们希望能尽快推送到数据产品前端。这种需求再采用“云梯”来计算效率将是比较低的,为此我们做了流式数据的实时计算平台,称之为“银河”。“银河”也是一个分布式系统,它接收来自TimeTunnel的实时消息,在内存中做实时计算,并把计算结果在尽可能短的时间内刷新到NoSQL存储设备中,供前端产品调用。
容易理解,“云梯”或者“银河”并不适合直接向产品提供实时的数据查询服务。这是因为,对于“云梯”来说,它的定位只是做离线计算的,无法支持较高的性能和并发需求;而对于“银河”而言,尽管所有的代码都掌握在我们手中,但要完整地将数据接收、实时计算、存储和查询等功能集成在一个分布式系统中,避免不了分层,最终仍然落到了目前的架构上。
了解更多长沙网站制作知识,请点击官网http://www.singyu.cn/

你可能还对下面的新闻感兴趣