扫码加钉群 十万创业者 与你为伴

小打卡基于大数据产品实现离线数仓架构

小打卡基于大数据产品实现离线数仓架构。

案例背景

小打卡致力于帮助用户成为更好的自己。目前,已为3000万用户提供体验服务3.4亿人次,内容消费7.4亿人次。
在小打卡上线初期,业务分析所需的数据主要是通过查询mysql库表。
现在,小打卡的主要业务分析需求,包括业务报表,用户行为分析,A/B/n实验评估,个性化推荐,数据服务等全部是借助于阿里云的大数据平台来满足。

选择阿里云大数据产品的原因:

1.成本低
享用阿里云超大规模的云计算资源,按照实际需要采购存储和计算资源。
企业无需组建专门的大数据平台部署和运维团队,在业务发展初期,极大的降低了拥有大数据平台的各项成本。
2.效率高
企业通过阿里云官网了解并采购所需的大数据产品,快速搭建适合业务的平台架构
阿里云大数据提供开发生产环境隔离的集成开发环境,以及完善的调度/监控/数据管理等工具能力,提高数据仓库的开发效率
企业可以快速构建大数据平台的功能模块,快速相应业务需求
3.性能按需采购
阿里云大数据的I/O及计算能力弹性伸缩,可以支持TB/PB/EB级数据规模,千万级别复杂任务调度和万兆的网络同步速率。
4.安全
阿里云大数据提供云上数据的安全,以及企业租户之间的安全隔离,大数据项目不同角色的权限管理和各种数据资源的权限管理。

大数据实践

小打卡基于阿里云大数据产品实现的离线数仓架构:

image

面向小打卡的各项业务场景,所需的基本产品搭配:

1.用户行为分析 :DataWorks + 数据集成 + MaxCompute + Quick BI
2.数据化运营:DataWorks + 数据集成 + MaxCompute + RDS
3.线上数据服务:DataWorks + 数据集成 + MaxCompute + OTS/API网关
4.推荐系统:DataWorks + 数据集成 + MaxCompute + PAI + OSS

  • 实践case:

1.业务分析需求:监控每小时访问小打卡小程序的新增用户数及活跃用户数
2.阿里云大数据产品搭配:DataWorks + 数据集成 + MaxCompute + Quick BI

- DataWorks:DataWorks(数据工场,原大数据开发套件)是阿里云数加重要的PaaS平台产品,提供数据集成、数据开发、数据管理、数据治理、数据分享等全方位的产品服务,一站式开发管理的界面,帮助企业专注于数据价值的挖掘和探索。

- MaxCompute:大数据计算服务(MaxCompute,原名ODPS)是一种快速、完全托管的EB级数据仓库解决方案。
数据集成:数据集成是阿里集团对外提供的稳定高效、弹性伸缩的数据同步平台。致力于提供复杂网络环境下、丰富的异构数据源之间数据高速稳定的数据移动及同步能力。

  • Quick BI:uick BI是阿里云旗下产品,是一个基于云计算致力于大数据高效分析与展现的轻量级自助BI工具服务平台。

3.用2-3个工作日,快速搭建大数据平台:

步骤一:注册阿里云账号,开通DataWorks及Quick BI
步骤二:快速建设数仓

1)在DataWork控制台创建工作空间
小打卡将原始数据的采集层和中间公共数据的加工层分别部署在独立的项目中。


image


image

2)DataWorks平台中集成了数据集成和MaxCompute等大数据产品,可以一站式的开发。


image

在DataStudio(大数据集成开发环境工具)中建设数据仓库,创建业务流程,物理模型,数据集成任务及ETL任务。

业务流程帮助企业总结业务的一般流程,来有效组织相互依赖的数据流,数据集成任务,ETL任务,数据表和UDF等其他资源。


image

数据集成可以帮助企业从异构数据源采集数据并沉淀到数据仓库

阿里云的数据集成提供丰富的数据源支持:

  • 文本存储(FTP/SFTP/OSS/多媒体文件等)

  • 数据库(RDS/DRDS/MySQL/PostgreSQL等)

  • NoSQL(Memcache/Redis/MongoDB/HBase等)

  • 大数据(MaxCompute/AnalyticDB/HDFS等)

  • MPP数据库(HybridDB for MySQL等)


image

继续在DataStudio中开发物理模型和ETL任务。


image


image

发布任务流程,并在运维中心中调度和监控


image

3)将数据接入Quick BI,交付业务部门使用。

目前由于小打卡分析业务的团队规模较小,仅有10-20人的规模,所以当前的架构是直接读取MaxCompute中的数据。这样做的好处是省钱,非常省钱,部署也是非常的快速。

但是缺点则是查询速度较慢,只能维持在秒级,且报表的查询并法度有瓶颈。后续随着分析团队规模的增加,会适时的优化架构,引入分析型数据库产品ADB来提供毫秒级的速度和高并发的查询性能。


image

云栖号案例库:【点击查看更多上云案例】
不知道怎么上云?看云栖号案例库,了解不同行业不同发展阶段的上云方案,助力你上云决策!