导读:大数据平台可以分为操作数据存储(ODS)、数据仓库(DW)和数据集市(DM)三层,分别对应着数据清洗、数据管理和数据应用这三个核心功能。

数据架构示意图

数据架构示意图

01 原始数据清洗

操作数据存储(Operational Data Store,ODS),又被称为贴源层,是原始数据经过ETL(Extract-Transform-Load)清洗后存储的位置。ODS通常有如下几个作用。

在业务系统和数据仓库之间做了隔离,将业务系统产生的原始数据备份的同时,保证了两个系统之间数据的一致性。

存储了业务侧的明细数据,方便后续的查询和加工以及报表的产出。

完成数据仓库中不能实现的一些功能,相比于DW和DM层通常使用Hive查询,ODS一般利用更底层的编程语言加工而成,可以实现一些更复杂和更高效的ETL操作。

此外,ODS层保留了大量的历史明细数据,通常约定只能增加不能修改,利用时间分区的方式进行区分。

02 数据仓库管理

数据仓库(Data Warehouse,DW)是企业级数据集中汇总的位置。DW层最大的特点是面向主题,根据不同的主题设计表的结构和内容,这样做的好处是排除了与主题无关的冗余数据,提高了特定主题下的查询和加工效率。

另一方面,数据仓库作为连接原始数据和标签之间的中间层,必须保证数据质量,包括唯一性、权威性、准确性等。

以风控主题为例,DW层中通常会包括授信、支用、还款、催收等一系列数据,方便后期相关标签的计算。另外,还会有一些公用的维度表被存在与DW层平行的DIM层中,这些表通常是一些城市、日期类的字典数据,贯穿多个主题数据。

03 数据标签应用

整个数据平台的最上层是数据集市(Data Market,DM),也是与风控人员联系最紧密的一层。顾名思义,数据集市就是将数据仓库中的主题数据根据不同的业务需要挑选出来,构成特定的业务场景标签。

例如想构建与客户逾期表现相关的标签,只需要将DW层中与还款相关的表抽取出来加工即可,这样不仅结构清晰,还保证了标签计算的效率。

由于DM层的数据标签与业务联系较为紧密,建议在DM层逻辑设计的初期,让更多的业务人员参与进来,这样才能避免后期技术与业务在标签计算口径上不统一的问题。

最后想补充说明的是,由于大数据平台的计算链条较长,且充斥着大量的数据处理步骤,在实际生产中平台的监控和预警机制至关重要,例如对于上下游依赖关系的判断、每个时间分区数据量的监控、邮件和短信报警等,都是把控数据准确性和时效性的必要手段。

关于作者:蔡主希,研究生毕业于哥伦比亚大学统计专业,资深智能风控算法专家。现就职于某具有“全牌照”业务的综合性国际化资产管理集团,负责人工智能算法在金融科技领域的研究和落地。曾任两家头部互联网公司金融部门风控算法专家,以及北京大数据研究院金融研究员。

本文摘编自《智能风控与反欺诈:体系、算法与实践》,经出版方授权发布。

关注中国IDC圈官方微信:idc-quan 我们将定期推送IDC产业最新资讯

查看心情排行你看到此篇文章的感受是:


  • 支持

  • 高兴

  • 震惊

  • 愤怒

  • 无聊

  • 无奈

  • 谎言

  • 枪稿

  • 不解

  • 标题党
2021-03-29 10:46:29
国内资讯 大数据平台构建智慧城市赋能中心
城市大数据平台是城市治理架构中数据层的核心,连接着基础设施层与应用层,核心功能是归集、处理、分析城市数据资源,并支撑上层应用。目前,城市大数据平台已成为智慧城市 <详情>
2021-03-24 11:09:20
大数据资讯 南京启用全国首个大数据政策匹配平台
“政策罗盘”智能化服务平台以企业过往科技申报数据为基础,融合大量企业资质、融资、知识产权等数据形成“企业大数据库”, <详情>
2021-03-15 10:48:43
大数据资讯 央视网推出基层治理大数据平台 打通政务服务“最后一米”
近日,央视网基层治理大数据平台正式上线。该平台是主流媒体全面贯彻落实中央要求加强诉源治理、构建基层治理体系与治理能力现代化建设新格局的一项重大举措,对助推“十四 <详情>
2021-03-02 11:22:59
大数据资讯 日照加快工业互联网和大数据创新发展
近日,日照市出台《关于加快工业互联网和工业大数据创新发展的意见》,积极推动日照市工业互联网发展,加快促进工业数字化转型,支持产业强市。 <详情>
2021-02-23 11:32:30
大数据资讯 国务院反垄断委员会发布指南 大数据杀熟有了判断标准
“反垄断法适用于所有行业,对各类市场主体一视同仁、平等对待,平台经济领域也不例外。” <详情>