博客
关于我
基于Hive进行数仓建设的资源元数据信息统计:Spark篇
阅读量:434 次
发布时间:2019-03-06

本文共 909 字,大约阅读时间需要 3 分钟。

在数据仓库建设过程中,元数据管理是至关重要的一环。根据Kimball的数据仓库理论,元数据可以划分为技术元数据、业务元数据和过程元数据三大类。这些元数据类型为元数据系统的构建提供了坚实的基础。

技术元数据主要涉及数据存储的结构信息、文件路径等技术细节。业务元数据则关注数据之间的血缘关系及业务归属。过程元数据,如表的每日行数、占用存储空间、更新时间等,是数据仓库运维的重要依据。

基于上述元数据分类构建的元数据系统,通常具备以下核心功能:

  • 血缘关系管理

    这些血缘关系主要体现在日常的SQL和ETL任务中,确保数据集之间的关联性和一致性。

  • 大数据集群资源管理

    通过对Spark、Flink、Mapreduce等引擎使用情况的采集和可视化,监控任务的CPU、内存、磁盘IO等资源使用情况。异常情况及高资源消耗的表或业务可以通过可视化界面快速发现并及时处理。

  • 数据同步与权限管理

    该功能涉及数据同步策略的制定及权限管理,确保数据的安全性和高效传输。

  • Hive库表元数据信息统计

    这部分统计包括行数、文件数、HDFS存储大小、最后一次操作时间等指标。通过持续采集这些数据并生成可视化曲线图,数据仓库团队可以及时发现数据规律或质量问题。同时,为业务开发人员提供业务量趋势分析支持。

  • 本文将重点介绍如何利用Spark对Hive库及分区表、非分区表相关指标进行统计。实际生产中,不仅可以通过特定方式及时更新获取Hive元数据,还可以参考Spark底层执行过程,实现自定义业务逻辑。

    需要注意的是,Spark默认不统计文件数,但Hive有此功能。

    Hive和Spark对Hive库表元数据信息统计的主要区别

  • SQL语法支持不同

    Spark支持对Hive分区表进行表级统计,但需指定具体分区;而Hive需要明确指向特定分区进行统计。

  • 统计结果体现不同

    行数统计中,Hive使用numRows,Spark使用spark.sql.statistics.numRows

  • 默认统计项不同

    Spark不统计文件数,Hive默认支持此功能。

  • 这些区别在实际应用中可能导致元数据管理策略的不同选择。建议根据具体需求选择合适的工具进行元数据统计工作。

    转载地址:http://vsvkz.baihongyu.com/

    你可能感兴趣的文章
    OpenCV读写avi、mpeg文件
    查看>>
    opencv面向对象设计初探
    查看>>
    OpenCV(1)读写图像
    查看>>
    OpenCV:不规则形状区域中每种颜色的像素数?
    查看>>
    OpenCV:概念、历史、应用场景示例、核心模块、安装配置
    查看>>
    OpenDaylight融合OpenStack架构分析
    查看>>
    openEuler Summit 2022 成功举行,开启全场景创新新时代
    查看>>
    openEuler 正式开放:推动计算多样化时代的到来
    查看>>
    OpenEuler23.03欧拉系统_安装瀚高数据库企业版6.0.4_踩坑_安装以后系统无法联网_启动ens33网卡---国产瀚高数据库工作笔记002
    查看>>
    OpenFeign源码学习
    查看>>
    OpenFeign组件声明式服务调用
    查看>>
    Openfire身份认证绕过漏洞复现+利用(CVE-2023-32315)
    查看>>
    opengl 深度详解,多重采样时,如何在OpenGL纹理中解析深度值?
    查看>>
    OpenGL 的内置矩阵种种
    查看>>
    OpenGL中shader读取实现
    查看>>
    OpenGL着色器、纹理开发案例
    查看>>
    opengl绘制几何体的函数
    查看>>
    OpenJDK11 下的HSDB工具使用入门
    查看>>
    openjdk踩坑
    查看>>
    openjudge 1792 迷宫 解析报告
    查看>>