×

数据 架构 治理 体系 方案

10万字大数据平台数据治理体系和大数据架构技术方案word

jnlyseo998998 jnlyseo998998 发表于2023-03-18 01:27:03 浏览37 评论0

抢沙发发表评论

【版权声明】本资料来源网络,知识分享,仅供个人学习,请勿商用。

【侵删致歉】如有侵权请联系小编,将在收到信息后第一时间删除!

完整资料领取见文末,部分资料内容:

总体技术架构设计

基于企业内部多年的大数据建设实践经验,针对开源Apache Hadoop/Spark框架进行了大量的修复完善及深度优化工作,并自主创新的众多功能和实用工具,易于使用者开发和管理。

XXX医院的数据来源自多个方面,包括内部数据来源以及未来可能第三方数据接入。各类数据的来源方式多样化,包括关系型数据库数据、数据仓库数据、实时数据、文件数据、图片数据等。面对于多种数据接入的需求,大数据平台提供多种针对性的接入方式以及工具,通过分布式消息队列Kafka接入实时数据;通过Sqoop全量或定时增量抽取同步关系型数据库;采用Kettle作为数据抽取管理工具,Kettle提供图形化的界面定义数据抽取规则,并可与其他工具相结合,完成数据抽取的工作流;同时,分布式文件系统HDFS通过FTP Over HDFS提供文件通过FTP传入HDFS的通道;通过Flume提供海量日志文件的聚汇到HDFS的功能。

大数据分析平台从功能架构上分为数据集成套件、大数据计算平台、算法与分析工具组件、平台运维管理组件、数据资产管理组件、数据可视化组件。

一.1.1、 大数据计算存储平台( Hadoop Distribution)

大数据计算平台基于Hadoop、Spark等社区成熟的开源组件为基础,结合行业应用的需求,进行了深度的优化和改造,显著提升平台运行的稳定性和可靠性。平台在提供海量结构化、非结构化数据处理和线性扩展能力外,还具备四方面的特性:统一的资源管理、海量数据集中存储、高效数据处理、平台高可用。

展开全文

大数据平台提供一站式商用大数据分析处理平台,集成Apache开源社区Hadoop 2.6及以上版本,包含HDFS、MapReduce、Hive、HBase、Spark、kafka、Solr、Impala、Storm、Flume、Sqoop、ELK、Kylin等常用组件,组件内核与Apache Hadoop开源社区版本保持兼容性。并提供对以上组件的集中的可视化管理、配置和监控界面。整理制作郎丰利。

一.1.1.1、 海量数据集中存储

通过基于改造后的分布式文件系统HDFS作为存储海量数据的分布式存储软件架构。 HDFS被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS是一个高度容错性的系统,适合部署在廉价的机器上。HDFS能提供高吞吐量的数据访问,非常适合大规模数据集上的应用。HDFS放宽了一部分POSIX约束,来实现流式读取文件系统数据的目的。

HDFS采用master/slave架构。一个HDFS集群是由一个Namenode和一定数目的Datanode组成。Namenode是一个中心服务器,负责管理文件系统的名字空间(namespace)以及客户端对文件的访问。集群中的Datanode一般是一个节点一个,负责管理它所在节点上的存储。HDFS暴露了文件系统的名字空间,用户能够以文件的形式在上面存储数据。从内部看,一个文件其实被分成一个或多个数据块,这些块存储在一组Datanode上。Namenode执行文件系统的名字空间操作,比如打开、关闭、重命名文件或目录。它也负责确定数据块到具体Datanode节点的映射。Datanode负责处理文件系统客户端的读写请求。在Namenode的统一调度下进行数据块的创建、删除和复制。

同时,系统支持多存储层级支持,能够将应用表建立在不同IO读写速度的不同介质上,包括磁盘、SSD固态硬盘、高速闪存卡和内存,其中建立的非易失存储上的数据表在整个系统重启后能保证数据不丢失,能在SSD上提供与内存相近的性能。

一.1.1、 数据资产管理 ( Data Governor)

数据资产管理核心在于有效解决对数据资产进行管理的实践性问题,既帮助企业合理评估、规范和治理企业信息资产,又可以挖掘和发挥数据资产价值并促进持续增值,并符合大数据的跨行业合作趋势。

元数据管理是需要将各系统的信息、设计工具信息、生产平台信息,进行收集并统一管理。提供一个视图,以帮助使用人员了解系统的数据分布、数据关系、业务规则、指标口径等。元数据包括:业务类元数据、技术类元数据。

数据标准化,解决系统之间数据集成的标准,解决跨部门数据分析时数据一致理解,是企业级数据标准,同时也是沟通IT和业务的一致理解。那么标准化需要解决的关键问题:标准制定,标准的执行和控制,标准化问题管理。

数据资产管理核心在于有效解决对数据资产进行管理的实践性问题,既帮助企业合理评估、规范和治理企业信息资产,又可以挖掘和发挥数据资产价值并促进持续增值,并符合大数据的跨行业合作趋势。

篇幅有限,无法完全展示,如需获取完整内容,请转发后私信资料名称。

文章引用的资料均通过互联网等公开渠道合法获取,仅作为行业交流和学习使用,并无任何商业目的。其版权归原资料作者或出版社所有,本文作者不对所涉及的版权问题承担任何法律责任。若版权方、出版社认为本文章侵权,请立即通知作者删除。