Skip to content

这个平台旨在提供一个高效、便捷的数据处理和分析环境,适用于数据科学家、数据工程师以及任何对数据处理有需求的用户。

License

Notifications You must be signed in to change notification settings

642933588/dataworks

Repository files navigation

数据开发平台

该项目整合了多款优秀的开源产品,构建了一个功能全面的数据开发平台。平台提供了强大的数据集成、数据开发、数据查询、数据服务、数据质量管理、工作流调度和元数据管理功能。dinky ,dolphinscheduler ,datavines ,flinkcdc ,openmetadata ,flink ,数据开发 ,数据平台 ,数据开发平台 ,大数据

目录

功能

数据质量管理 (Datavines)

  • 数据质量监控:定义和执行数据质量规则,如空值检测、重复值检测、范围检查等,确保数据的准确性和完整性。
  • 告警和通知:当数据质量出现问题时,Datavines 通过电子邮件、短信等方式发送告警通知,确保相关人员能够及时响应和处理问题。
  • 数据治理:支持数据分类、标签和权限管理,确保数据的合规性和安全性。
  • 数据质量报告:生成详细的数据质量报告,帮助用户了解和改进数据质量。

工作流调度 (DolphinScheduler)

  • 分布式架构:处理大规模的数据处理任务,确保系统的高可用性和扩展性。
  • 任务依赖管理:定义复杂的任务依赖关系,确保任务按照预定的顺序执行。
  • 丰富的任务类型:支持多种类型的任务,包括 Shell、Python 脚本、SQL、MapReduce、Spark、Flink 等。
  • 可视化工作流设计:提供直观的图形化用户界面,通过拖拽方式设计和配置工作流。
  • 任务调度:支持灵活的调度策略,包括定时调度、依赖触发、手动触发等。
  • 任务监控与告警:实时监控任务的执行状态,并提供告警通知功能,确保问题及时处理。
  • 资源管理:管理任务所需的资源,确保资源合理分配和使用。

元数据管理 (OpenMetadata)

  • 元数据管理:捕获和存储各种数据资产的元数据,包括表、列、数据集、仪表板、机器学习模型等。
  • 数据发现:提供强大的数据发现工具,帮助用户搜索和发现企业内的数据资源。
  • 数据血缘分析:支持详细的数据血缘分析,显示数据的来源和流向,提高数据透明度。
  • 数据治理:定义和执行数据治理策略,包括数据分类、标签、访问控制、合规性检查等。
  • 数据质量管理:与 Datavines 集成,监控和管理数据质量,检测数据中的错误和异常。
  • 集成与互操作性:支持与多种数据源和数据工具的集成,适应多样化的数据环境。
  • API 和 SDK:提供丰富的 API 和 SDK,支持开发者扩展和定制功能。
  • 可视化界面:提供用户友好的可视化界面,便于浏览和管理元数据,查看数据血缘关系图,配置数据治理策略等。

实时数据处理 (Dinky)

  • 实时数据处理:Dinky 提供了强大的实时数据处理能力,支持 Flink 等流处理框架。
  • 实时计算任务:用户可以定义和执行实时计算任务,处理实时数据流。
  • 数据集成:支持多种数据源和目标,能够将实时数据流集成到不同的数据系统中。
  • 可视化开发:提供直观的图形化界面,用户可以通过拖拽方式设计和配置实时计算任务。
  • 监控与告警:实时监控数据流处理状态,并在出现异常时提供告警通知。
  • 高可用性:设计了高可用性和容错机制,确保实时数据处理的稳定性和可靠性。

数据集成

  • 多数据源支持:支持多种数据源的集成,包括数据库、API、文件系统等,能够灵活应对不同的数据来源。
  • 多执行引擎支持:支持多种执行引擎,包括 DataX、Sqoop、Flink CDC,满足不同场景的数据同步需求。
  • 全库同步:支持整个数据库的同步,方便全面的数据迁移和复制。
  • 多表同步:支持多表同步,简化复杂的数据集成任务。
  • 全量和增量同步:提供全量和增量同步功能,实现数据的一体化同步。
  • 断点续传:支持断点续传机制,确保数据集成过程的可靠性和稳定性。

数据查询

  • 灵活高效的数据查询:基于 Kyuubi 提供灵活高效的数据查询功能,支持 SQL 和非 SQL 查询,满足各种数据检索需求。
  • 多数据源支持:支持多种数据源的数据查询,适用于不同的数据存储系统。
  • 高性能:优化的查询引擎,确保数据查询的高性能和低延迟。

数据分析

  • 集成多种数据分析工具:集成多种数据分析和可视化工具,帮助用户快速获取洞见。
  • 可视化分析:提供丰富的可视化组件,用户可以通过图表、仪表板等方式展示分析结果。
  • 高级分析功能:支持机器学习模型、统计分析等高级分析功能,满足复杂数据分析需求。

数据服务

  • 数据服务接口:提供数据服务接口,支持 RESTful API 和 GraphQL,方便数据的对外提供和集成。
  • 灵活的数据访问:通过 API 提供灵活的数据访问方式,满足不同应用和系统的集成需求。
  • 高可用性和安全性:设计了高可用性和安全性机制,确保数据服务的可靠性和数据的安全性。

架构

架构图

安装

(详细说明如何安装和配置各组件,包括前置条件、步骤和示例配置文件)

演示

首页

0

系统管理

0-0

数据开发

0-0 0-1 0-2 0-3 1-0 1-1 1-2 2-0 3-0 4-0 5-0 5-1 5-2 6-0 6-1 6-2 6-3 6-4 6-5

工作流开发

0-0 0-1 0-2 0-3 0-4 0-5 1-0 2-0 3-0 4-0

数据质量

0 1 2 3-1 3 4 5 6 7 8

数据资产

0-1 0-2 1-1

1-2 1-3 1-4 1-5 1-6 1-8 1-9 1-10 1-7 2-1 2-2 2-3 3-1 4-1 5-1 6-1 9-1 9-2

贡献指南

我们欢迎任何形式的贡献!如果你有好的建议或发现了问题,请提交一个 Issue 或 Pull Request。 提供或赞助云服务器资源搭建云学习环境。

许可

本项目采用 MIT 许可证。详情请参阅 LICENSE

联系我们

WechatIMG182

image

About

这个平台旨在提供一个高效、便捷的数据处理和分析环境,适用于数据科学家、数据工程师以及任何对数据处理有需求的用户。

Topics

Resources

License

Stars

Watchers

Forks

Packages