2021年火山旧版本,带你重温经典,体验不一样的冒险之旅!

Data Catalog:大数据治理的一站式解决方案在公有云上的实践与挑战

Data Catalog 是火山引擎大数据研发治理套件 DataLeap 的核心功能之一,旨在解决大数据生产者梳理数据、数据消费者找数和理解数的业务场景。这篇文章将分享Data Catalog在公有云部署和发布过程中的实践经验、所面临的挑战及相应的解决方案。

Data Catalog作为一种元数据管理服务,不仅收集技术元数据,还更关注在业务上下文与语义的丰富性。它通过支持元数据编目、查找、详情浏览等功能,服务于字节跳动内部几乎所有核心业务线。随着DataLeap作为一站式数据中台套件的推出,Data Catalog的功能也作为对外服务的一部分,正式在火山引擎公有云上发布。

在Data Catalog的公有云之旅中,我们经历了一系列挑战,如网络安全和数据安全、多租户适配、内外部功能一致性以及OpenAPI的支持等。这些挑战需要我们深入思考和探索解决方案。

对于网络安全和数据安全的问题,我们采用了容器服务和负载均衡技术进行基础服务部署和构建。使用网络代理服务解决网络隔离问题,并保证各环节的安全性。在数据安全方面,我们增加了SSL和双向认证的机制,同时利用第三方安全服务实现安全认证。通过这些措施,我们确保了数据的安全性和网络的连通性。

在多租户适配方面,我们借用了Apache Atlas的设计与实现,通过增加JanusGraph Partition Strategy适配实现存储层租户逻辑隔离。这一方案保证了多租户场景下数据的逻辑隔离和安全性。

在保持内外部产品功能和技术实现的一致性方面,我们制定了明确的产品功能标准化规划和技术实现规范。通过统一的代码分支管理、明确的发版规划以及一致性意识和自动化多环境验证的引入,我们逐步减少了内外部的差异和冲突。在这个过程中,我们也明确了长期的发展规划,并为特殊场景定制化功能的通用场景适配做好了准备。对于新的功能和技术方案的设计,我们始终考虑内外部场景并明确兼容方案。同时我们也认识到这是一项长期的工作,需要我们不断地投入时间和精力来保持多环境的兼容性。通过这些措施,我们提高了研发效率和需求交付的准时性。对于OpenAPI的支持问题我们通过调研API网关解决了核心问题支持ToB场景的需求并实现了自动的参数格式转化降低API格式兼容的开发成本。我们始终关注API的安全性和稳定性同时提供详细的API文档方便用户使用并关注用户的需求反馈持续改进和优化产品功能。随着产品在公有云上的持续优化和迭代我们相信DataCatalog将更好地满足客户需求创造更大的商业价值。我们也期待在这个过程中继续学习和成长与合作伙伴一起探索更多的可能性共同创造数据价值。火山引擎大数据研发治理套件 DataLeap 操作指南及实用信息汇总

以下是关于火山引擎大数据研发治理套件 DataLeap 的详细使用文档。这款套件是一站式数据中台解决方案,能够帮助用户迅速完成数据集成、开发、运维、治理等一系列任务,并且提供资产管理和安全保障。

DataLeap 能够帮助数据团队有效降低工作成本和数据维护成本,充分挖掘数据价值,为企业的决策提供坚实的数据支撑。其功能丰富,操作简便,是企业进行数字化转型的得力助手。

如果您对图数据库 JanusGraph 的 Graph Partitioning 感兴趣,可以参考官方文档(docs./advanced-topics/partitioning/)进行深入了解。该文档详细介绍了 JanusGraph 的图分区技术,有助于您更好地理解和应用这一功能。

您还可以深入了解字节跳动构建 Data Catalog 数据目录系统的实践。该实践分为上下两部分,可以通过以下链接获取全文(上):mp.weixin./s/XoZvyU0ME6HS8VpT_1qv3A;(下):mp.weixin./s/dKdtjlUcN-W30ns8xon5iA。这两篇文章详细介绍了字节跳动如何利用 Data Catalog 构建高效的数据目录系统,对于正在面临类似问题的团队具有很高的参考价值。