DataHub:通用元数据搜索和发现工具。
快速上手 | 文档 | 特性 | 路线图 | 常见问题 | 议事厅
简介
DataHub 是 LinkedIn 的通用元数据搜索和发现工具。 要了解有关 DataHub 的更多信息,请查看我们的 LinkedIn 博客文章和 Strata 演示文稿。 您还应该访问 DataHub 体系结构以更好地了解如何实现 DataHub,以及访问DataHub 入门指南以了解如何针对自己的用例扩展 DataHub。
该存储库包含 DataHub 的前端和后端的完整源代码。你还可以了解我们如何同步内部 fork 和 GitHub 之间的变化。
快速开始
- 安装 docker 和 docker-compose(如果使用 Linux)。确保为 Docker 引擎分配足够的硬件资源。经过测试并确认的配置:2个CPU,8GB RAM,2GB交换区域。
- 从命令行或桌面应用程序打开 Docker,并确保它已启动并正在运行。
- 将此仓库克隆并复制到克隆存储库的根目录中。
- 运行以下命令以本地下载并运行所有 Docker 容器:
./docker/quickstart/quickstart.sh
- 此时,您应该可以通过在浏览器中打开 http://localhost:9001 来启动 DataHub。您可以使用 datahub 作为用户名和密码登录。但是,您会注意到尚未提取任何数据。
- 要将提供的样本数据摄取到 DataHub,请切换到新的终端窗口,使用 cd 进入克隆的 datahub 存储库,然后运行以下命令:
./docker/ingestion/ingestion.sh
- 运行此程序后,您应该能够在 DataHub 中查看和搜索示例数据集。
此步骤第一次运行需要一段时间,并且可能很难从组合日志中判断 DataHub 是否已完全启动并正在运行。请使用本指南来验证每个容器是否正常运行。
如果在快速入门过程中遇到任何问题,请参考调试指南。
文档
- DataHub Developer's Guide
- DataHub Architecture
- DataHub Onboarding Guide
- Docker Images
- Frontend
- Web App
- Generalized Metadata Service
- Metadata Ingestion
- Metadata Processing Jobs
发布
有关更多细节,请参阅 发布 页面。 我们在对版本进行版本控制时遵循 SemVer 规范,并对 Changelog 格式采用 Keep a Changelog 约定。
常见问题
有关 DataHub 的常见问题可以在里 这里 找到。
特性和路线图
贡献
我们欢迎来自社区的贡献。请参考我们的 贡献指南 以获得更多细节。我们还有一个用于孵化实验特性的 contrib 目录。
社区
加入我们的 slack 工作区 来进行重要的讨论和发布。你也可以了解更多关于我们过去和即将到来的 town hall 会议。
相关文章及演讲
- DataHub: A Generalized Metadata Search & Discovery Tool
- Open sourcing DataHub: LinkedIn’s metadata search and discovery platform
- The evolution of metadata: LinkedIn’s story @ Strata Data Conference 2019
- Journey of metadata at LinkedIn @ Crunch Data Conference 2019
- DataHub Journey with Expedia Group by Arun Vasudevan
- Data Catalogue — Knowing your data
- LinkedIn Datahub Application Architecture Quick Understanding
- How LinkedIn, Uber, Lyft, Airbnb and Netflix are Solving Data Management and Discovery for Machine Learning Solutions
- Data Discovery in 2020
- Work-Bench Snapshot: The Evolution of Data Discovery & Catalog
- In-house Data Discovery platforms
- A Data Engineer’s Perspective On Data Democratization
- 25 Hot New Data Tools and What They DON’T Do
- 4 Data Trends to Watch in 2020
- LinkedIn元数据之旅的最新进展—Data Hub
- 数据治理篇: 元数据之datahub-概述
- LinkedIn gibt die Datenplattform DataHub als Open Source frei
- Linkedin bringt Open-Source-Datahub