今年的会议在新奥尔良举行。与往届一样,我们学到了很多关于分析工程领域的知识。.
由 dbt 组织的活动今年又回来了。您可以亲自到新奥尔良参加,也可以在线观看讲座。.
由于 dbt 的采用率正在上升,我们对这次会议充满期待。会议提出了不同的主题,但并不局限于 dbt 的使用。例如,会议讨论了 data 团队的职业发展方向。.
下面是我认为这一期的主要经验,不再赘述:
让我们来详细了解一下。.
终于有了 Python 模型
这无疑是最令人期待的功能。现在,您可以执行 Python 模型了。其行为与 SQL 模型非常相似。.
这项功能改变了游戏规则。我想我们很多人都会遇到同样的问题,由于一两个操作在 SQL 中非常棘手,我们无法端到端地运行工作流。这很痛苦,因为我们需要额外的一层。我们不想在 dbt 和另一个组件之间来回管理这些操作。.
高级统计、文本处理以及所有与 ML 相关的工作(特征工程、data 富集......)尤其如此。这些边缘案例正是 Python 模型的目标用例。产品经理在主题演讲中明确表示,它将用于 意味着 data 转换的基本用例. .不建议调用外部 API。.
那么,它是如何工作的呢?
首先,与 SQL 模型类似、, 代码将在您的 cloud data platform 上执行。.
其次,与 SQL 模型一样,您必须根据底层 cloud 平台调整语法。在 SQL 中,您需要使用适当的 SQL 方言。在 Python 中,您可以使用 将提供不同的图书馆。.
从今天起,三台 data platforms 可使用该功能:
例如,如果您使用 Snowflake,您可以利用 snowpark 进行转换。请注意,正如 Eda Johnson 和 Venkatesh Sekar 在他们的演讲 “Empowering pythonistas with dbt and snowpark ”中所提到的,该功能仍处于早期阶段。.
正如主题演讲中所说,有 有待改进 更接近 Python 软件工程师的经验(促进跨模型代码重用、提供测试功能、使用 docstrings 编写文档......)。.
对 dbt cloud 进行了大量改进
几个月前,一篇题为 “我们需要谈谈 dbt”, Petram Navid 撰写的这篇文章引起了轩然大波。dbt 实验室首席执行官特里斯坦-汉迪(Tristan Handy)、, 答复 Pedram 的担忧,尤其是关于 dbt cloud 的担忧。事实上,在最初的博文中,这位 dbt 的长期从业者就指出了他在 dbt cloud 上的糟糕体验。特里斯坦同意他们应该努力改善开发人员的体验。.
他们做到了!本周,dbt Labs 宣布对 cloud 集成开发环境进行全面改造,改进用户界面,并减少保存文件等常见操作的延迟。.
这对采用 dbt cloud 的用户来说是个好消息!
语义层是管理 data 方式的结构性转变
这是一个热门话题!
在主题发言中,发言人将语义层定义为 “在下游工具中编译和访问 dbt 资产的平台“。.
语义层旨在解决常见的 data governance 难题:
这里的目标是扩展 dbt 的范围。目前,其范围仅限于转换层。我们可以在转换层之上添加这个语义层。.
这是有道理的。在 1.0 版中,引入了度量标准。这是迈向语义层愿景的第一步。.
dbt 是现代 data 堆栈生态系统的核心
在这次会议上,令我印象深刻的是宣布的合作伙伴数量。此外,大多数会谈都是由合作伙伴发表的。.
像 Atlan、Collibra 或 MonteCarlo 这样的软件供应商需要集成到 dbt,因为他们的客户要求他们这样做。您希望在全局 data 系列中看到可能由 Collibra 等外部工具管理的转换。您还希望用自己喜欢的工具监控 dbt 测试结果等。您需要工具之间的集成。.
dataform 是 dbt 目前唯一的竞争对手,与 dataform 不同,我感觉 dbt 实验室希望保持 cloud 的中立性。他们提供了许多与利基解决方案的集成,以便更好地管理 data 质量或元 data。.
结论
到此为止!本期内容非常丰富。在本周结束时,我们还将就公告进行大量讨论。这就是这份工作的精彩之处!
说到这里,我们 雇用 在 Artefact!我相信你一定没想到会发生这种事 😉

博客







