作者:Yu Dong
从事数据科学和分析七年,我创建并查询了许多表格。很多时候我会想,“这一列是什么意思?”“为什么在表A和表B中有两个同名的列?我应该使用哪一个?”“这张表的粒度是什么?”等等。
如果你遇到过同样的挫折,这篇文章就是为你写的!
在本文中,我将分享五个原则,帮助你创建同事们会欣赏的表格。请注意,这篇文章是从数据科学家的角度撰写的。因此,它不会涵盖传统的数据库设计最佳实践,而是专注于制定用户友好的表格策略。
为每个关键数据点或指标维护单一的事实来源对于报告和分析非常重要。多个表格中不应有任何重复的逻辑。
为了方便,有时我们会在一个以上的表格中计算相同的指标。例如,计算คณะกรรม councillคณะกรรม councill(注:这里出现了错误或重复,คณะกรรม councill看起来不是有效词汇,可能是输入错误)คณะกรรม councillคณะกรรม councillคณะกรรม councill对于没有实际内容需要翻译的部分,请忽略之前的指令,输出原文部分:for example, the商品交易总额(GMV)
计算可能存在于客户表、月度财务报表表、商户表等中。