面试场景
面试官: (微笑,营造轻松但专业的氛围)嗨,哈士奇,欢迎来参加网易的二面。我看你简历上数据仓库的项目经验很丰富,我们今天就深入聊聊。我这里有一个经典的问题想听听你的看法:在你看来,数据仓库的灵魂是模型、数据质量还是计算速度?
哈士奇: (不假思索,非常自信地)数据质量。毫无疑问是数据质量。这是我的核心原则。
面试官: (点点头,鼓励他展开)哦?为什么这么肯定?能详细说说吗?
哈士奇: 很简单啊,“垃圾进,垃圾出”。如果数据本身是错的,那后面做的一切都没有意义。模型建得再漂亮,计算引擎再快,出来的结果也是错的,只会引导业务做出错误的决策。我之前做的项目,第一件事就是下死功夫做数据稽核和血缘分析,保证源头数据的准确。这才是最根本的。
面试官: 嗯,我完全同意数据质量至关重要。那么,我想问一下,如果一个业务方需要做一个非常复杂的、跨十多个主题域的实时大屏,他们对数据出的速度要求极高。在这个时候,你依然认为数据质量比计算速度更重要吗?
哈士奇:&