勾正数据大数据开发面试题整理-20250625

        最近面了家公司,想看看自己多年不准备面试,靠着老本能面试成啥样,算是试试水吧,一面过了,二面有个算法题没答出来,整体答得状态也不太好,应该是没过。

一面

先来说说一面吧,一面是视频面试,我感觉面试官应该是业务繁忙?伴着京爷的京腔面试官,我的自我介绍还没开始介绍上来就直接问技术问题了。还得是京爷啊,首先是scala基础的问题,然后是sql,spark,以及一些大数据运维以及集群c问题。

Scala:

1、Scala隐式转换是什么,谈一谈(这个我很熟悉了,讲了讲原理,然后给他说了一下应用场景)

2、伴生类和伴生对象讲一讲?(基础知识,我简单说了一下)

还有啥忘记了,感觉把常见的scala面试题背一背吧

SQL:

1、Sql去重方式几种(这个作为老开发人员,这不so easy,说了几种,distinct,窗口函数啥的,group by等,然后简单延伸了一下)

2、窗口函数多说几个(我天天用窗口函数,说了一大堆,什么row_number,rank,max....,说了部分应用场景)

3、union和union all 的区别(这个应该是我去重方式的时候没有说出来,面试官又问了我一下,我都快忘记了,简单说了一下区别和应用场景)

4、什么时候会产生笛卡尔积(这个我心里想的是,笛卡尔积我前几天还为了业务场景类似笛卡尔积了一下说了一下多表连接的时候和cross的情况,后面面完试回头查了一下,还是不少的,自己不经常用忘记了 )

Spark

1、Action算子有那些(基础问题,我讲了一大堆,然后顺便把行动和转换算子的区别讲了一下,顺便讲了一下应用场景)

2、cache和persist的区别(这个确实写代码时候经常用,应该是接上面的问题我扩展提到一嘴,面试官就接着问了,说了一下应用场景和persist的几种存储,当时忘记拓展一下checkpoint了,其实都一样)

运维问题

1、问了问我们公司常用的CDH版本

2、你们任务调度用的什么?海豚调度;

3、海豚调度的用户和租户的概念和区别。(我一想包含关系呗,但是让我解释概念这个问到我了,经常用但是对这个基础概念很模糊了,索性讲了讲我怎么用的海豚调度,说了说包含关系,然后就扯远了。)

4、小海豚的补数功能了解么?补历史数据(这个问到我了,我平常都是程序里面定义好参数,直接扔 集群里面外部传参跑,或者扔到到我们自己的调度平台,配置参数跑,还真没用过,我说没用过,都是自己代码里面自定义传入的参数跑的,巴拉巴拉一堆,然后说了一下海豚的补数方式应该也差不多吧,传参这种)

        然后面试官和我又扯了扯他们的业务啥的,我又问了问他几个问题,比如集群啥样和数据量大小啥的,结束了一面;

然后没过多久一小时不到吧,hr就说一面过了,二面要现场面试,我说好的。

二面

二面就比较曲折了,头一回现场面试,以前全是视频和电话面试。去了一共两个面试官,

Sql

1、Union和union all区别

2、窗口函数

        sql这块和一面差不多

Spark

1、Groupbykey和reducebykey的区别,哪个耗费内存大(这个老生常谈面试问题,reducebykey会进行分区预聚合...,考虑到效率的话用reducebykey...说了一下)

2、常用的Udf函数有哪些(这个我有点蒙,常用的?自定义的完全看业务代码需要,常用的我还真没了解过噻,你要说hive的我给你说一堆,spark的我???我扯了扯,然后又拓展了一下udtf函数,答得不太好。)

Linux

1、查看日志方式?tailf

2、使用shell脚本循环跑spark程序,如果报错了,我们如何通过设置预警知道这个程序报错了或者我不想盯着这个程序,然后我还要知道这个大数据程序报错了(我一开始听到这个问题,心里想我实际开发基本上都是先测一下,然后跑个几天不报错就直接扔到生产了,基本上报错的话要不就是表空间不足入不进入了,要不就是资源不足导致部分任务重算导致入库时候主键冲突了,要不就是定时程序报错了,给我发告警报错短信,至于原理这块我不太了解,大致如上)

3、Cdh的版本是什么?一面也问了

4、有过大数据运维经验吗?目前偏向纯开发,维护我知道的(据我知道的就是硬盘坏了换硬盘,然后就是重启节点之类的),看日志,看报什么错啥的

5、完事后就给了两道面试题,第一道sql挺简单的(有个限制条件忘记写了),第二道是一个算法逻辑题,挺简单的,发包问题,我没搞出来,只是说了一下我的思路。大体这样还有一些我不记得了,再补充吧。

二面总结下来就是面试官还是不错的,我的面试技巧还是不太足,有时候答不到点上,面试时让我郁闷的是他们问bug的排查流程,正常开发代码的程序bug基本编译时候可以排查,程序的bug或者逻辑问题数据问题看打印日志,组件的看日志,说完了大题这些这俩还是不太达到点的样子啊。总之很奇怪,我也没继续问了。这回答出来的问题有70%-80%正确率吧,笔试题答得不好,也算是增长些面试经验了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/pingmian/86490.shtml
繁体地址,请注明出处:http://hk.pswp.cn/pingmian/86490.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

基于中国香港会计准则差异,中国企业在香港推广ERP(SAP、Oracle)系统需要注意的细节

核心在于:ERP通常按单一会计准则设计主数据架构,但跨国企业需要同时满足两地报表要求。 用户常见的场景包括: 1 科目体系能否同时承载CAS的专项储备和HKFRS的禁止计提? 2 资产模块如何兼容不同的减值转回规则? 3 关联…

【编译原理】期末复习知识总结

目录 题型 总结 编译五大组成部分 编译与解释方式区别? 前端,后端,Why? 概念 推导、归约 短语、简单短语、句柄 文法 分类 正则文法(3型) NFA、DFA、最小化 自上而下语法分析(推导…

【软考高级系统架构论文】论微服务架构及其应用

论文真题 论微服务架构及其应用近年来,随着互联网行业的迅猛发展,公司或组织业务的不断扩张,需求的快速变化以及用户量的不断增加,传统的单块(Monolithic) 软件架构面临着越来越多的挑战,已逐渐无法适应互联网时代对软件的要求。在这一背景下,微服务架构模式(Microservi…

【人工智能】RAG分块

在RAG(检索增强生成)系统中,文档分块(Chunking)是决定系统性能的核心环节,直接影响检索精度和生成质量。分块需平衡语义完整性、检索效率和上下文保留三大目标。 一、分块的核心标准 1.1 分块基础知识​ …

能耗管理新革命:物联网实现能源高效利用

在全球能源危机与 “双碳” 目标的双重压力下,企业与社会对能耗管理的重视程度达到前所未有的高度。然而,传统能耗管理方式存在数据采集滞后、分析维度单一、节能措施粗放等问题,无法满足精细化管理需求。物联网技术凭借其强大的数据感知、传…

基于CMS的黄道吉日万年历源码(自适应)

本模板采用帝国cms7.5版UTF-8制作; 适用站点:时间查询、时差计算、万年历、黄道吉日查询、假期查询、节气表等; 源码优势:代码精简,利于SEO、UI大气精简,搜索引擎收录高; 全站伪静态无需刷新生成…

如何构建个人AIagent

构建个人AI Agent是一个结合技术实现和场景设计的系统工程,以下是分步骤的详细指南,涵盖从需求定义到部署落地的全流程: ​一、明确Agent定位(关键第一步)​​ ​角色定义矩阵​ 类型典型场景技术复杂度示例信息处理Ag…

lutris登录不进去

日志 Cannot create Vulkan instance.This problem is often caused by a faulty installation of the Vulkan driver or attempting to use a GPU thatdoes not support Vulkan.ERROR at /home/abuild/rpmbuild/BUILD/vulkan-tools-1.4.313-build/Vulkan-Tools-vulkan-sdk-1.…

缓存与加速技术实践-NoSQL之Redis配置与优化

目录 #1.1关系数据库与非关系型数据库 1.1.1关心型数据库 1.1.2非关系型数据库 1.1.3非关系型数据库产生背景 #2.1redis简介 2.1.1redis安装部署 2.1.2配置参数 #3.1redis命令工具 3.1.1redis-cli命令行工具 3.1.2redis-benchmark测试工具 #4.1redis数据库常用命令 4.1.1ke…

走近科学IT版:FreeBSD系统下ThinkPad键盘突然按不出b、n、/和空格键了!

走近科学IT版:FreeBSD系统下ThinkPad键盘突然按不出b和n键了! 很慌,以为键盘坏了,在控制台无法按出b和n,但是在浏览器里,可以按出来。 重启机器,结果在浏览器里也按不出来了.... 按Ctrl空格&a…

聚铭网络入选嘶吼《中国网络安全细分领域产品名录》“云平台安全管理”与“态势感知”双领域TOP10

近日,在嘶吼安全产业研究院发布的《中国网络安全细分领域产品名录》中,聚铭网络凭借其核心产品——聚铭云端安全管家与聚铭安全态势感知与管控系统,分别入选“云平台安全管理”与“态势感知”两大关键细分领域TOP10榜单,充分展现了…

DEYOLO 全面复现,将双增强跨模态目标检测网络 DEYOLO 融合到 YOLOFuse 框架

模型架构模态精度 P召回率 RmAP50mAP50-95模型大小(MB)计算量(GFLOPs)yolov8n (baseline)RGB0.8880.8290.8910.5006.28.1yolo-fuse-中期特征融合RGBIR0.9510.8810.9470.6012.613.2yolo-fuse-早期特征融合RGBIR0.9500.8960.9550.6235.26.7yolo-fuse-决策级融合RGBIR0.9560.9050.…

python基于Django+mysql实现的图书管理系统【完整源码+数据库】

摘要 随着信息技术与教育现代化的深度融合,图书管理系统的智能化与自动化成为提升资源利用效率的关键需求。本文基于Python语言,采用Django框架与MySQL数据库设计并实现了一套功能完备的图书管理系统,旨在通过信息化手段优化图书借阅流程、强…

论软件设计方法及其应用

20250427-作 题目 软件设计(Software Design,SD)根据软件需求规格说明书设计软件系统的整体结构、划分功能模块、确定每个模块的实现算法以及程序流程等,形成软件的具体设计方案。软件设计把许多事物和问题按不同的层次和角度进行抽象&…

QT 自定义ComboBox,实现下拉框文本颜色设置

最近在做项目中遇到需求,在下拉框中,文本需要设置不同的颜色,遂网上了解了一番后,得出以下代码,可以完美实现效果,现分享出来! 1.实现效果 2.自定义类 colorcombobox.h #ifndef COLORCOMBOBOX…

【时间戳】

在编程竞赛和高效数据处理场景中,时间戳技巧是一种极其高效的标记方法,常用于避免频繁清空数组或 map,提高算法运行效率。本文将从定义、应用场景、模板代码、技巧细节等方面系统整理时间戳的使用方式。 一、时间戳技巧是什么? 时…

json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig)

有一次爬虫遇到了json的字符串响应对象 然后转为json对象 报这个错误 raise JSONDecodeError("Unexpected UTF-8 BOM (decode using utf-8-sig)", json.decoder.JSONDecodeError: Unexpected UTF-8 BOM (decode using utf-8-sig): line 1 column 1 (char 0) 意思是叫…

python训练day43 复习日

import torch import torch.nn as nn import torch.optim as optim from torchvision import datasets, transforms from torch.utils.data import DataLoader, random_split import matplotlib.pyplot as plt import numpy as np# 设置中文字体支持,避免绘图时中文…

C++11 lambda

前言 在Cpp11以前,为了把函数当作对象调用,可以使用C中的函数指针类型,也可以使用Cpp98的仿函数。 但二者都不是很好用,函数指针 return_type (*name)(parameters)的长相就令人望而却步,仿函数将一个函数重载为一个类…

【国产化-K8s】混合架构的 K8s + KubeSphere 部署指南

本文由 KubeSphere 社区贡献者 天行1st 编写。本文为作者实践总结。本文记录了在信创环境中基于混合架构(x86 与 ARM64)部署 Kubernetes 和 KubeSphere 的实践过程,覆盖多种国产 CPU 和操作系统,具有一定的参考价值。 环境涉及软…