本文为阿里巴巴高级算法工程师林夕分享的多模态大模型面试经验,详细记录了在淘天、字节、商汤、蚂蚁、美团等10余家科技公司的面试过程。内容包括各公司面试问题、技术难点、面试体验及offer选择建议。文章涵盖了OCR技术、多模态大模型、Transformer架构等核心知识点,为准备大模型相关岗位的求职者提供了宝贵的实战参考和面试技巧。
面试情况
投过的公司:淘天,字节,蚂蚁,商汤,美团,夸克,腾讯,minimax,零一万物,阿里控股,潞晨科技,阿里巴巴国际,网易实验室,Momenta。
Offer:淘天,字节AML,商汤,蚂蚁,美团,夸克,腾讯混元,天翼云。
以下是面经分享
淘天【offer】
部门:未来生活实验室
介绍:淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。
面经
一面:
- • 如何训练ocr任务
- • 实验的setting
- • ocr任务影响如何
- • 高分辨率训练,再在小分辨率上,会不会崩掉
- • 输出bbox有没有好的方式
HR面:
- • 基本信息确认
- • 考研进入电子科技大,为什么
- • 为什么进入了诺亚
- • 代表性的工作
- • 如何解决问题的,国内在做语言大模型的多一些。
- • 国内在做多模态大模型的
- • 如何评测,评估这些大模型的。如何看待刷榜的问题。
- • 你们的衡量指标
面试体验
面试体验很好。HR也没有那么咄咄逼人。阿里味不是特别明显。最终权衡也选择来了淘天,有兴趣来我们这边的欢迎投递简历,有卡(****张)。
字节AML【offer】
部门:AML火山方舟大模型
介绍:淘天集团的大模型研究将主要围绕两个场景展开:一是搜广推,二是逛逛的内容化。团队组建工作由淘天集团CEO戴珊、淘天集团CTO若海、阿里妈妈CTO郑波等人共同牵头。介绍链接。
预备面经
猎头也提供了一些其他候选人的面经, 整理如下:
- • 设计一个Hash表
- • 蓄水池问题
- • 从超大文本文件中随机行采样
- • 二叉搜索树-去掉超出[m, n]范围内的节点
- • 计算交叉熵
- • 计算IOU
一面:
- • 多模态你们的流程
- • 你们的OCR的结构
- • layernorm的区别
二面:
- • 什么时间开始做多模态模型
- • 目前在文档
- • Token长度太大。高分辨率如何解决。
- • patch能不能变得
- • VQGAN
- • GPT4V的结构形式。
- • LLM decoder
- • MagViT
- • LLM的基础知识需要尽快补上
三面:
- • 自我介绍
- • 多模态大模型用哪个模型
- • Transformer比较熟悉
- • python实现self attention和Transformer
面试体验
字节一如既往的注重coding,基本每一面两道题,自己能拿到offer也算是运气吧。一面的面试体验很差,可以说是毫无面试经验的面试官。
商汤【offer】:
一面:
- • 简单的自我介绍
- • 关于高分辨率的解决办法
- • OCR是如何去做的,有没有grounding,Referring
- • GPT4V 位置,检测明显的问题
- • 你们是如何解决位置信息的
- • 新的模态进来,如何去拼接过来
- • 新来一批数据,如何训练
- • tree1是否是tree2的子树
二面:
- • AGI缺不了视觉
- • 工业场景,人的检测,奇怪的零件,机器的检测。检测的结果,需要理解人的行为。理解和context的关系。人和环境的关系。借助多模态来解决
- • 自驾,感知端,到决策端,感知不需要全面的感知,着重额感知需要
- • 假新闻,图是真的。caption场景
- • OCR,街景的OCR,文档,网页截图等是不同的,这些场景混在一起。会有影响吗?
- • OCR的方案,一般是先出检测框,再出文本。不规则的文本,如何解决
- • 多模态大模型的OCR
- • Qwen-VL的文本检测形似,是否合理
- • 模型本身的三种能力
- • 自己的能力,认识什么
- • LISA:借助decoder来做,用新的prompt来实现分割。】
- • 外挂RAG等。
- • 判断左右括号(),等组成的字符串是否是合法的
二面结束,问题不大。
三面:
- • Leader面,聊了一些有的没的
面试体验
面试过程很专业,毕竟是商汤,算法技术是国内领先的,奈何没产品,而且薪资包也没有诚意。
蚂蚁风控大模型【offer】
一面:
- • 自我介绍
- • 介绍Focus-DETR,有没有在业务中应用。
二面:
- • 介绍
- • 目前在做的事情
- • 下游的任务,文档场景,再做一个什么任务
- • ocr数据是如何生成的
- • 效果如何
- • 如何解决幻觉的问题
HR面:
- • 具体的工作内容,印象
- • 安全内容,tob的内容审核。竞对。
- • 个人介绍。
- • 上海海思,为什么跳槽
- • 算法支撑
MiniMax:【挂】
一面:
- • 空间感知能力是如何解决的
- • 不同token长度是否有做balance的方式
- • 很多有价值的问题。
- • python实现标题 MLP Regressor 题目描述 题目描述与要求:实现一个MLP regressor 的完整训练过程,包括:forward , backward , SGD更新参数;验证backward梯度正确性;构建数据,验证端到端正确性 (收敛&泛化);(optional) 参考你过往的实验经验,尽可能让功能更完善;不使用第三方库中已实现好的自动求导方法;P.S. 实现方法不限,但由于在线IDE运行环境不稳定,推荐使用numpy。
PS:面试官对算法底层了解比较深入,比较考验代码能力,不是字节那种。
零一万物【挂】
一面:
- • 多模态的情况。
- • document的难度。
- • 手写 self attention
二面:
- • 自我介绍
- • 传统的OCR模型和多模态大模型的区别
- • 带不带OCR,多模态文档智能差多少。
- • 未来OCR模型是否会被大模型吃掉。OCR大模型有什么是做不了的。
- • 在哪些模型上做过一些预训练。
- • 多模态未来怎么做。
- • EVA的有趣的现象。没有出现涌现的现象。
- • 后面的工作主要集中在哪里。
- • 怎么训练比较好,gemini那种形式,llm那种形式。
**PS:**问了很多开放性的问题,给的回复是业务积累不够,hhhh。
美团【offer】
一面:
- • 文档大模型是一个独立的模型,会整合到一个大模型还是分离式的。
- • 不考虑通用场景的。
- • 目前用的多大的模型。
- • 是一个什么结构。对结构的一些了解。
- • flamingo或者blip2的结构上的对比。
- • 足够资源的情况下,哪个结构是最优的。
- • 分辨率是如何解决的。文档的分辨率比较高。
- • QA对匮乏如何解决的。
- • ocr的性能目前是低于多模态大模型。
- • 如何解决bbox感知能力差的问题。
- • 充足的算力。数据如何获取。如何有效的清洗。
- • fuyu这种结构有什么优化的空间。
二面:
- • OCR文档大模型
- • Instruction tuning的决定性因素,哪些Instruction tuning策略效果更好。如何评估复杂度的性能。
- • 如何保证数据集的多样性和复杂度。
- • 分层的Instruction tuning。
- • 数量的影响。数量和质量。
- • 不同类型数据的影响。对下游任务的影响。自动化的数据配比。自动化的指标去做类似的事情。
- • 专门优化的指标不再是一个好的指标。
- • 使用其他的指标来引导模型的优化,而不是使用下游的指标。LLM使用的loss,作为指标。而不是benchmark的分数。
- • 合理的评估指标是什么。openAI的压缩理论,trainnig loss代表优化目标。
- • AGI的几个阶段,deepmind发表。
三面:
- • 各种问题
四面:
- • 介绍自己。
- • 有一个多模态大模型,具备一些很多baseline的效果,基础的CV能力。可能效果都不是特别好。不如专精的大模型。OCR为例。目标得到一个类似GPT4V的模型,整理提高模型的效果。第二个,全流程,强化ocr能力。已有的多模态大模型。
- • 文档场景。
阿里控股【PASS】
一面:
这里没什么面经,整体面试体验很差。不考虑继续往下面。
- • 人非常高傲,傲慢,问问题,满脸的嫌弃
- • 感觉别人都不行
- • 觉得自己很强
- • 文生图
- • 文生图的畸形,检测的方式。
潞晨科技【PASS】
一面:
- • 手写self-attention
emmm,但凡面试官是NLP的,面试体验都不太好。如果NLP背景的面试官,面试会比较困难。
夸克【offer】
一面:
- • 项目
- • 做题
二面:
- • 高分辨率的解决方案
- • 重叠文本框。采用什么方案来解决。
- • 端到端的OCR是怎么做的。
三面:
- • 介绍Focus-DETR。
- • 介绍端到端的OCR。
- • 介绍多模态大模型。
- • 小语种数据集采购是为什么。检测数据多了,识别数据少了。
介绍业务规划,偏传统业务,不是大模型方向。
四面:
大佬面,出了一个概率题。
HR面:
- • 为什么跳槽。
- • 职业规划。
- • 为什么有这个绩效和各种奖项。
腾讯-混元大模型【offer】
一面:
- • 简单描述简历,在做的东西
- • 图像细节提取有什么办法
- • 目前的进展是什么样的,项目进展到什么情况
- • 表格这种数据如何解决,如何对表格这种做有效的信息抽取。
- • 目前有多少的数据量
二面:
- • OCR算法
- • 项目
- • 介绍文本检测的一些问题如何解决
- • MAE如何优化,什么鬼问题
三面:
纯聊天,没有太多技术问题。
- • 多模态大模型,TEG,数据平台事业部。混元大模型。机器学习平台。
阿里巴巴国际部【中止】:
一面:
- • 题目,旋转图像 Alpha度,
- • 介绍项目
- • 介绍Focus-Detr。
二面:
- • 简单询问项目,很快结束。
PS:不靠谱,很久没消息。没有后续的任何回复。这种最恶心了,建议大家不要再投。
网易实验室【PASS】
一面:
- • 自我介绍
- • 剪枝的工作,Focos-DETR是如何剪枝的。
- • Transformer相比CNN,相比RNN的优势。
- • 训练推理,增加吞吐量。
- • 推理加速。预训练模型的部署推理,优化。
做推理加速的不合适。
Momenta【PASS】
一面:
- • 手写NMS
- • 介绍DETR
- • 介绍Focus-DETR
- • 介绍position Embedding
- • 介绍DETR里面query的含义
PS:Momenta属于给钱多,但是比较累的。以后不太想做自动驾驶了,所以pass。不再考虑。
蚂蚁【大模型-codefuse】【HR面挂】
一面:简单聊项目
二面:
- • 业务题,如何解决多页文档的问题
- • 业务题,现在 ui 多模态大模型,ocr 如何引入,目前 ocr 存在很多问题
- • leetcode 题目,字符串转数字
- • leetcode 题目,最大子数组和
- • 多模态大模型的基础知识
三面:
- • 个人介绍
- • 部门规模
- • 论文的情况
- • 换过部门
- • 海思做的内容
- • OCR成熟度很高
面试体验:
面试官都很专业,问了很多问题,感觉很强。在HR面上吃了亏,很多问题没有回答好,吸取了经验,很多问题调整了回答的方式。也反思了自己在过往工作中存在的问题,面对大公司建议HR面认真准备,看看网上的一些经验,阿里的HR有一票否决权。
HR面注意点:
1、跳槽动机:如果是因为晋升不上去看机会,建议这么说:内部机会少,太稳定,想看更有发展的机会,别直接说晋升不上去才看机会,⚠切勿说和leader处不来或者说目前leader坏话。
2、关于薪资:可以回答看企业安排,或者回答一个区间,保底多少,期望多少,加一句薪资可谈,留足谈判空间,如果企业给的薪资不太满意,⚠别直接拒绝,就说考虑一下,我这边去谈,最后面试结束时,记得感谢下面试官的时间。
3,关于加班:大厂都大差不差,HR问就是试探⚠切勿说接受不了。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费】
为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。
大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!
2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。
3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。
4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。
5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。
适用人群
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。