U-Net 论文(U-Net: Convolutional Networks for Biomedical Image Segmentation)发表于2015年,距今已超十年。这篇最初聚焦医学图像分割的短文,没有复杂的数学推导,也没有堆砌前沿模块,却成为了计算机视觉分割领域的“常青树”——至今仍是工业界落地、学术界创新的基石。十年后,站在大模型、Transformer、扩散模型百花齐放的节点重读,会有超越“技术技巧”的深层启发。
一、核心启发:朴素设计里的“底层逻辑”
1.抓住问题本质:比堆砌模块更重要的是“痛点解决”
U-Net 诞生的背景是医学图像分割的两大痛点:标注数据稀缺、分割需要精准的细节(如细胞边缘、肿瘤边界)。
当时主流的卷积网络(如AlexNet)以分类为目标,下采样过程会丢失空间细节;而FCN(全卷积网络)虽实现了端到端分割,但上采样的“粗糙性”无法满足医学场景的精度要求。
U-Net 的创新极其朴素:
- 采用对称的编码器-解码器结构:编码器负责提取语义特征,解码器负责恢复空间分辨率;
- 加入跳跃连接(Skip Connection):直接将编码器的浅层细节特征拼接