TransFuse是一种结合了Transformer和卷积神经网络(CNN)的模型,旨在通过融合局部特征与全局上下文信息来提升医学图像分割等任务的性能。其核心融合机制如下:

1. 并行编码器结构
TransFuse采用双分支编码器:
CNN分支:提取局部细节特征(如边缘、纹理),但受限于感受野,难以捕捉长距离依赖。
Transformer分支:通过自注意力机制建模全局上下文,获取图像的整体结构信息。
2. 双向特征融合(Bidirectional Feature Fusion)
在编码阶段,通过双向融合模块动态整合两个分支的特征:
位置注意模块(Position Attention Module, PAM):将CNN特征作为查询(Query),Transformer特征作为键(Key)和值(Value),通过交叉注意力机制将全局上下文注入局部特征。
通道注意模块(Channel Attention Module, CAM):对通道维度进行权重调整,增强重要通道的信息流动。
3. 多尺度特征对齐
使用跳跃连接(Skip Connections)将不同层级的CNN特征(高分辨率细节)与Transformer特征(低分辨率语义)融合。
通过上采样或下采样调整特征图尺寸,确保空间分辨率一致后进行逐元素相加或拼接。
4. 自适应门控机制
引入门控单元(如1x1卷积+激活函数),动态调节CNN和Transformer特征的贡献权重,避免冗余并提升灵活性。
优势分析
局部与全局互补:CNN保留细节,Transformer捕获全局依赖,融合后兼顾精度和上下文一致性。
计算高效:并行结构避免串行融合的计算瓶颈,适合处理高分辨率医学图像。
鲁棒性强:在遮挡、低对比度等复杂场景下表现优异(如病灶边界模糊的医学图像)。
应用场景
TransFuse在医学图像分割(如视网膜血管、皮肤病变)中表现突出,尤其适用于需同时关注局部细节和整体结构的任务。
通过这种设计,TransFuse实现了两种架构的优势互补,成为轻量高效的融合模型代表。