文献原文 LSTM Multi-modal UNet for Brain Tumor Segmentation

@inproceedings{xu2019lstm,                  
  title={LSTM Multi-modal UNet for Brain Tumor Segmentation},                 
  author={Xu, Fan and Ma, Haoyu and Sun, Junxiao and Wu, Rui and Liu, Xu and Kong, Youyong},            
  booktitle={2019 IEEE 4th International Conference on Image, Vision and Computing (ICIVC)},               
  pages={236--240},                  
  year={2019},                
  organization={IEEE}               
}

文章正在研究的问题

为了更好地利用多模态和深度信息，提出了一种在多模态磁共振图像中分割脑肿瘤的结构，称为LSTM多模态UNet.

磁共振成像有四种图像序列:

T2加权液体衰减反转恢复(FLAIR)、
T1加权(T1)、
T1加权对比增强(T1c)、
T2加权(T2)。

这四种图像通常分别被称为磁共振成像的一种形式，它们在肿瘤分割中起着不同的作用。例如，使用Flair可以更好地进行整个肿瘤的分割，并且在T2下可以更好地分割肿瘤核心。

典型的处理方法之一是早期融合，它结合了低层特征上的模态。这种早期融合是基于不同模态之间的关系简单而实际上很复杂的假设。
为了更好地了解多模态信息，其他研究人员提出了后期融合策略，即每个模态在独立的CNN之后与其他模态在深层融合。这种后期融合策略在脑分割上优于早期融合。
此外，一些研究表明，不同模态之间的复杂性不能简单地用单层来建模。在文献（Dolz J, Desrosiers C, Ayed I B. IVD-Net: Intervertebral Disc Localiza- tion and Segmentation in MRI with a Multi-modal UNet[J].2018.）中，提出了一种CNN，它不仅在单个模态内的层对之间，而且在不同模态的层之间包含密集的连接，可以解释多模态数据建模中的非线性。

随着卷积神经网络的发展，深度学习在脑肿瘤分割领域取得了显著的成就。一些方法使用完全卷积网络(FCN) (J. Long, E. Shelhamer, and T. Darrell. Fully convolutional networks for semantic segmentation. In CVPR, 2015.)来分割3D生物医学图像。基于FCN的U-Net （O. Ronneberger, P. Fischer, and T. Brox. U-net: Convolutional networks for biomedical image segmentation. In MICCAI, 2015.）在这个问题上也有不错的表现。
然而，三维图像的分割往往会导致训练速度慢的问题，因为三维图像的尺寸很大。

基于面片的方法将图像的一小部分放入网络中，并预测每个中心像素的结果。一些方法将2D分割用于3D生物医学数据，这意味着将2D分割应用于3D图像的每个切片，并将每个结果连接起来以获得3D分割。
上面方法忽略了整体结构信息或连续切片之间的顺序信息，文章利用卷积LSTM来更好地利用连续切片之间的关系。

主要贡献

贡献

融合UNet和LSTM，并在多模态磁共振图像中分割脑肿瘤验证，利用2DUnet 分割磁共振图像的切片，LSTM学习连续切片的顺序信息。

密集连接不仅用于获得每个模态的全部特征，还用于获得它们之间的复杂关系。

对比

2017年，Kuan-Lun还提出了一个网络，该网络具有convL- STM和跨模态卷积，以利用序列和多模态信息。
然而，Kuan-Lun网络的编码路径遵循后融合策略，这种策略需要更多的参数，因为交叉模态卷积的通道尺寸更大。
文章中网络不同于IVD网络的架构，由于IVD网络是一种2D分割方法，因此不能使用序列关系。IVD网采用了初始模块，大大增加了模型参数和内存消耗。

提出方案

LSTM多模态UNet，由两部分组成，
- 1)多模态UNet
  - 多模式UNet包括超高密度编码器和解码器，以充分利用多模态数据。
- 2)卷积LSTM
  - 卷积LSTM进一步利用了连续切片之间的顺序信息。

多模态UNet

1)编解码:采用UNet的架构作为基本编解码结构。
2)多编码路径:为了利用UNet的结构并实现密集的连接模式，使用具有多个UNet编码路径的架构，每个路径分别处理一个模态图像。多编码路径的目标是更好地说明多模态数据之间的复杂关系避免了早期融合，这限制了网络的学习能力。
3)超密集连接:为了在各个层次上充分利用多模态信息，在多UNet编码路径网络中采用了超密集连接方法。

切片序列学习

提出了一个端到端切片序列学习模型来利用序列相关性。图像深度被视为一系列切片。使用卷积LSTM来模拟切片之间的关系。
1)卷积LSTM:
- 与传统的LSTM方法不同，卷积LSTM用卷积算子*代替了矩阵乘法，为长期序列保留了空间信息。
2)后期LSTM:
- 由于多模态UNet由两部分组成:编码路径和解码路径，切片依赖。
- 在解码路径后添加了名为LSTM多模式UNet的convLSTM块。
- 由于多模态UNet已经完全利用了不同的模态信息，convLSTM网络应该只捕获序列相关性。此外，在编码路径后添加监督，以避免梯度消失。

我的想法

这篇文章最后结果是与模型参数较少的标准U-Net相比，LSTM多模式UNet带来了性能的提升，即每个模态和序列之间的相关性可以极大地帮助提高基于网络的分割结果的准确性。
阅读这篇文章主要是想借鉴利用模态之间的关系和序列之间的相关性的实现方法，官方代码给的也很详细，后面将具体复现，并迁移到自己的网络上面。

参考

官方文献 LSTM Multi-modal UNet for Brain Tumor Segmentation
官方源码 https://github.com/HowieMa/lstm_multi_modal_UNet
中文阅读者 https://blog.csdn.net/ningmengshuxiawo/article/details/109091230