
2.4 三者的比较
1.Caffe
Caffe的优点是简洁快速,缺点是缺少灵活性。Caffe灵活性的缺失主要是因为它的设计缺陷。在Caffe中最主要的抽象对象是层,每实现一个新的层,必须要用C++实现它的前向传播和反向传播代码;如果想要新层运行在GPU上,还需要同时利用CUDA实现这一层的前向传播和反向传播。这种限制使那些不熟悉C++和CUDA的用户扩展Caffe时感到十分困难。
Caffe凭借其易用性、简洁明了的源码、出众的性能和快速的原型设计获取了众多用户,曾经占据深度学习领域的半壁江山。但在深度学习新时代到来之时,Caffe已经表现出明显的力不从心,诸多问题逐渐显现,包括灵活性缺失、扩展难、依赖众多环境难以配置、应用局限等。尽管在GitHub上还能找到许多基于Caffe的项目,但是新的项目已经越来越少。
Caffe的作者从加州大学伯克利分校毕业后加入了Google,参与过TensorFlow的开发,后来离开Google加入FAIR,担任工程主管,并开发了Caffe2。Caffe2是一个兼具表现力、速度和模块性的开源深度学习框架。它沿袭了大量的Caffe设计,可解决多年来在Caffe的使用和部署中发现的瓶颈问题。同时Caffe2的设计追求轻量级,在保有扩展性和高性能的同时,也强调了便携性。Caffe2从一开始就以性能、扩展、移动端部署作为主要设计目标,其核心C++库能提供速度和便携性,而其Python和C++API使用户可以轻松地在Linux、Windows、iOS、Android、甚至Raspberry Pi和NVIDIA Tegra上进行原型设计、训练和部署。
Caffe2继承了Caffe的优点,在速度上令人印象深刻。Facebook人工智能实验室与应用机器学习团队合作,利用Caffe2大幅加速了机器视觉任务的模型训练过程,仅需1小时就可以训练完ImageNet这样超大规模的数据集。然而尽管已经发布多时,Caffe2仍然是一个不太成熟的框架,官网至今没提供完整的文档,另外安装也比较麻烦,编译过程时常出现异常,在GitHub上也很少找到相应的代码。
极盛时,Caffe占据了计算机视觉研究领域的半壁江山,虽然如今Caffe已经很少用于学术界,但仍有不少计算机视觉相关的论文使用Caffe。由于其稳定、出众的性能,不少公司还在使用Caffe部署模型。Caffe2尽管做了许多改进,但是还远没有达到替代Caffe的地步。
2.TensorFlow
TensorFlow在很大程度上可以看作Theano的后继者,不仅因为它们有很大一批共同的开发者,而且还因为它们还拥有相近的设计理念—基于计算图实现自动微分系统。TensorFlow使用数据流图进行数值计算,图中的节点代表数学运算,而图中的边则代表这些节点之间传递的多维数组(张量)。
TensorFlow编程接口支持Python和C++。随着1.0版本的公布,Java、Go、R和Haskell API的alpha版本也被支持。此外,TensorFlow还可在Google Cloud和AWS中运行。TensorFlow还支持Windows 7、Windows 10和Windows Server 2016操作系统。由于TensorFlow使用C++Eigen库,所以库可在ARM架构上编译和优化。这也就意味着用户可以在各种服务器和移动设备上部署自己的训练模型,无须执行单独的模型解码器或者加载Python解释器。
作为当前最流行的深度学习框架,TensorFlow获得了极大的成功,但它也有一些不足之处,总结起来主要有以下4点。
● 过于复杂的系统设计。TensorFlow在GitHub代码仓库的总代码量超过100万行。这么大的代码仓库,对于项目维护者而言是一个难以完成的任务,而对读者来说,学习TensorFlow底层运行机制更是一个极其痛苦的过程,并且大多数时候这种尝试以放弃告终。
● 频繁变动的接口。TensorFlow的接口一直处于快速迭代之中,并且没有很好地考虑向后兼容性,这导致现在许多开源代码已经无法在新版的TensorFlow上运行,同时也间接导致了许多基于TensorFlow的第三方框架出现BUG。
● 由于接口设计过于晦涩难懂,所以在设计TensorFlow时,创造了图、会话、命名空间、PlaceHolder等诸多抽象概念,对普通用户来说难以理解。同一个功能,TensorFlow提供了多种实现,这些实现良莠不齐,使用中还有细微的区别,很容易将用户带入坑中。
● TensorFlow作为一个复杂的系统,文档和教程众多,但缺乏条理和层次,虽然查找很方便,但用户却很难找到一个真正循序渐进的入门教程。
由于直接使用TensorFlow的生产力过于低下,包括Google官方等众多开发者都尝试基于TensorFlow构建一个更易用的接口,包括Keras、Sonnet、TFLearn、TensorLayer、Slim、Fold、PrettyLayer等第三方框架每隔几个月就会在新闻中出现一次,但是又大多归于沉寂,至今TensorFlow仍没有一个统一易用的接口。
纵然有缺陷,但是凭借Google着强大的推广能力,TensorFlow仍然成为当今最炙手可热的深度学习框架。另外,由于Google对TensorFlow略显严格的把控,目前各大公司都在开发自己的深度学习框架。
3.PyTorch
PyTorch是当前难得的简洁优雅且高效快速的框架。PyTorch的设计追求最少的封装,尽量避免重复造轮子。不像TensorFlow中充斥着session、graph、operation、name_scope、variable、tensor等全新的概念,PyTorch的设计遵循tensor→variable(autograd)→nn.Module 3个由低到高的抽象层次,分别代表高维数组(张量)、自动求导(变量)和神经网络(层/模块),并且这三个抽象之间联系紧密,可以同时进行修改和操作。
简洁的设计带来的另外一个好处就是代码易于理解。PyTorch的源码只有TensorFlow的十分之一左右,更少的抽象、更直观的设计使得PyTorch的源码十分易于阅读。
PyTorch的灵活性不以速度为代价,在许多评测中,PyTorch的速度胜过TensorFlow和Keras等框架。框架的运行速度和程序员的编码水平有极大关系,但同样的算法,使用PyTorch更有可能快过于其他框架。
同时,PyTorch是所有的框架中面向对象设计最优雅的一个。PyTorch面向对象的接口设计来源于Torch,而Torch的接口设计以灵活易用著称,Keras作者最初受Torch的启发开发了Keras。所以PyTorch继承了Torch的衣钵,尤其是API的设计和模块的接口都与Torch高度一致。PyTorch的设计最符合人类的思维,它让用户尽可能地专注于实现自己的想法,即所思即所得,不需要考虑太多关于框架本身的束缚。
PyTorch提供了完整的文档,循序渐进的指南,作者亲自维护论坛供用户交流和求教问题。Facebook人工智能研究院对PyTorch提供了强力支持,作为当今排名前三的深度学习研究机构,FAIR的支持足以确保PyTorch获得持续的开发更新。
在PyTorch推出不到一年的时间内,各类深度学习问题都会利用PyTorch实现的解决方案在GitHub上开源。同时也有许多新发表的论文采用PyTorch作为工具,PyTorch正在受到越来越多人的追捧。如果说TensorFlow的设计是“Make It Complicated”、Keras的设计是“Make It Complicated And Hide It”,那么,PyTorch的设计真正做到了“Keep it Simple,Stupid”。
但由于推出时间较短,在Github上并没有Caffe或TensorFlow那样多的代码实现,使用TensorFlow能找到很多别人的代码,而对于PyTorch的使用者,可能需要自己完成很多的代码实现。