近年来,深度学习网络凭借卓越的能力,在不同领域取得了成果,但训练出高质量的深度学习网络面临挑战。尽管可视化方法为深度学习网络训练提供了辅助,但当前主流的事后分析策略在实际应用中存在较多问题,如数据量庞大导致存储困难、I/O开销过高以及无法实现实时干预等。特别是对于深度学习网络训练过程产生的海量时间序列数据,现有工具难以从中提取出详细的训练过程信息,这阻碍了模型优化。
中国科学院计算机网络信息中心先进交互式应用与发展部团队创新性地提出了针对深度学习模型训练数据的原位可视分析框架,形成了原位特征提取算法和神经元学习模式抽象算法。原位特征提取算法在模型运行时复用内存数据,实时分析动态数据,解决了传统事后分析的数据存储和I/O瓶颈问题;而神经元学习模式抽象算法则基于原位特征数据,抽象出神经元的三种学习模式,为可视分析提供支持。
这一框架在性能方面表现良好,对千万参数深度神经网络模型的时序训练数据压缩率可达1% ,能够支撑训练全过程的问题可视分析与回溯,可以实现batch level神经元信息可视化,为深度学习模型优化提供全新视角和支持。
相关研究成果被IEEE Transactions on Visualization and Computer Graphics录用。研究工作得到国家自然科学基金和中国科学院战略性先导科技专项的支持。
深度学习模型原位分析流程
深度学习模型原位可视分析系统
文章来源:中国科学院