当前位置: 首页 > 攻略新闻 > 手机教程

DeepSeek发布NSA技术报告,优化长文本处理

文章来源:互联网 作者:欧易 发布时间:2025-02-24 03:28:00

DeepSeek在2月18日于社交平台X发布了一篇关于NSA的技术报告。NSA是一种稀疏注意力机制,它与硬件匹配良好且可直接训练,适用于快速处理长文本的训练和推理。经过优化设计后,NSA不仅提高了推理速度,还减少了预训练成本,同时保持了性能优势。无论是在常规测试还是特定任务中,NSA的表现都可与完全注意力模型相媲美甚至更优。

民生证券指出,像DeepSeek这样的领先模型促进了AI应用的发展,使得算力需求从训练转向推理。随着微信等大型APP接入DeepSeek,国民级应用对算力的需求不断增长,这为算力行业带来了新的机遇。例如,青云科技已上线支持DeepSeek-R1系列模型的AI算力云服务;润建股份与希姆计算合作,推出了基于DeepSeek技术的全国产算力政务智能体一体机,构建了自主可控的算力生态。

相关资讯
最新应用