如今,许多工程团队都面临着一个共同问题——模型规模过大。这个问题表现形式多样,但挑战的根源往往相似。
项目正在遭遇内存限制。随着参数规模达到数十亿甚至数万亿级别,数据中心必须跟上发展步伐。利益相关者需要关注供应商服务的阈值限制。成本通常也是一个重要问题。
然而,新兴技术正在为减少内存占用和计算负担提供更可行的解决方案。
当前的创新者是如何实现这一目标的?
让我们一起探讨。
输入和数据压缩
首先是输入压缩技术。
可以设计损失算法来压缩模型,甚至可以运行压缩模型与完整模型的对比;压缩方法在专用神经网络功能方面节省了大量空间。
以下是苹果机器学习研究资源中发布的论文片段:
"最近,多项研究在大语言模型的无训练和无数据压缩(剪枝和量化)方面取得了显著成功,实现了50-60%的稀疏性,将每个权重的位宽降至3或4位,相比未压缩基线的困惑度退化可忽略不计。"
这是该技术应用的一个实例。
微软的这份文档探讨了提示压缩,这是研究如何在系统中缩减数据的另一个重要组成部分。
稀疏性方法:聚焦与变化
有时可以削减系统设计的某些部分来节省资源。
考虑一个所有注意力区域都以相同方式工作的模型。但也许某些输入区域基本上是空白空间,而其余部分复杂且相关。模型的覆盖应该是同质化的还是一刀切的?在高注意力和低注意力区域上花费相同的计算量。
另外,系统工程师可以根据重要性移除那些不太受关注的标记。
在这一努力中,硬件也在不断进步。更专业的GPU和多核处理器在这种差异化方面具有优势,因此需要关注制造商在推出全新GPU设备类别方面的所有举措。
改变上下文字符串
网络规模的另一个主要问题与系统使用的上下文窗口相关。
如果是在序列上运行的典型大语言系统,该序列的长度至关重要。上下文意味着更多特定类型的功能,但也需要更多资源。
通过改变上下文,可以改变系统的"需求量"。以下是上述提示压缩资源的内容:
"虽然更长的提示具有相当大的潜力,但它们也带来了一系列问题,如需要超过聊天窗口的最大限制、保持上下文信息的能力降低,以及API成本的增加,包括金钱成本和计算资源成本。"
在此之后,作者们探讨了理论上可能广泛应用于不同类型修复的解决方案。
动态模型和强推理
目前还有两个重要趋势:一是强推理系统的出现,机器基于过往经验随时间学习行为;二是动态系统,其中输入权重和其他一切都随时间变化,而非保持不变。
这两者在帮助匹配人们构建系统时的设计和工程需求方面都显示出一定的前景。
还有扩散模型,通过添加噪声、分析并去除噪声来产生新的生成结果。我们在上周关于追求AI最佳方式的文章中讨论了这一点。
最后但同样重要的是,我们可以评估数字孪生等传统系统。孪生技术在精确仿真方面表现出色,但需要大量资源——如果有更好的方法,可能会节省大量计算资源。
这些只是我们一直在关注的部分解决方案,它们与边缘计算理念相辅相成,即在网络边缘的终端设备上进行更多处理。微控制器和小型组件可以成为处理数据的新方式,无需通过云端发送到某个集中位置。
在我们持续关注人们当前在AI领域的各种实践时,请思考所有这些技术进步。
好文章,需要你的鼓励
OpenAI宣布ChatGPT周活跃用户将达到7亿,较3月末的5亿用户增长40%,同比增长4倍。公司计划8月初发布GPT-5,该模型将整合o3系列的推理能力,创建统一的AI系统。商业客户增至500万,年收入达130亿美元。面对谷歌、Meta等竞争对手的激烈竞争,OpenAI正通过技术升级和用户体验优化来巩固市场领先地位。
复旦大学研究团队开发了MOVE数据集和DMA算法,让AI系统能够像人类一样根据动作模式而非外观来理解视频内容。该系统包含224个动作类别和26万帧标注数据,通过解耦动作与外观特征,实现了突破性的视频分割效果。这项技术在视频编辑、体育分析、安防监控等领域具有广阔应用前景,代表了从静态识别向动态理解的重要技术进步。
OpenAI宣布将在ChatGPT中添加"休息提醒"功能,当用户与AI聊天机器人交互时间过长时会弹出提示询问是否需要休息。此举旨在防止成瘾行为,类似于流媒体平台的观看提醒。同时OpenAI还改进了模型以更好地识别用户的心理困扰迹象,并在重大人生决策建议方面更加谨慎。专家建议用户主动设置使用时间限制,避免过度依赖AI工具。
伊利诺伊大学研究团队开发出UGST框架,解决了用户模拟器在对话中频繁出现的目标错位问题。通过将用户目标分解为可跟踪的子组件并采用三阶段训练方法,使小型模型性能提升14.1%,甚至超越大型模型,为对话AI训练提供了更可靠的用户模拟解决方案。
克服是什么意思 | 鸭子什么意思 | 孙悟空的真名叫什么 | 脾胃寒湿吃什么中成药 | 胃不消化吃什么药好 |
五是什么生肖 | 4月15号是什么星座 | 站着头晕是什么原因 | 2.25是什么星座 | 胆红素偏高有什么危害 |
钙化点是什么意思 | 红色的补色是什么颜色 | 八面玲珑指什么生肖 | 男性硬下疳是什么样子 | 瑜伽垫什么材质的好 |
什么可以保护眼睛 | 低gi食物是什么意思 | 什么食物不能一起吃 | 非分之想什么意思 | 棉涤是什么面料 |
死后是什么感觉hcv7jop9ns1r.cn | 摩羯座和什么座最配1949doufunao.com | 尿痛什么原因引起的96micro.com | 芃字五行属什么hcv7jop6ns2r.cn | 后脑勺发胀是什么原因hcv9jop3ns1r.cn |
小青柑属于什么茶hcv8jop1ns9r.cn | 什么是血铅fenrenren.com | 空调的几匹是什么意思mmeoe.com | 喝酒不能吃什么东西hcv8jop3ns9r.cn | 谷丙转氨酶高吃什么药hcv8jop4ns0r.cn |
烤乳猪用的是什么猪hcv8jop1ns0r.cn | 地高辛是什么药hcv7jop9ns0r.cn | 18年是什么年hcv8jop9ns1r.cn | 心脏问题挂什么科hcv7jop9ns0r.cn | 爷爷的兄弟叫什么hcv9jop1ns3r.cn |
鹅喜欢吃什么食物hcv9jop1ns1r.cn | 为什么糙米越吃血糖越高hcv9jop4ns1r.cn | 国手什么意思hcv8jop0ns2r.cn | 7月9日什么星座hcv9jop1ns1r.cn | 人乳头瘤病毒39型阳性是什么意思hcv9jop6ns6r.cn |