本文字数:约 3300 字,预计阅读时间:15 分钟
Korean AI startup Motif reveals 4 big lessons for training enterprise LLMs
Motif Technologies,一家韩国的AI初创公司,最近发布了一个名为Motif-2-12.7B-Reasoning的模型,并分享了他们在训练企业LLM时的四大重要经验。这些经验对希望构建或微调自己模型的企业团队有着极大的参考价值。
第一,推理能力的提升来自于数据分布而非模型大小。Motif发现,合成推理数据只有在与目标模型的推理风格匹配时才有效。这意味着企业内部团队不应简单地复制外部数据集,而应确保合成数据符合推理阶段所需的格式、冗长程度和步骤细节。
第二,长上下文训练首先是一个基础设施问题。Motif在Nvidia H100级硬件上实现了64K上下文训练,这依赖于混合并行性、仔细的分片策略以及激进的激活检查点技术。这对于希望构建具有长上下文能力模型的企业来说是一个重要的提醒:长上下文能力需要在训练堆栈的早期设计中考虑。
第三,强化学习微调需要数据过滤和重用。Motif的强化学习微调(RLFT)管道强调了根据任务通过率进行难度感知的过滤,而不是无差别地扩展奖励训练。这种方法有助于避免性能退化、模式崩溃或基准测试之外的脆弱收益。
第四,内存优化决定了训练的可行性。Motif通过内核级优化来减少强化学习的内存压力,表明内存而不是计算能力经常是瓶颈。对于运行共享集群或受监管环境的企业来说,这强调了需要进行低级工程投资,而不仅仅是模型架构的实验。
Motif-2-12.7B-Reasoning模型的成功证明,通过精心设计的训练流程,企业可以训练出具有竞争力的模型,而不仅仅依赖于模型的规模。对于构建专有LLM的企业来说,早期投资数据对齐、基础设施和训练稳定性是关键。
Tokenization takes the lead in the fight for data security
Tokenization,一种将敏感数据替换为无意义的数字代号的技术,正逐渐成为现代数据安全的基石。相比其他方法如加密,tokenization能够有效减少数据泄露的风险,因为即使数据被获取,也只是一个无意义的代号。这种方法不仅提高了数据的安全性,还保留了数据的格式和可用性,使得数据可以在AI模型等应用中继续使用。
Capital One Software的总裁Ravi Raghu在一次VB in Conversation中强调了tokenization的重要性。他指出,tokenization通过将敏感数据替换为无价值的代号,从而避免了加密方法中需要管理加密密钥或计算加密和解密的必要性。这使得tokenization成为保护敏感数据的最具可扩展性的方式之一。
尤其在处理受监管的数据(如医疗数据)时,tokenization不仅可以确保合规性,还允许数据用于建模和分析,从而实现保护和业务促进的双重目标。Raghu表示,tokenization不仅可以保护数据,还可以促进数据的广泛使用,为企业创造更多价值。
Capital One的Databolt解决方案是一种无库tokenization技术,通过数学算法和加密技术动态生成token,具有高速度和大规模处理能力。Raghu提到,通过这种技术,他们每月可以生成超过1000亿个token,实现了大规模的tokenization应用。
极客公园:一直寻找那个与众不同的「Why」

极客公园创始人张鹏在极客公园创新大会上的演讲中分享了极客公园的使命和未来方向。极客公园从一个兴趣小组发展为创业者社区,始终忠于发现和帮助非共识的创新者。张鹏认为,成功的创新在于基于宽广世界观的推理,是一种“见识-认知-行动”的闭环。通过与科技趋势、产品和创业者保持紧密联系,极客公园致力于成为创新者的伙伴,共同创造价值。
何恺明组三位本科生领衔!持续聚焦Flow模型,突破归一化流生成效率瓶颈

中国科学技术大学何恺明团队的三位本科生在Flow模型领域取得了重要进展,他们突破了归一化流生成的效率瓶颈,将速度提升了两个数量级。Flow模型是一种用于生成模型的概率模型,该团队通过一系列技术创新,显著提高了模型的生成效率,推动了Flow模型在实际应用中的进展。
尚水智能:股东比亚迪身兼大客户,信息披露缺失引关注|IPO观察

尚水智能在申请IPO时的信息披露缺失问题引起了广泛关注。该公司九成以上收入依赖前五大客户,其中比亚迪既是第一大客户又是第四大股东。双方交易毛利率显著高于其他客户,这引发了市场对信息披露完整性和透明度的质疑。
临近年关,机器人行业展望2026年

随着2025年即将结束,机器人行业预计将在2026年看到竞争格局的初步结果。这一年,机器人技术的进步和商业化进程将继续加速,尤其是在自动化、协作机器人和智能服务机器人领域。行业内的企业将通过技术创新和市场拓展来争夺市场份额。
2025,消费行业的5个切面

消费行业在2025年呈现出五大关键趋势:人口结构的变化、品类创新、渠道多样化、技术应用和资本注入。这些趋势共同推动着消费市场的转型,特别是在数字营销、个性化产品和服务、以及可持续消费方面。
营收同比暴增4225.65%背后,这一“抗衰利器”正在走下神坛

某款抗衰老产品在2025年实现了营收的极大增长,但这种增长背后可能隐藏着泡沫。随着消费者对这类产品的认知逐渐成熟,其市场热度正在逐渐消退。这提醒企业和投资者需要更加关注产品的长期价值和市场的真实需求。
朴朴打响IPO“守擂战”

朴朴公司正在为即将到来的IPO做准备,希望通过上市提升其市场地位和资本实力。在竞争激烈的市场环境中,朴朴将面临来自其他巨头公司的挑战,需要通过持续创新和优化运营来巩固其市场地位。
美团暂停「团好货」业务,外卖员揽不动快递的活?

美团暂停了「团好货」业务,这引发了关于外卖员是否适合承担快递任务的讨论。尽管外卖员在物流配送方面具有一定优势,但他们的主要职责是快速送餐,而非处理快递业务。美团的这一决策反映了企业对于业务重心的重新评估。
新能源车商业模式将巨变,硬件亏本软件赚钱?

新能源汽车行业正在经历商业模式的转变,从传统的硬件销售转向软件和服务的盈利模式。这一变化反映了汽车行业对软件定义汽车的重视,以及通过OTA(Over-The-Air)升级等手段获取长期收益的趋势。
1.5万亿美元IPO要改写历史?SpaceX的太空帝国来了

SpaceX计划进行一次规模巨大的IPO,预计融资1.5万亿美元。这次IPO不仅将推动SpaceX进一步发展,还将重塑整个航天产业。通过资本市场的支持,SpaceX有望加速其太空探索和商业运营的进程,成为太空经济的领头羊。
光伏协会,为何要亲自下场参股产能收储?

光伏行业协会为了应对行业内的“内卷”问题,决定亲自下场参股产能收储。这一举措旨在通过行业组织的引导,帮助光伏企业优化产能结构,提高市场竞争力。这标志着光伏行业在提升整体效率和可持续发展方面迈出了重要一步。
茅台失去的十年

茅台在过去十年中经历了显著的变化,从十年前被看不起到如今追不上市场的步伐。这一变化反映了白酒行业内部竞争的加剧和市场环境的快速变化。茅台需要在品牌创新和市场策略上做出更多努力,以适应新时代的挑战。
Thinking Machines首款产品重大更新:K2 Thinking、Qwen3-VL都可以微调了
Thinking Machines公司对其首款产品进行了重大更新,现在K2 Thinking和Qwen3-VL都可以进行微调了。这一更新使得这两个模型能够更灵活地适应不同的应用场景,提升了它们的实用性和可扩展性。这对于希望使用这些模型的企业来说是一个重要的进步。
总结
今日AI领域的新闻主要集中在模型训练优化、数据安全、行业展望及企业动态等方面。Motif Technologies分享了企业LLM训练的四大关键经验,强调了数据对齐、基础设施和训练稳定性的早期投资对于企业的重要性。Tokenization技术的推广为数据安全提供了新的解决方案,特别是在保护敏感数据的同时保留其可用性。此外,行业对机器人、消费市场和新能源汽车的未来进行了展望,同时企业如SpaceX、茅台等也在面对市场变化和内部调整的挑战。
作者:Qwen/Qwen2.5-32B-Instruct
文章来源:钛媒体, VentureBeat, 极客公园, 量子位, 机器之心
编辑:小康
