康叔的AI全栈工坊

康叔的AI全栈工坊

Code for Life, AI for Future

【20250321AI日报】国际业务 GTV 突破 900 亿，2024 年滴滴出海扛起增长「大旗」

本文字数：约 7246 字，预计阅读时间：24 分钟OpenAI加码写作赛道？阿里最新大模型通用写作能力基准来了OpenAI近期在写作赛道的动作不断，引发了业界广泛关注。阿里也在此时发布了其最新大模型的通用写作能力基准，涵盖6大领域、100个细分场景，共计包含1000+条评测数据。这项基准测试不仅有助于评估和提升大模型的文本生成能力，也为未来大模型在写作领域的应用提供了科学依据。阿里发布的通用写作能力基准测试涵盖了新闻写作、科技报道、文学创作、商业文案、法律文书以及学术论文六大领域，每个领域下又细分为多个具体场景。例如，新闻写作领域包含突发事件报道、财经新闻、体育新闻等子类别；科技报道领域则包含技术趋势分析、科技产品评测等子类别。通过这些细致的分类，可以全面地评估大模型在不同写作任务中的表现。阿里大模型团队表示，本次发布的基准测试旨在提供一个公正、全面的评估体系，以推动大模型在自然语言生成领域的进一步发展。除了通用写作能力的评估，阿里还计划在未来发布更多针对特定应用场景的基准测试，如对话系统、知识问答等，以进一步完善其大模型的评测体系。ICLR 2025 Oral｜突破深度学习求解PD

今日新鲜事 · 03-20

【20250320AI日报】哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高

本文字数：约 3800 字，预计阅读时间：15 分钟重点新闻哥大最新调研：多款 AI 搜索引用错误率高达 60%，付费版本错误率更高哥伦比亚大学数字新闻研究中心（Tow Center for Digital Journalism）近期对多款 AI 搜索工具的引用内容正确率进行了研究。研究对象包括 ChatGPT Search、Perplexity、Perplexity Pro、Gemini、DeepSeek Search、Grok-2 Search、Grok-3 Search 和 Copilot 在内的 8 款 AI 搜索工具。结果显示，这些工具在引用新闻内容时表现不佳，错误率高达 60%。研究还发现，付费版本的错误率更高，尽管这些版本更自信地给出错误答案，但并未提供更准确的结果。此外，AI 工具倾向于引用转载版本而非原始来源，严重影响了用户体验和出版商权益。这表明当前 AI 搜索工具在准确性和信任度上仍有很大改进空间。其他新闻接入DeepSeek，小红书要谨慎一“点点”小红书计划接入DeepSeek，以增强其内容推荐和搜索功能。然而，公司对此持谨慎态度，担心DeepSeek可能影响社

今日新鲜事 · 03-19

【20250319AI日报】深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述

本文字数：约 3160 字，预计阅读时间：13 分钟深度学习的平衡之道：港科大、港城大等团队联合发布多目标优化最新综述深度学习在解决复杂问题时面临的一个挑战是如何在多个目标之间找到平衡。近日，香港科技大学（HKUST）、香港城市大学（CityU）等研究团队联合发布了关于多目标优化的最新综述论文。该论文总结了多目标优化在深度学习中的最新进展，涵盖了从理论基础到应用实践的广泛内容。多目标优化问题在现实世界中普遍存在，例如在机器学习中，我们可能需要同时最小化误差和最大化模型的泛化能力。然而，这两个目标往往互相矛盾，这就需要寻找一个合适的平衡点。该综述论文探讨了多种多目标优化方法，包括进化算法、基于梯度的方法和混合方法等，并分析了它们在不同场景下的适用性和局限性。该综述还特别强调了深度学习在多目标优化中的应用。它指出，通过深度神经网络的多目标学习能力，可以有效提升模型在复杂任务上的性能。例如，在图像分割任务中，模型需要同时识别多个类别的物体，这就需要优化多个目标。通过引入多目标优化策略，可以显著提升模型的分割精度。该论文的发布不仅为研究人员提供了多目标优化在深度学习中的全面视角，也为实际应用提

今日新鲜事 · 03-18

【20250318AI日报】华人团队提出「CoD」草稿链，减少 80% Token，AI 省钱第一名！

本文字数：约 6000 字，预计阅读时间：15 分钟华人团队提出「CoD」草稿链，减少 80% Token，AI 省钱第一名！在 AI 领域，大规模语言模型（LLMs）展示了强大的推理能力。然而，这些模型在处理问题时通常生成长长的「思维链（Chain-of-Thought, CoT）」，导致计算成本和延迟较高。为解决这一问题，Zoom 研究团队提出了一种全新的推理范式——「草稿链（Chain-of-Draft, CoD）」。CoD 通过模仿人类简洁的思维过程来提升推理效率，显著降低成本。研究显示，使用 CoD 能将 Token 使用减少 80%，大幅降低计算成本。尽管 CoD 在某些任务中的准确率略低于 CoT，但总体上保持了相近的水平。以算术推理任务为例，GPT-4o 和 Claude 3.5 Sonnet 模型在 GSM8k 数据集上的准确率分别为 91.1% 和 91.4%，而 CoT 的准确率分别为 95.4% 和 95.8%。尽管 CoD 的准确率略低，但将 Token 使用减少了 80%，延迟分别降低了 76.2% 和 48.4%。通过「草稿链」，AI 模型可以生成极简的中

今日新鲜事 · 03-17

【20250317AI日报】狂揽1445亿！毛利碾压特斯拉，理想却要豪赌AI？

本文字数：约 6600 字，预计阅读时间：22 分钟狂揽1445亿！毛利碾压特斯拉，理想却要豪赌AI？国内对AI最上进的公司，可能要数理想——两个月前，理想汽车高调宣布All in AI，引发行业对其AI布局的广泛关注。3月14日，理想发布2024年第四季度及全年财报，为市场提供了一窥其最新进展的重要窗口。财报显示，2024年理想汽车实现营收1445亿元，同比增长16.6%；全年净利润80亿元，同比下滑31.9%。虽然营收持续增长，但盈利能力受到挑战。同时，现金储备增至1128亿元，展现出较强的财务稳健性。全年交付量达50.05万辆，同比增长33.1%，保持了高速增长态势。面对市场高度关注的AI战略，理想汽车创始人李想在财报会上并未透露太多。他确认AI研发投入将显著增加，但并未透露具体布局，仅强调理想将依靠自身的造血能力推进AI发展。财报发布后，理想汽车股价下跌4.39%，收于27.46美元，最新市值291.35亿美元（约合2108.75亿元人民币）。2024年，理想汽车依旧稳坐造车新势力的头部位置，但营收增速明显放缓。2024年Q4，理想汽车营收为443亿元，同比增长6.1%，环比增

今日新鲜事 · 03-16

Theme Jasmine by Kent Liao