多客科技 发表于 2025-6-22 20:23

AI简报:AI已超越现有产品,创新/创业机会巨大(2025.6.16-2025.6.22)

作者:微信文章
“AI正在驶入创新创业黄金期,目前模型能力已大幅度超越现有产品应用,即使模型技术停滞不前,仍有大量创新产品待开发。”



01
【国内】
华东师范大学传播学院院长王峰介绍:只要给300字刚要,智能写作在80分钟能写30万字长篇小说,10年以后能达到专业作家水平,但不包括余华、莫言这种“大神”级别,未来能让50%的人都能写作。

专访浙商银行原行长刘晓春:AI产生泡沫的原因在于创新逻辑错位,目前银行对AI态度较为谨慎。

MiniMax推出Hailuo Video Agent视频创作Agent的Beta版本。通过简单输入文字或图片,即可一键生成高质量创意短片。

腾讯AI Lab开源了音乐生成大模型SongGeneration,专注于解决音乐AIGC中的音质、音乐性与生成速度三大难题。其支持文本控制、多轨合成与风格跟随等功能,生成歌曲在音质、旋律、伴奏等方面表现优异。



昆仑万维开源Skywork-SWE-32B模型,是业界首个开源的32B规模、具备强大仓库级代码修复能力的软件工程自主代码智能体基座模型。模型即能精准定位问题源文件与具体缺陷,生成patch修复方案(如下图所示)
https://mmbiz.qpic.cn/sz_mmbiz_png/xciaZIibdKg1UB7Dy7THXNv5E3tbwHayEWJv0cM8XubU2gwFK3rlTVlJPHqzHAJ1jvtzmZpYxQUqkqlgWia2o0t0w/640?wx_fmt=png&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1

DeepSeek推出DeepSite V2版本,基于DeepSeek R1‑0528模型的AI网页生成器。用户通过文字提示即可生成、预览并迭代网站页面,无需本地环境配置。

宇树科技完成C轮融资交割,估值超过100亿,由移动旗下基金、腾讯、锦秋、阿里、蚂蚁、吉利资本共同领投,绝大部分老股东参与跟投。

MiniMax发布的MiniMax Agent通用智能体。能完成长程复杂任务,具备多步规划和灵活拆解任务需求的能力,可生成讨论材料、学习教程、视频等多种内容。设计遵循“靠谱的人”标准,支持多模态输入输出,集成多种办公工具扩展能力。

AI陪伴硬件初创公司珞博智能完成数千万人民币天使轮融资。其成立于2024年,首款产品芙崽Fuzozo于2025年3月发布,6月正式投入市场销售。芙崽是一款AI养成系潮玩,通过多模态交互与类宠物养成玩法,为Z世代人群提供情感陪伴。
https://mmbiz.qpic.cn/mmbiz_png/Iv45HMwL7APPdEGc54yRYU5KRld1PxNbskR6pUW72X2JxKd0z8TRQzzMAO0fd4ESlTfmCgzUhY0iclvhyCaUyog/640?wx_fmt=png&tp=webp&wxfrom=5&wx_lazy=1

红杉中国开源xbench评测集,包括xbench-ScienceQA和xbench-DeepSearch两个子集。xbench-ScienceQA聚焦高难度科学与工程问答,邀请博士生和专家出题,题目难度高、区分度好,平均正确率仅32%。xbench-DeepSearch针对 AgentAI的深度搜索能力,考察规划、搜索、推理和总结能力,适配中文互联网环境。



海螺AI推出新版本Hailuo 02,这个模型目前在图生视频、文生视频的榜单位于第二,超越快手可灵以及谷歌Veo 3,仅次于字节上周刚刚发布Seedance 1.0。

字节跳动Seed与比亚迪锂电池深化合作,将成立AI联合实验室加速电池研发。双方将通过联合实验室,进一步探索AI技术在动力电池快充、寿命和安全等问题上的应用,推动电池技术进步。

腾讯元宝上线AI编程模式,用户可通过“一句话写代码”实现快速编程。模式基于DeepSeek V3模型,支持双栏展示,左侧提需求,右侧实时生成代码并可在线运行。



豆包电脑版和网页版上线“AI播客”功能。用户只需上传PDF文件或添加网页链接,可生成自然流畅的拟人化双人对话播客。用户可将行业报告、课程知识点等资料上传,快速生成通俗易懂的播客。

MiniMax发布全球首个开源大规模混合架构推理模型MiniMax-M1。在复杂生产力场景中表现卓越,接近海外领先水平,性价比极高。M1支持100万上下文输入和8万Token推理输出,基于闪电注意力机制和混合架构,算力效率显著提升。强化学习算法CISPO收敛性能优异,训练成本仅53.74万美金。

Qwen3模型宣布全系适配苹果芯片的MLX框架,开源32款量化模型。MLX是专为苹果芯片深度适配的开源机器学习框架,可高效训练和部署AI大模型。


月之暗面开源代码模型Kimi-Dev,在SWE-bench Verified上以60.4%的成绩取得开源SOTA,其参数量仅72B,但编程能力超越DeepSeek-R1。Kimi-Dev采用BugFixer和TestWriter两种角色,通过文件定位和代码编辑实现功能。
https://mmbiz.qpic.cn/mmbiz_png/YicUhk5aAGtAeDEJYB2bJ1qUEw0e6WiaH6vXEvM6Z0gmNKo01deFYRmbIz43NjicRGoFAYemVQz6tLHnzJDu66Vnw/640?wx_fmt=png&from=appmsg&watermark=1&tp=webp&wxfrom=5&wx_lazy=1

Clacky AI是面向开发者的云端开发环境(CDE),打造L3级别的AI编程助手。支持全栈开发,具备工程化思维、多线程协作、自我排查与修复等功能,提供“时光机”功能追溯开发节点。



腾讯宣布混元3D 2.1大模型全链路开源。是首个开源的工业级3D生成大模型,相较于2.0版本,2.1优化了几何生成质量,引入PBR材质生成技术,提升了3D资产的质感和光影表现。


百度地图全球首发「司机智能体」功能,为用户带来智能副驾般的驾驶体验。通过先进的智能技术,为司机提供实时路况提醒、智能导航建议以及安全驾驶辅助等服务,帮助用户更轻松地应对复杂路况,提升驾驶自由度和安全性。
https://mmbiz.qpic.cn/mmbiz_jpg/HlMVAD2ekD18ia30THjzQZGGrcxpvmX0HRzHDL4AK1LDHvKcHWC10Eico23NaknOwTDaR4IGxvt3k4lwVibDlViaKA/640?wx_fmt=jpeg&from=appmsg&tp=webp&wxfrom=5&wx_lazy=1


02
【国际】
Altman称AI正在驶入创新创业黄金期,目前模型能力已大幅度超越现有产品应用,即使模型技术停滞不前,仍有大量创新产品待开发。

xAI旗下的Grok上线“定时任务”。支持用户设置定时自动触发的Grok提示,实现重复性工作的自动化。用户可以自定义任务的触发时间(精确到时/分)、周期(如每天、每周、每月等),设置邮件或App提醒。定时任务支持深度搜索功能。

谷歌在Search Live语音搜索功能,用户在启用AI模式后,点击Live图标即可通过语音对话提问,谷歌会以AI语音回应,支持连续对话,无需重复操作。

Midjourney推出视频生成模型V1。用户在生成静态图像后,点击“Animate”按钮即可让画面动起来。生成视频后,能进行延长操作,每次延长约4秒,最多可延长4次。

Gemini新增视频上传与分析功能,可对视频进行概述、查找特定部分等操作,Gemini 会显示相关视频片段。功能基于其总结 YouTube 视频的能力拓展,目前不支持直接录制视频上传。

OpenAI更新其“热线电话”技能,用户可通过WhatsApp向1-800-242-8478发短信调用图像生成功能。OpenAI为WhatsApp集成ChatGPT,用户无需OpenAI账号,将1 (800) CHATGPT添加到联系人即可使用。

Google发布Gemini 2.5 AI模型家族更新,三大亮点:Gemini 2.5 Flash-Lite上线预览版,支持多模态输入、Google搜索、代码执行等工具接入;Gemini 2.5 Flash正式上线并调整定价,输入每百万Token价格为0.3美元,输出为2.5美元;Gemini 2.5 Pro 在多个基准测试中超越DeepSeek R1等模型,视频理解能力显著提升。


美国国防部与OpenAI签订了一份价值2亿美元的合同,开发人工智能工具以应对国家安全挑战。根据合同,相关工作将在华盛顿及其周边地区开展,预计于2026年7月完成。

OpenAI 的 ChatGPT Codex 推出新功能,可为单一任务生成多个解决方案,用户能从中选择最佳答案。增加了键盘快捷键,优化了代码差异显示,修复了多项问题,提高了专业版、团队版和企业版用户的设置脚本时长限制至 20 分钟。

加州大学戴维斯分校研发的新型脑机接口技术取得重大突破,成功帮助一位渐冻症患者重新流畅说话甚至“哼唱”旋律。技术通过植入大脑的微电极阵列捕捉神经信号,结合低延迟处理和AI解码模型,将信号转化为语音输出,全程仅需10毫秒。系统能识别语气词、判断音高并合成旋律,使语音表达更自然。

页: [1]
查看完整版本: AI简报:AI已超越现有产品,创新/创业机会巨大(2025.6.16-2025.6.22)