5月29日AI资讯汇总|字节版Lovart?一句话生成AI短视频的时代来了!小云雀AI!DeepSeek R1-0528更新
作者:微信文章🌟
05月29日 AI资讯
【AI 应用/模型】
字节小云雀AI: 下一代内容创作Agent,一句话生成AI短视频与图形设计。DeepSeek :发布DeepSeek R1-0528Lemon AI:全栈通用AI Agent,具备自主性和工具调用能力,可从需求到成果交付全流程自动化Opera:宣布 Neon alpha ,具有 AI 功能的代理浏览器
【AI 视频】
可灵AI:正式宣布推出全新2.1系列模型
【AI 音频】
Chatterbox: Resemble AI 的首个生产级开源 TTS 模型,具有高情感表现。
🤖️AI 设计
字节跳动:推出内容Agent"小云雀AI"
字节跳动近日推出全新内容Agent"小云雀AI"。"小云雀AI"采用Agent架构,用户只需输入简单指令,系统即可主动思考、智能执行,快速生成爆款视频与图片,实现"灵感即所得,创作零门槛"。
AI智能成片:输入视频主题想法,AI自动拆解视频概念,规划视频分镜和内容,生成包含字幕、转场、配乐的完整短视频。
小编测试效果:
数字人视频:可选择虚拟主播形象,输入文本,上传图像元素生成口型匹配的播报视频。AI设计助手:一键生成海报、LOGO、Banner等设计作品,支持风格自定义。
备注:"小云雀AI"已上线安卓客户端,用户可在应用商店搜索下载,iOS版本预计6月发布。
🌟地址:
https://xiaoyunque.zlinkurl.cn/df66
🤖️AI 应用/模型
DeepSeek :发布DeepSeek R1-0528
2025年5月28日,在Hugging Face上开源了其R1模型的更新版本——DeepSeek R1-0528。尽管官方称此次为“小版本试升级”
🐱
新版本在审美、代码生成、长时推理、格式控制等关键能力上获得了显著提升,性能直指业界顶尖水平。
DeepSeek R1-0528据称基于DeepSeek-V3-0324训练,改进了早期 R1 模型的重复、格式混乱和语言混合问题,参数规模为660B
此次更新不仅包含了模型权重和配置文件,也同步上线了App、官网及API调用服务。
新版本以MIT许可证发布,完全开放商业用途,并允许对其输出结果进行模型蒸馏,体现了DeepSeek在算法、产品与授权层面的“全栈开源”策略。
核心亮点包括:
编程能力大幅增强:在LiveCodeBench等编程测试中,R1-0528表现接近OpenAI o3-mini(High模式)和o4-mini(Medium模式)深度推理与长时思考:模型展现出更深度的推理能力,输出文本更自然、结构更有层次。据悉,其单任务可持续处理时间长达30-60分钟,在长链条逻辑题中可进行20余步的符号化推理。优化的文本生成与格式控制:输出文本的结构和自然度得到改善。开源与商业友好:采用MIT许可证,支持商业化应用和模型蒸馏。DeepSeek还同步开源了6个不同规模的子模型,鼓励模型蒸馏,使开源策略更贴近实际部署场景。
🌟地址:
https://huggingface.co/deepseek-ai/DeepSeek-R1-0528
Opera: 宣布 Neon alpha,AI驱动的未来代理浏览器
Opera宣布推出其全新的AI驱动的代理浏览器 (agentic browser) Opera Neon,并已开放Alpha版本的候补名单。
这款浏览器旨在通过深度整合人工智能,从根本上重新思考浏览器在即将到来的“代理网络 (agentic web / Web 4o)”时代中所扮演的角色,不仅仅是网页的查看器,更是能够理解用户意图并主动执行任务的智能伙伴。
Opera Neon的核心AI功能围绕三大支柱构建:
Neon Chat (聊天): 作为浏览器原生的、完全集成的AI助手,用户可以与其进行对话式交互,进行网页搜索,获取当前页面的上下文信息,并执行用户期望的AI聊天功能。Neon Do (执行): 基于此前展示的“浏览器操作员 (Browser Operator)”技术,Neon能够理解网站的文本内容结构,并代替用户与网站进行交互。例如,自动填写表单、预订行程、在线购物等。Opera强调这些操作在本地浏览器中完成,以保护用户隐私和安全。Neon Make (创造): 这是Opera Neon最具创新性的功能,它配备了一个完整的AI引擎,能够理解用户的创造意图,并为用户构建内容。例如,根据用户需求创建报告、原型游戏、交互式Web应用甚至代码片段。这些任务可以在云端计算机上执行,即使用户离线也能继续处理。
🌟信息地址:
https://blogs.opera.com/news/2025/05/opera-neon-first-ai-agentic-browser/
Lemon AI:全栈通用AI Agent,具备自主性和工具调用能力,可从需求到成果交付全流程自动化
Lemon AI是一个开源的通用人工智能代理,能够自动化从需求规划到结果交付的整个流程。它能够独立思考并系统地调用虚拟环境中的各种工具,例如编写和执行代码、智能浏览网页、运行 Web 应用程序以及执行命令。
Lemon 擅长将复杂的任务系统化地分解并有序地执行,自动分析任务、确定步骤优先级、动态调整计划并实时跟踪进度。它的目标是帮助用户高效地完成各种任务。
功能与特点:
复杂任务解决:Lemon能够解决各种复杂多变的任务。通过独立思考和系统规划,灵活调用虚拟环境中的各种工具,例如编写和执行代码、智能浏览网页、操作Web应用程序等。
实时任务监控:用户可以通过页面端实时查看任务的执行情况
多场景覆盖:市场调研、财务分析、数据分析、代码编程、人生规划等领域的复杂任务处理。
🌟地址:
www.lemonai.cc
🤖️AI视频可灵AI:正式宣布推出全新2.1系列模型
可灵2.1的AI视频效果,大家可以查看我们先前的测试视频。
🤖️AI 音频
Chatterbox:Resemble AI 首个生产级开源TTS模型,主打高情感与自然度
Resemble AI 近期推出了其首个生产级开源文本转语音(TTS)模型——Chatterbox。该模型以MIT许可证在GitHub上发布,旨在为开发者提供一个可与领先闭源系统相媲美的高质量语音合成方案。
Chatterbox 特别强调其在生成自然且富有情感的语音方面的能力,并且是首个支持情感夸张控制(emotion exaggeration control)的开源TTS模型,这一特性使其生成的语音更具表现力。
Chatterbox 的核心技术亮点包括:
先进的零样本TTS (SoTA zeroshot TTS):仅需几秒钟的参考音频,即可生成高度逼真的个性化语音,无需为特定声音进行专门训练。基于0.5B Llama骨干网络:利用强大的语言模型作为基础,确保了语音生成的流畅度和自然度。独特的情感夸张控制:允许用户调整生成语音的情绪强度、语速和语调,使其在视频、游戏、AI代理等应用中更加生动。大规模训练数据:在超过50万小时的清晰音频数据上进行训练,保证了模型的泛化能力和稳定性。内置Perth神经水印技术:为确保负责任的使用,Chatterbox生成的每段音频都嵌入了Resemble AI的Perth神经水印,该水印在音频编辑和压缩后仍能保持近100%的检测准确率,有效防止滥用并确保内容可追溯。低延迟性能:据称可实现低于200毫秒的超低延迟,适用于交互式应用。
官方效果:
🌟信息地址:
https://github.com/resemble-ai/chatterbox
⚠️部分内容由AI生成
💗有任何疑问,请提前联系邮箱:alolg@163.com
求一波关注!点赞!转发!
页:
[1]