AI Repos
1、All-Model-Chat
All Model Chat 是一款为Google Gemini API家族设计的网页聊天应用,支持多模态输入(图片、音频、PDF等)和多种模型(如Gemini Flash、Imagen)。它提供了丰富的自定义功能,包括高级AI参数控制、思维过程展示、语音转文本/文本转语音、Google搜索增强等。应用将聊天历史自动保存在浏览器本地,确保数据隐私。用户无需安装,仅需输入API密钥即可在线体验,也可在本地进行开发部署。
AI News
1、Liquid AI开源LFM2模型:边缘计算领域的新里程碑
Liquid AI宣布开源其下一代Liquid Foundation Models(LFM2),这一高效混合模型专为边缘设备优化,在速度、能效和性能上树立了新标准。LFM2系列包括350M、700M和1.2B三个参数规模的模型,采用创新的结构化自适应算子架构,显著提升训练效率和推理速度。此外,LFM2在指令跟随和函数调用等关键任务上表现优异,成为本地化和边缘AI应用的理想选择。通过开源LFM2,Liquid AI不仅展现了技术自信,也为全球开发者提供了探索新型AI架构的机会。
2、智源研究院发布RoboBrain2.0与RoboOS2.0
智源研究院最新发布的RoboBrain2.032B版本和RoboOS2.0单机版,标志着具身智能技术的重大突破。RoboBrain2.0作为一种通用具身大脑,结合了感知、推理和规划的能力,在多项权威基准测试中取得突破性成绩。RoboOS2.0作为全球首个具身智能SaaS开源框架,支持多智能体协作,推动机器人从单机智能向群体智能发展。这两项技术的开源将极大促进具身智能的应用和发展。
3、拍我AI重磅升级:多关键帧生成功能开启AI视频创作新纪元
7月11日,全球用户量突破6000万的AI视频创作平台拍我AI(PixVerse)宣布重大功能升级,新增「多关键帧生成」功能,标志着AI视频创作进入“故事性表达”新阶段。用户现可上传最多7张图片作为关键帧,AI将智能构建流畅的动作与场景转换路径,适用于短剧分镜、产品演示等场景。此技术突破由爱诗科技创始人兼CEO王长虎博士介绍,旨在提升电影预告、广告剧情短片等高叙事需求领域的创作效率。拍我AI国内版已支持多国语言,此次升级将进一步推动AI视频生成技术的普及。
4、IndexTTS2:开启文本转语音技术的影视级时代
IndexTTS2作为一款即将发布的文本转语音大模型,以其影视级的生成效果、零样本语音克隆、全球首创的情绪与时长控制功能,标志着TTS技术的新高度。完全本地化部署和开放模型权重的策略,为开发者提供了极大的灵活性和低成本的使用门槛。支持英语和中文,未来有望扩展更多语言,展现出在影视制作、虚拟角色开发等领域的巨大潜力。
5、Meta与伯克利联手推出StreamDiT
Meta与加州大学伯克利分校的研究团队开发了StreamDiT,一款能够以每秒16帧速度实时生成512p分辨率视频的AI模型。该模型拥有40亿个参数,支持即时生成和编辑视频,展现了前所未有的实时视频流生成能力。通过优化架构和加速技术,StreamDiT在动态视频生成方面优于现有方法,预示着实时交互式视频内容创作的广阔前景。
6、月之暗面重磅推出开源大语言模型Kimi K2
中国人工智能企业月之暗面近日发布了其最新的开源大语言模型Kimi K2,该模型采用混合专家架构,总参数量达到1万亿,激活参数为320亿,展现出强大的智能体能力,包括自主调用工具和执行代码的能力。通过MuonClip优化器,Kimi K2的训练过程更加迅速和精准。月之暗面还宣布了基础模型的开源和API服务策略,推动多场景应用的发展。Kimi K2的发布标志着开源模型在通用智能领域与闭源系统形成实质性竞争,显示出广泛的市场潜力。
文章内容引用自:jungleBlog