【AI News | 20250623】每日AI进展

AI Repos

1、tools
Strands Agents Tools提供了一个强大的模型驱动方法,通过少量代码即可构建AI Agent。它提供了一系列即用型工具,弥合了大型语言模型与实际应用之间的鸿沟,涵盖文件操作、Shell集成、内存管理(支持Mem0和Amazon Bedrock知识库)、HTTP客户端、Slack客户端、Python执行、数学工具、AWS集成、图像/视频处理、音频输出、环境管理、日志记录、任务调度、高级推理以及群体智能(Swarm Intelligence)等。这些功能旨在为AI Agent提供全面的能力支持,简化开发流程,并支持并行调用多个工具,极大提升了Agent的实用性和效率。

2、watercrawl
WaterCrawl是一款功能强大的开源Web应用,它整合了Python、Django、Scrapy和Celery,用于高效的网页抓取和数据提取。该平台提供高度可定制的爬取选项、强大的多语言搜索功能、实时异步处理以及全面的REST API。WaterCrawl支持Dify、N8N等AI/自动化平台集成,并提供多种客户端SDK。它可进行本地Docker部署,并强调在生产环境部署前需更新MinIO配置和环境变量,确保数据安全和功能正常。

3、RAG-Anything
RAG-Anything是基于LightRAG构建的一体化多模态文档处理RAG系统,旨在解决传统RAG系统无法有效处理现代文档中多模态内容(如图像、表格、公式、图表和多媒体)的挑战。该系统提供端到端的多模态管道,从文档摄取、解析到智能多模态查询应答,并支持PDF、Office文档、图像等多种文件格式。RAG-Anything通过MinerU进行高保真文档结构提取,并通过专业内容分析器、多模态知识图谱和混合智能检索,实现对文本、视觉、结构化数据和数学表达式的无缝处理和查询,特别适用于需要统一处理混合内容文档的学术研究和企业知识管理等场景。

4、CreatiDesign
CreatiDesign是复旦大学与字节跳动智能创作团队推出的一款统一多条件扩散Transformer模型,旨在解决自动化平面设计中对图像、次要视觉元素和文本等异构元素的精确控制难题。其核心在于通过最小的架构修改实现多设计元素的灵活和谐集成。模型具备多条件图像生成、借助多模态注意力掩码机制实现精准元素控制、以及支持零样本编辑等关键特性。研究团队还构建了包含40万平面设计样本的多条件标注数据集,并进行了全面的基准评估。

5、magenta-realtime
Magenta RealTime(Magenta RT)是谷歌推出的一款Python开源库,专为在本地设备上流式生成音乐音频而设计。作为MusicFX DJ Mode和Lyria RealTime API的本地伴侣,它允许用户通过简洁的代码指令生成短音频片段,并支持利用MusicCoCa模型融合文本与音频风格,以及使用SpectroStream进行音频分词。该项目旨在降低音乐创作门槛,提供GPU/TPU支持,并计划发布技术报告及更多功能,目前已开放Colab演示和本地安装,鼓励开发者参与贡献。

6、agents
Agents framework是一个开源平台,专为构建能够实时看、听、说的AI语音Agent而设计。该框架提供灵活的集成能力,支持多种STT、LLM、TTS和实时API的组合,并内置作业调度和分发功能。它与LiveKit的WebRTC客户端和电话系统无缝协作,支持数据交换和语义轮次检测。Agents框架具备MCP原生支持,允许在自有服务器上运行整个堆栈,包括LiveKit媒体服务器,为开发者提供高度可定制和开放的AI Agent构建环境,适用于开发交互式语音应用。

AI News

1、文心快码发布Comate AI IDE:首个多模态、多智能体协同AI开发环境
百度智能代码助手文心快码近日在百度AI开放日发布了其独立AI原生开发环境工具——Comate AI IDE。这款行业首个多模态、多智能体协同的AI IDE,通过首创的设计稿一键转代码功能,为开发者提供了高效、智能且安全的编程体验。Comate AI IDE在智能、拓展、协同、灵感四方面全面提升,具备AI辅助编码、多智能体协同以及多模态能力增强(如设计稿、图片、自然语言转代码)等核心功能,大幅提高了前端开发效率。此外,它还内置了多项开发工具,并支持MCP对接外部工具与数据,覆盖开发全流程。同时,“Comate Next计划”也已启动,旨在推动人机协同研发范式落地,并向全球开发者与企业开放共建通道。

2、网易有道开源“子曰3”数学模型:低成本高性能赋能教育公平
网易有道于6月23日正式开源其最新数学教育推理模型“子曰3”(Confucius3-Math),旨在通过低成本、高性能的AI工具助力教育公平。该模型能在消费级GPU上高效运行,训练成本仅为2.6万美元,推理性能达到DeepSeek R1的15倍,在高考数学题评测中取得98.5高分。其极低的服务成本(每百万token仅0.15美元)显著降低了AI在教育场景的应用门槛,有望缓解中小学教育资源不均和个性化辅导不足等问题。网易有道希望通过“子曰3”的开源,吸引更多开发者共同探索AI在教育领域的应用潜力,强调AI是推动教育公平的重要杠杆而非替代教师。

3、字节跳动内测美食AI产品“探饭”:豆包大模型赋能生活服务
字节跳动用户增长团队近期推出一款名为“探饭”的AI产品,该应用搭载豆包大模型,旨在为用户提供智能美食向导服务。据透露,“探饭”已支持购买团购套餐、点外卖及AI点菜等功能,目前通过抖音小程序进行小范围测试。此举显示出字节跳动正积极将AI技术融入本地生活服务领域,以期提升用户的美食体验。去年9月,“探饭”商标的申请也进一步印证了字节跳动对该产品的战略部署和未来发展规划。

4、阿里云发布PAI-TurboX:自动驾驶模型训练提速50%
近日,阿里云正式推出PAI-TurboX,这是一个面向自动驾驶领域模型的训练与推理加速框架,旨在提升感知、规划控制及世界模型的训推效率。该框架通过优化系统和数据处理,可将训练时间缩短高达50%,并在多模态数据预处理、大规模模型训练和实时智驾推理等多个环节提供全面解决方案。目前,PAI-TurboX已成功应用于多家车企,显著提升了自动驾驶技术的研发效率,例如在BEVFusion模型训练中提速58.5%,在MapTR中提速53%。此举将进一步推动自动驾驶领域的技术创新和应用落地。

5、MiniMax推出Voice Design音色设计功能:自由组合语言、口音、音色
MiniMax近日推出创新功能Voice Design音色设计,标志着语音合成技术的重大突破。此功能与Speech-02语音模型紧密结合,用户通过自然语言描述即可实现对语音的多维度精准控制,生成前所未有的音色。它支持“任意语言 × 任意口音 × 任意音色”的无限自定义组合,解决了现有音色库难以满足细分需求及复刻音色需大量素材和版权风险等挑战。用户只需简单描述,即可像“抽卡”般轻松获得并存储专属音色,极大地降低了AI语音技术的使用门槛。

6、月之暗面发布首款自主智能体Kimi-Researcher:HLE测试超越谷歌和OpenAI
月之暗面(Moonshot AI)近日推出了其首款自主智能体产品——Kimi-Researcher,正式进入AI智能体竞争领域。这款擅长多轮搜索与推理的智能体,在“人类终极考验”(HLE)测试中表现卓越,以26.9%的Pass@1得分率登顶,超越谷歌和OpenAI的同类产品。Kimi-Researcher基于Kimi k-系列模型内部版本构建,并通过**端到端强化学习(RL)**训练,展现了强大的信息处理和分析能力,平均执行23个推理步骤并浏览200多个网址。月之暗面已开放内测申请,并计划未来几个月内开源其基础预训练模型及强化学习训练后的模型。

7、月之暗面开源Kimi-2506:多模态智能体视觉理解能力重大升级
近日,月之暗面正式发布并开源了其多模态模型Kimi-VL-A3B-Thinking的最新版本——Kimi-2506,标志着智能体和视觉理解技术的重大进步。该版本在多模态推理基准测试中表现出色,尤其在MathVision和MathVista上分数显著提升,同时平均思考长度减少20%,大幅提升了推理效率。Kimi-2506的视觉理解能力也显著增强,支持高达320万像素的图像处理,并在图像理解、图表推理、数学计算、长PDF理解和视频分析等多个应用领域展现了出色性能。

8、蚂蚁开源轻量级MoE推理模型Ring-lite:实现SOTA效果并全面透明化
蚂蚁技术团队近日正式开源其轻量级MoE推理模型Ring-lite,该模型总参数16.8B,激活参数仅2.75B,却在AIME24/25、LiveCodeBench等多项推理榜单上取得了SOTA(State-of-the-Art)效果,比肩3倍激活参数大小的Dense模型。Ring-lite凭借独创的C3PO强化学习训练方法、优化长CoT SFT与RL的训练比重,并成功解决多领域数据联合训练难题,在数学、代码、科学领域实现协同增益。值得一提的是,其高考数学全国一卷测试成绩可达130分左右。此次开源不仅包含模型权重和代码,还将逐步公开所有训练数据集、超参配置及实验记录,实现了全链路透明化。

9、MiniMax重磅发布视频Agent工具:一句话生成高清视频,人脸ID完美一致!
MiniMax近日推出创新视频Agent工具,实现了通过简单文本指令生成高清视频(720p,25帧/秒,最长6秒),极大地提升了视频创作效率。该工具还支持上传人脸图片,并能确保生成视频中人物的人脸ID高度一致,为虚拟主播、品牌代言等个性化定制场景提供了可能。这款工具依托MiniMax强大的多模态AI技术,并提供API接口供开发者集成。尽管面临Sora等强大竞争对手,MiniMax凭借其易用性和人脸一致性功能,在细分市场找到突破口,预示着AI视频生成技术进入新纪元。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。
如若转载,请注明出处:http://www.pswp.cn/web/84905.shtml
繁体地址,请注明出处:http://hk.pswp.cn/web/84905.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python装饰器decorators和pytest夹具fixture详解和使用

此前一直认为fixture就叫python中的装饰器,学习后才发现decorators才是装饰器,fixture是pytest框架的夹具,只是通过装饰器去定义和使用。所以要了解fixture就得先了解python装饰器。 一、装饰器(decorators) 1.定义 装饰器(dec…

目标检测之YOLOv5到YOLOv11——从架构设计和损失函数的变化分析

YOLO(You Only Look Once)系列作为实时目标检测领域的标杆性框架,自2016年YOLOv1问世以来,已历经十余年迭代。本文将聚焦YOLOv5(2020年发布)到YOLOv11(2024年前后)的核心技术演进&am…

leetcode:面试题 08.06. 汉诺塔问题

题目链接 面试题 08.06. 汉诺塔问题 题目描述 题目解析 当只有一个盘子时:直接从A柱放到C柱即可。当有两个盘子时:将A柱第一个盘子先放到B柱,再将A柱第二个盘子放到C柱,最后将B柱上的盘子放到C柱子。当有3个盘子时:先…

mybatis-plus一对多关联查询

MyBatis-Plus 本身主要关注单表操作&#xff0c;但可以通过几种方式实现一对多关联查询&#xff1a; 1. 使用 XML 映射文件实现 这是最传统的方式&#xff0c;通过编写 SQL 和 ResultMap 实现&#xff1a; <!-- UserMapper.xml --> <resultMap id"userWithOrd…

一些想法。。。

1.for里面的局部变量这种还是在for里面定义比较好 比如 for(int i 0;i<n;i){ int num; cin>>num; } 实不相瞒&#xff0c;有一次直接cin了i怎么都没看出来哪里错了。。。 2.关于long long 如果发现中间结果大约是10^9&#xff0c;就要考虑int 溢出 即用 long …

迁移科技拆垛工业相机:驱动智能拆码垛革命,赋能工业自动化新纪元

——将复杂技术转化为可感知价值&#xff0c;引领行业标杆级解决方案 作为工业自动化领域的品牌策略专家&#xff0c;我深知企业面临的痛点&#xff1a;拆垛环节效率低下、人工成本高、安全隐患频发。迁移科技凭借其领先的3D视觉技术&#xff0c;通过拆垛工业相机将抽象参数转…

Linux笔记---线程控制

1. 线程创建&#xff1a;pthread_create() pthread_create() 是 POSIX 线程库&#xff08;pthread&#xff09;中用于创建新线程的函数。调用该函数后系统就会启动一个与主线程并发的线程&#xff0c;并使其跳转到入口函数处执行。 #include <pthread.h>int pthread_cr…

Ragflow 源码:ragflow_server.py

目录 介绍1. 初始化和配置2. 数据库管理3. 核心功能4. HTTP 服务5. 信号处理6. 调试支持 流程图系统架构 代码解释1. **初始化系统**2. **运行时控制**3. **核心服务** 介绍 ragflow_server.py 是 RAGFlow 项目的主服务器程序&#xff0c;负责启动和管理 RAGFlow 的核心服务。…

springboot企业级项目开发之项目测试——单元测试!

项目测试 项目测试是对项目的需求和功能进行测试&#xff0c;由测试人员写出完整的测试用例&#xff0c;再按照测试用例执行测试。项目测试是项目质量的保证&#xff0c;项目测试质量直接决定了当前项目的交付质量。 测试人员在开展测试之前&#xff0c;首先需要进行测试的需…

Linux kdump远程转存储配置手册教程

一、前言 kdump是一个Linux内核崩溃转储机制,当系统崩溃时,它可以捕获内核的内存转储信息,帮助分析崩溃原因。将转储文件存储到远程位置,便于集中管理和分析。本教程将详细介绍如何配置kdump将转储文件远程转存储。 二、安装kdump 在大多数Linux发行版中,kdump相关的工…

c++bind和forward完美转化

前言 1. std::bind概述 std::bind是C11引入的功能模板&#xff0c;位于<functional>头文件中&#xff0c;用于将函数、成员函数或函数对象与特定参数绑定&#xff0c;生成一个新的可调用对象。 1.1 基本用法 #include <iostream> #include <functional>v…

【Dify精讲】第14章:部署架构与DevOps实践【知识卡片】

第14章&#xff1a;部署架构与DevOps实践http://www.airinto.com/share/49997bb7 一、Docker 容器化方案&#xff1a;从开发到生产的统一 二、Kubernetes 部署&#xff1a;走向云原生 三、CI/CD 流程设计&#xff1a;自动化的艺术 四、高可用架构&#xff1a;让 AI 服务永不停歇…

el-cascader 设置可以手动输入也可以下拉选择

el-cascader 设置可以手动输入也可以下拉选择 稍微修改一下就可食用 <template slot"stationId" slot-scope""><div style"position: relative;"><!-- 可输入也可显示选项 --><el-input:value"stationNameInput"…

Unity Shader开发-着色器变体(1)-着色器变体概述

有时我们希望一份 Shader 源代码可能满足多种功能&#xff08;如处理法线贴图、自发光、不同光照模式、阴影&#xff0c;支持GPUInstacing等多种功能&#xff09;。所以我们需要能够实现Shader分支的方法。 一.Shader分支实现 主要有三种手段实现Shader分支&#xff1a; 1.静…

ECK 简化:在 GCP GKE Autopilot 上部署 Elasticsearch

作者&#xff1a;来自 Elastic Eduard Martin 学习如何使用 GKE Autopilot 和 ECK 在 GCP 上部署 Elasticsearch 集群。 想要获得 Elastic 认证&#xff1f;了解下一次 Elasticsearch Engineer 培训的时间&#xff01; Elasticsearch 拥有丰富的新功能&#xff0c;可以帮助你为…

测试一个软件的性能有哪些指标?

在测试软件性能时,通常会关注多个维度的指标,以评估系统在不同负载下的表现。以下是关键的性能测试指标分类和详细说明: 📊 核心性能指标分类 1. 响应时间(Response Time) 定义:从发送请求到接收到响应所花费的时间 细分: 平均响应时间:所有请求的平均耗时 *P90/P95…

浅析std::atomic<T>::compare_exchange_weak和std::atomic<T>::compare_exchange_strong

目录 std::atomic ::compare_exchange_weak 和 std::atomic ::compare_exchange_strong 核心原理 函数签名 核心区别 典型用法 1. compare_exchange_weak&#xff08;循环内重试&#xff09; 2. compare_exchange_strong&#xff08;单次尝试&#xff09; 底层机制 总…

举出一个异步接口测试的例子

以下是一个完整的 ​异步接口测试​ 实际案例&#xff0c;包含问题场景、解决方案、代码实现和面试回答技巧&#xff0c;适合在面试中展示技术深度&#xff1a; ​案例背景​ ​业务场景​&#xff1a; 测试一个AI图片生成平台的异步接口&#xff0c;用户提交生成请求后&#…

更新麒麟连不上外网

问题&#xff1a;更新麒麟连不上外网 处理&#xff1a;本地建个下载地址 建立文件夹/root/x86.rpm&#xff0c;子文件夹&#xff1a;Packages、repodata&#xff0c;和在线站点建的一样&#xff1a;Index of /NS/V10/V10SP1.1/os/adv/lic/base/x86_64/&#xff0c;然后就下载…

TensorFlow深度学习实战——使用Hugging Face构建Transformer模型

TensorFlow深度学习实战——使用Hugging Face构建Transformer模型 0. 前言1. 安装 Hugging Face2. 文本生成3. 自动模型选择和自动分词4. 命名实体识别5. 摘要生成6. 模型微调相关链接 0. 前言 除了需要实现特定的自定义结构&#xff0c;或者想要了解 Transformer 工作原理外&…