1、微软开源AI绘画模型Lens 3.8B参数,高训练效率,画质接近大参数的开源模型。 模型:https://huggingface.co/microsoft/Lens
2、ElevenLabs推出Speech Engine:把文本Agent变成语音Agent 支持插拔,已有的Agent逻辑保持不变,Speech Engine通过WebSocket接入,负责音频进、文本出;以及文本进、音频出。 官方介绍:https://elevenlabs.io/speech-engine
3、GRAM:让递归推理变成多路径概率探索 · 现有递归推理模型(RRM)本质是确定性的:相同输入永远走同一条潜在状态轨迹,只能收敛到唯一解 · GRAM(Generative Recursive Reasoning)把递归推理重构为随机潜变量过程,每一步迭代都从条件分布中采样,自然支持多假设、多解探索 论文:https://arxiv.org/abs/2605.19376
GPT Image 2 / Banana Pro国内直连版 我做的小产品。无需VPN,填写key就能用,操作简单,适合小白。买了可以给别人用,搭个人情也不错。GPT Image 2是1毛一张,Banana所有分辨率(1K/2K/4K)都是3毛一张,极具性价比,也可以同时使用我做的AI PPT功能快速生成大厂风格PPT。
使用Banana Pro和GPT Image 2:https://gordensun.github.io/NanoBananaPro/ 使用AI PPT:https://gordensun.github.io/NanoBananaProPPT/
我的公众号:AI加速派 分享国内可以直接操作的前沿教程,而且教程里的token和key我都承包了,你甚至不用注册账号就能跑通。
