1、Pika推出Pikadditions功能
可以一键把人或物P进视频里,带动作、完美融合的那种。Pika最近的新功能都主打有趣,效果比较出彩。
2、GitHub Copilot现已支持Agent模式
类似Cursor,指定任务后,包括改Bug或者开发新模块,不需要特别说明相关代码,会自动去找合适的代码,并解决问题。
官方介绍:https://github.blog/news-insights/product-news/github-copilot-the-agent-awakens/
3、在本地设备上重现DeepSeek-R1的推理
unsloth优化了GRPO在训练时的显存占用,最高可以减少80%,15G显存即可在本地训练Llama-3.1 (8B)和Phi-4 (14B)的推理能力。
官方介绍:https://unsloth.ai/blog/r1-reasoning
Github:https://github.com/unslothai/unsloth
4、ELEGNT:让机器人的动作更有情感 苹果的一篇论文,针对非人形机器人推出的一套动作设计框架,可以让机器人的动作生动、有生命、有感情。展示的原型是皮克斯台灯造型的机器人,动作看起来仿佛有生命。 论文:https://arxiv.org/abs/2501.12493
5、谷歌推出Imagen 3 API Imagen 3在写实、UI和ICON设计等方面接近或超越Midjourney,如果你的AI绘画应用之前用的是Flux Pro API,可以考虑换成Imagen 3。价格是0.03美元/张,还是有点贵。 调用API做通用AI绘画应用没什么竞争力,针对细分场景更有可能赚到钱,比如ICON设计、或者上传图片用Gemini分析后仿绘。 官方介绍:https://developers.googleblog.com/en/imagen-3-arrives-in-the-gemini-api/
6、Mistral AI推出APP