1、OpenAI发布Operator
目前仅Pro用户可用。在云端运行一个浏览器执行任务,如果遇到发推文之类的任务,会让你登录后操作。目前效果一般。之前类似的产品:MultiOn
官方介绍:https://openai.com/index/introducing-operator/
类似的开源框架:https://github.com/browserbase/stagehand
2、Anthropic发布API Citations
支持把文件作为引用提交,且LLM回复时可以标注出回复内容的来源。
官方文档:https://docs.anthropic.com/en/docs/build-with-claude/citations
3、Pika 2.1即将发布
1080P分辨率、增强提示词理解、更好的电影效果和运动、更好的人物表现。
4、Sigma:差异化注意力机制的LLM
采用了DiffQKV注意力机制,根据 Query (Q)、Key (K) 和 Value (V) 组件对模型性能和效率指标的不同影响,对注意力机制中的这些组件进行差异化优化。模型对 K 和 V 组件的压缩敏感度不同,开发了差异化压缩的 KV;提出了增强 Q 的方法,以扩展 Q 头维度,可以增强模型的表征能力,且对推理速度的影响很小。
论文:https://arxiv.org/abs/2501.13629
我的知识星球