1、Egocentric-10K:第一视角的工厂操作视频数据集 非常小众的专门数据集,包含1万小时的工厂工人操作的视频,可以用来训练机器人的能力。 数据集:https://huggingface.co/datasets/builddotai/Egocentric-10K
2、Google Photos引入Nano Banana
支持直接语音编辑图片。
官方介绍:https://blog.google/products/photos/nano-banana-ai-templates-ask-photos/
3、11Labs上线了图片和视频生成功能 可以选用各家模型,每月免费的1万积分,可以生成8秒Sora2视频,或24张nano banana图片。 我不觉得这是个好生意,11Labs是音频顶流,搞这聚合站是什么目的?

4、11Labs发布Scribe v2 Realtime
实时语音识别,延迟仅150毫秒,支持多语言,准确率高于Gemini Flash 2.5。官网和API可用。
5、Meta杨立昆即将离职创业
Meta首席AI科学家、图灵奖得主Yann LeCun计划在未来几个月内离开Meta,并创办自己的AI公司。
消息来源:https://www.ft.com/content/c586eb77-a16e-4363-ab0b-e877898b70de
nano banana国内直连版