2024.12.6-o1正式版

1、o1正式版

OpenAI o1正式版发布,新增了读取图片和文件的能力。同时推出了200美元/月的Pro会员,权益是能使用思考深度更深的o1 Pro Mode,且不限量,一般人是用不上。

2、PaliGemma 2:谷歌开源的视觉模型

3B, 10B, 28B三个大小的模型,能描述图片,也能识别公式、乐谱等。

官方介绍:https://developers.googleblog.com/en/introducing-paligemma-2-powerful-vision-language-models-simple-fine-tuning/

模型地址:https://huggingface.co/collections/google/paligemma-2-release-67500e1e1dbfdd4dee27ba48

3、TRELLIS:微软开源的图片生成3D模型 效果超预期的好,一键生成手办不远了。这张芙莉莲的图片,之前没有任何一个产品能生成看得过去的模型。

项目地址:https://trellis3d.github.io/ Github:https://github.com/Microsoft/TRELLIS 在线使用:https://huggingface.co/spaces/JeffreyXiang/TRELLIS

3c87fbfb-bf0b-4a20-a42f-136ea8386036.mp4

4、ClearerVoice-Studio:开源语音处理工具

支持语音降噪、语音分离、视频中语音人物识别。阿里通义团队开源,且是可商用的协议。

Github:https://github.com/modelscope/ClearerVoice-Studio

在线使用:https://huggingface.co/spaces/alibabasglab/ClearVoice

我的知识星球