2023.11.7-OpenAI开发者大会总结

官方新闻:https://openai.com/blog/new-models-and-developer-products-announced-at-devday

大会视频中文版:https://twitter.com/dotey/status/1721698031765000607

技术难度 更新项 简介 面向人群 价格 竞品/开源替代品 官方介绍
5/5 GPTs 创建自定义ChatGPT,并分享给其他人使用。由Assistants API实现。自定义的内容包括: · 预置提示词(prompt) · 预置文档和数据(Retrieval) · 使用代码解释器(Code Interpreter) · 使用函数调用(Function calling)。 可以实现带知识库的自定义角色、指定领域的工作流。后续会有GPTs商店。 ChatGPT Plus用户 仅Plus用户可创建 FlowGPT等 https://openai.com/blog/introducing-gpts
5/5 Assistants API 实现GPTs的API,支持 · 读取文档和数据(Retrieval) · 使用代码解释器(Code Interpreter) · 使用函数调用(Function calling) · 对话线程(Thread)无限长度且永久保存,方便回溯对话进行追问。 能实现多个代理(Agent)之间协作,是真正智能体的前奏。 开发者 Code interpreter $0.03 / session Retrieval $0.20 / GB / assistant / day AutoGPT、BabyAGI等; GPTs如果是5分,AutoGPT、BabyAGI是1分; https://platform.openai.com/docs/assistants/overview
5/5 All-Tools 无需手动切换能力,ChatGPT自动调用代码解释器、联网、Dalla·E 3等能力,这实际也是一个自动代理。 ChatGPT Plus用户 Plus用户可用,不知道之前灰度到的普通用户是否继续可用
4/5 GPT-4 Turbo API · 更快,大概快3倍 · 更便宜,输入降2/3,输出降1/2 · 知识库更新到23年4月 · 上下文从8K提升至128K(大约300页文档) · Function calling:支持一次调用多个函数,提高了准确性 · 更遵循指令要求,新增JSON mode,严格返回JSON格式 · 新增seed参数,与AI绘画类型,可以保持输出内容不变,适用于调试。 · 返回log probabilities:每个最可能生成的token的对数概率 · GPT-3.5 Turbo 同时也有升级 · 视觉能力,目前拆成了单独的API,后续会合并 开发者 GPT-4 Turbo 输入:$0.01 / 1K tokens 输出:$0.03 / 1K tokens 视觉能力:$0.00765/每图(1080*1080) 两个模型目前每天限制使用100次 Claude 2 有100K 上下文,能力比不了。其他的 LLM 差距更大。 GPT-4 Turbo: https://platform.openai.com/docs/models/gpt-4-and-gpt-4-turbo

GPT-4 Turbo with vision: https://platform.openai.com/docs/guides/vision | | 3/5 | DALL·E 3 API | 生成图片 | 开发者 | | 代理 Midjourney 的Discord频道,可以实现API效果,不稳定; Stable Diffusion 可以自己搭建API,或者使用Stability AI 的API; | https://platform.openai.com/docs/guides/images?context=node | | 3/5 | TTS API | 文字生成语音,支持中文,支持多语言混合文本,带有仿真的换气声,效果很真实。 | 开发者 | $0.015 / 1000字符 | 效果最好的是微软TTS,另外还有Fliki(支持中文)、11Labs(中文效果一般)等 | 官方文档: https://platform.openai.com/docs/guides/text-to-speech

在线体验: https://huggingface.co/spaces/ysharma/OpenAI_TTS_New | | 4/5 | 定制模型 | GPT-4 微调目前还在实验阶段,积极使用GPT-3.5微调的开发者会收到邀请; 定制 GPT-4 ,很难很贵,仅对部分企业开放; | 开发者 企业 | | 自研模型或基于 LLaMa 2等模型微调,效果没法比 | | | 3/5 | Whisper v3 | 开源的语音转文字模型,更新v3版本,支持多语言混合语音; 后续会推出API; | 开发者 | | 微软语音转文本性价比高,另外也有科大讯飞等国内服务可用 | https://github.com/openai/whisper | | 2/5 | Consistency Decoder | 适用于Stable Diffusion的解码器,可以改善人脸、线条、文本的生成效果,但是会让生成速度慢不少。 | 开发者 | | | https://github.com/openai/consistencydecoder |

https://hits.seeyoufarm.com/api/count/incr/badge.svg?pvs=4&url=https%3A%2F%2Fgorden-sun.notion.site%2F11-7-AI-0771acd36fbc4874862a08ddfd278d18&count_bg=%2379C83D&title_bg=%23555555&icon=&icon_color=%23E7E7E7&title=hits&edge_flat=false