1、Jina DeepResearch:免费且开源的AI搜索 输入问题,返回带思考过程的答案。使用Jina Reader搜索和读取网页,支持配置Gemini、OpenAI或本地LLM做推理。界面很简洁,但是只能问答一次,不支持追问,中文效果不佳。 在线使用:https://search.jina.ai/ 前端代码:https://github.com/jina-ai/deepsearch-ui 后端代码:https://github.com/jina-ai/node-deepresearch
2、SWE-Lancer:OpenAI开源的评估LLM代码能力的工具
目前Claude 3.5 Sonnet得分最高。
Github:https://github.com/openai/SWELancer-Benchmark
3、MoBA:Kimi发版的长下文推理方法
将MoE和稀疏注意力结合,100万上下文的推理速度提升6倍。
Github:https://github.com/MoonshotAI/MoBA
4、ZeroBench:所有多模态LLM都得零分的图形评测题集 Gemini、Claude、OpenAI o1全都是零分(pass@1),有些题目对人类很简单,比如数哑铃(场景里有镜子),有些则有些难度,比如与非门。 项目地址:https://zerobench.github.io/ 数据集:https://huggingface.co/datasets/jonathan-roberts1/zerobench
5、LLM幻觉排行榜
Gemini 2.0 Flash幻觉最低,不过幻觉低有时候不是好事,也可能意味着创造力低。
排行榜:https://github.com/vectara/hallucination-leaderboard