应用

AndroidLab

AndroidLab 是一款面向 Android 自主代理的训练与评估框架,集成了文本和图像模态操作环境,提供标准化的基准测试任务。它通过支持多种模型类型(LLMs 和 LMMs),覆盖九个应用场景的 138 项任务,有效提升了开源模型的性能。此外,AndroidLab 提供了丰富的评估指标和操作模式,助力研究者优化模型表现并推动开源解决方案的发展。

Magnific AI

Magnific AI,一个基于生成式AI的图像超分辨率增强工具,不仅可以实现图片的分辨率提升,更可以依靠自然语言提示和“创意”滑块等控制参数,让AI主动增加和“猜想”更多细节信息。

GPTBots AI

GPTBots是一个无需编写代码就能构建AI Agent的平台。它整合了像Deepseek这类国际上主流的大语言模型,还配备了基于RAG的知识存储与检索功能、工

AiTax

AiTax是一款基于人工智能的报税软件,可以帮助企业家准确高效地报税,同时避免错误,增加潜在的退款,避免不必要的审计。

MoshiVis

MoshiVis是一款由Kyutai开发的开源多模态语音模型,支持图像与语音的自然交互。它基于Moshi 7B架构,集成了视觉编码器和跨注意力机制,实现低延迟、自然流畅的对话体验。支持多种后端部署,适用于无障碍应用、智能家居、教育及工业场景,提升人机交互的智能化水平。

DishGen

DishGen是AI食谱生成器,根据用户输入的食材、食谱想法或饮食偏好,快速生成个性化的食谱和餐饮计划。它基于智能算法,将剩余食材转化为美味菜肴,减少食物浪费并节省金钱。用户可随时修改食谱,保存和分享自己的创作。DishGen提供移动应用,方便随时随地使用,简化烹饪过程,提供个性化体验和健康饮食建议,推动烹饪和餐食规划的未来。

Transvribe

Transvribe旨在使在YouTube上学习的效率提高10倍。它使用人工智能嵌入使用户能够搜索任何视频,还允许用户粘贴YouTube URL来提出他们的第一个问题。

ACTalker

ACTalker 是一种基于视频扩散模型的端到端工具,可生成高质量、自然的说话人头部视频。支持多信号控制(如音频、表情),采用并行 Mamba 结构和门控机制,实现跨时间和空间的精准面部动作控制。实验表明其在音频同步性和视频质量上表现优异,适用于虚拟主播、远程会议、在线教育等多种场景。

百度搜索MCP广场

百度搜索MCP广场是百度搜索AI开放平台提供的MCP Servers集成平台,为开发者提供海量服务资源,涵盖搜索、地图、文件系统等多个领域。平台具备智能搜索与推荐功能,支持快速筛选和集成所需服务,提升开发效率。同时支持本地与云端部署,适用于AI应用开发、多模态生成、企业级解决方案及内容创作等多种场景。