深度学习

Gemini 2.0

Gemini 2.0 是谷歌推出的原生多模态AI模型,具备快速处理文本、音频和图像的能力,支持多语言输出和实时音视频流输入。通过Agent技术和工具调用,Gemini 2.0 能够自主理解任务并提供解决方案,已在编程、数据分析、游戏等领域展示应用潜力。目前提供免费试用,计划逐步开放更多功能。

LongLLaVA

LongLLaVA是由香港中文大学(深圳)研究团队开发的多模态大型语言模型,结合Mamba和Transformer模块,利用2D池化技术压缩图像token,大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异,特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化,支持多种多模态输入处理,广泛应用于视频分析、医学影像诊断、环境监测等领域。

WiseDiag

WiseDiag是杭州智诊科技开发的医疗AI模型,基于海量医学数据训练,具备深度推理能力和个性化服务功能。支持多场景健康咨询,包括医学报告解读、长期健康记录管理及专家级建议。提供多种版本以适应不同需求,适用于健康管理、医疗辅助和远程医疗等应用。

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

PDFMathTranslate

PDFMathTranslate是一款专注于科技文档翻译的开源工具,能够精准保留PDF文档的排版格式,包括公式、图表和目录结构。支持双语对照查看,兼容多种翻译服务,可实现全文或局部翻译,适用于学术研究、教育、技术文档、法律文件等多个领域。

CatchMe

一款为识别图片、视频和音频内容是否由人工智能生成而设计的AI内容检测器

WebWalker

WebWalker是阿里巴巴研发的AI工具,用于评估和优化大型语言模型在网页浏览任务中的表现。它通过多智能体框架、垂直探索策略及WebWalkerQA数据集,提升模型处理长上下文和多源信息的能力。支持多语言、多领域和多难度任务,适用于信息检索、数据分析和内容监控等场景,具备良好的适应性和可扩展性。

PhotoPrism

PhotoPrism是一款开源的AI照片管理工具,采用Go语言开发,支持用户在本地服务器上运行,确保数据隐私与安全性。它通过AI技术实现照片的智能分类与搜索,涵盖人物、物体和场景识别,还支持RAW、JPG等多种文件格式,提供面部识别、地理标签及WebDAV同步等功能,适用于个人、家庭、企业和教育机构等多样化需求。

EasyAI

EasyAI,产品经理的人工智能学习库,用通俗易懂的方式帮助产品经理快速学习人工智能相关知识,让非技术人群也能快速理解人工智能。

OMNE Multiagent

OMNE Multiagent是一个基于长期记忆技术的大模型多智能体框架,由天桥脑科学研究院开发。它支持多个智能体协同工作,每个智能体能独立学习和理解环境,具备深度慢思考和实时适应能力。OMNE框架通过优化搜索空间和逻辑推理机制,提升了复杂问题的决策效率,并在金融、交通、制造、医疗等领域展现出广泛应用潜力。