图像

Eagle 2.5

Eagle 2.5 是一款由英伟达开发的视觉语言模型,专注于长上下文多模态学习,具备处理高分辨率图像和长视频序列的能力。其参数规模为 8B,但性能接近更大模型。采用信息优先采样和渐进式后训练策略,提升模型稳定性与适应性。支持多样任务,适用于视频分析、图像处理、内容创作及教育等多个领域。

Frames

Frames是一款由Runway开发的AI图像生成工具,其核心功能在于通过风格控制与高视觉保真度,支持用户生成一致且多样化的高质量图像。该工具可应用于电影、游戏、艺术创作等多个领域,帮助用户探索创意方向并实现精准的设计目标。其主要特点包括风格化图像生成、创意灵活性以及广泛的场景适配能力。

吱意

吱意是一款可以适用于图片翻译、文档翻译,视频翻译等场景的在线工具。同时,吱意还提供多模态翻译和智能配音,AI写作,AI成画等AIGC人工智能创作等服务。

SolidGrids

SolidGrids 使用高级算法来去除背景、调整照明、添加广告横幅等,在几秒钟内创建适销对路的广告图像。

LongLLaVA

LongLLaVA是由香港中文大学(深圳)研究团队开发的多模态大型语言模型,结合Mamba和Transformer模块,利用2D池化技术压缩图像token,大幅提升处理大规模图像数据的效率。该模型在视频理解、高分辨率图像分析及多模态代理任务中表现优异,特别擅长检索、计数和排序任务。其技术亮点包括渐进式训练策略和混合架构优化,支持多种多模态输入处理,广泛应用于视频分析、医学影像诊断、环境监测等领域。

Step-1V

覆盖了从个人使用到企业级应用的多个方面的多模态大模型。

Pirate Diffusion

Pirate Diffusion 是一个提供基于云的 AI 图像生成器网站。它允许用户使用各种模型和样式创建逼真和艺术的图像。

万兴天幕多媒体大模型

一个涵盖了视觉、音频、语言等多模态AI生成和优化能力的多媒体大模型,万兴天幕多媒体大模型核心功能包括一键成片、AI美术设计、文生音乐、音频增强、音效分析、多语言对话等。

PromptDodo

一个通过整合Stable Diffusion、DALL-E 和 Midjourney 等 ai 绘图工具生成AI 图像的提示词网站。