图像

Publer AI Assist

Publer AI Assist 使用最新的人工智能技术帮助您在几秒钟内生成内容、创建令人惊叹的图像并像专业人士一样回复评论。

Imaiger

Imaiger 是一种可让您搜索和生成由AI创建的图像和在线工具。您还可以使用 Imaiger 通过选择不同的样式、颜色和主题来创建自己的图像。

紫东太初大模型

紫东太初,中科院自动化所和武汉人工智能研究院推出新一代大模型,从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。

NVILA

NVILA是一款由NVIDIA开发的视觉语言模型,通过“扩展-压缩”策略优化处理高分辨率图像和长视频,兼具效率与准确性。它在图像和视频基准测试中表现优异,支持时间定位、机器人导航和医疗成像等应用场景,并通过参数高效微调和量化技术提升模型性能。未来将在GitHub和HuggingFace平台上开源。

MM1.5

MM1.5是苹果公司研发的多模态大型语言模型,具备强大的文本与图像理解能力,包括视觉指代、定位及多图像推理功能。它通过数据驱动的训练方法,实现了从1B到30B参数规模的性能提升,并推出了视频和移动UI专用版本,为多模态AI技术发展提供重要参考。主要应用场景涵盖图像与视频理解、视觉搜索、辅助驾驶、智能助手及教育领域。

日日新融合大模型

日日新融合大模型(SenseNova)是商汤科技推出的多模态AI系统,支持文本、图像、视频等多种数据的融合处理,具备强大的深度推理与多模态分析能力。该模型在多个权威评测中表现优异,广泛应用于自动驾驶、视频交互、办公教育、金融、园区管理及工业制造等领域,提升了多场景下的智能化水平。

HealthGPT

HealthGPT是由多家高校与企业联合开发的医学视觉语言模型,支持医学图像分析、视觉问答、文本生成及多模态融合等任务。其核心技术包括异构低秩适应(H-LoRA)、分层视觉感知(HVP)和三阶段学习策略(TLS),可高效处理复杂医疗数据。模型适用于医学诊断、教育、研究及健康管理等多个场景,具有良好的适应性和实用性。

文心iRAG

文心iRAG是百度推出的一种检索增强型文生图技术,它通过结合百度搜索引擎中的海量图片资源与先进基础模型能力,解决了大模型在文生图时容易出现的幻觉问题,显著提高了生成图片的真实性和准确性。此技术不仅适用于广告、媒体、教育等多个领域,还具备低成本、高效率的特点,能够快速生成满足需求的高质量图像。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。