多模态

可灵2.0

可灵2.0是快手推出的AI视频生成模型,支持文生视频和图生视频,具备复杂动态生成、动作流畅性和多模态编辑能力。它能根据用户输入的文字或图片生成高质量视频,提升视频的真实感和沉浸感,适用于影视、广告、教育、游戏等领域,提高创作效率与灵活性。

明岐

明岐是上海交通大学LoCCS实验室开发的医学多模态大模型,专注于罕见病精准诊断。它整合影像、病历与化验数据,采用双引擎架构实现高精度、可解释的诊断,准确率超92%。通过模型优化技术,支持低成本本地化部署,适用于基层医疗、远程服务及科研教学,助力医疗资源均衡发展。

DreamFit

DreamFit是由字节跳动与高校联合研发的虚拟试衣框架,专注于轻量级服装图像生成。通过优化文本提示与特征融合技术,提升图像质量与一致性,降低模型复杂度和训练成本。支持姿势控制、多主题服装迁移等功能,适用于虚拟试穿、服装设计、广告制作等多个场景,具备良好的泛化能力和易用性。

TableGPT2

TableGPT2是一种由浙江大学开发的多模态人工智能模型,专注于结构化数据的处理与分析。它具备强大的表格数据理解能力,支持SQL查询执行、数据分析以及数据增删改查等功能。通过创新的表格编码器和双维注意力机制,TableGPT2在处理不规则表格和模糊查询方面表现优异。其应用场景广泛,涵盖商业智能、财务分析、市场研究及供应链管理等领域。

ChatPDFLocal

一款专为Mac用户设计的本地PDF阅读和处理工具,它结合了原生 macOS 界面和强大的大型语言模型(LLM),能够快速、安全地处理 PDF 文件。

ScreenAI

ScreenAI是一款专为理解和处理用户界面(UI)及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系,并生成与屏幕UI元素相关的文本,如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息,并采用自回归解码器生成自然语言响应。此外,ScreenAI还能适应不同屏幕格式,提供精确的UI导航和内容摘要功能。

智谱AutoGLM Web

基于智谱开发的AutoGLM,是由智谱AI团队开发的先进AI智能体,它专为模拟人类操作手机和网页而设计,能够理解屏幕界面信息。

紫东太初大模型

紫东太初,中科院自动化所和武汉人工智能研究院推出新一代大模型,从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务,拥有更强的认知、理解、创作能力,带来全新互动体验。

知乎直答

知乎推出的一款使用AI大模型技术的全新搜索问答智能产品。它以知乎社区的优质内容为核心,结合多种数据源,为用户提供简略和深入两种答案生成结果