多模态

Steamer

Steamer-I2V 是百度 Steamer 团队推出的图像到视频生成模型,能够将静态图像转化为动态视频,具备卓越的视觉生成能力。该模型基于 Transformer 扩散架构,支持多模态输入,包括中文文本提示和参考图像,实现像素级的画面控制与电影级构图效果。在 VBench 评测中荣获榜首,生成高清 1080P 视频,优化时间一致性与运动规律性,适用于广告、影视、游戏开发和内容创作等多个领域。

HiDream AI

HiDream AI的目标是帮助用户零基础掌握AIGC的一站式能力,唤醒创造力、赋予作品生命感和价值感,同时解放生产力,提升全流程工作效率。

DICE

DICE-Talk是由复旦大学与腾讯优图实验室联合开发的动态肖像生成框架,能够根据音频和参考图像生成具有情感表达的高质量视频。其核心在于情感与身份的解耦建模,结合情感关联增强和判别机制,确保生成内容的情感一致性与视觉质量。该工具支持多模态输入,具备良好的泛化能力和用户自定义功能,适用于数字人、影视制作、VR/AR、教育及心理健康等多个领域。

WeGen

WeGen是一款由中国科学技术大学等机构联合开发的多模态生成模型,结合多模态大语言模型与扩散模型,支持文本到图像生成、图像编辑、风格迁移等多种视觉任务。其特点包括对模糊指令的多样化响应、高一致性输出以及交互式生成能力,适用于创意设计、内容创作等多个领域。

星火绘镜

一款由科大讯飞推出的AI文生视频创作平台,可以轻松地从文字描述生成短视频内容、将文本转换为视频分镜、扩展成完整的短视等。

Paper2Poster

Paper2Poster是由加拿大滑铁卢大学、新加坡国立大学等机构推出的学术框架,基于多模态自动化技术从科学论文生成海报。它通过Parser、Planner和Painter–Commenter系统实现内容压缩、布局优化和视觉质量提升,支持将长篇论文转化为结构化视觉海报。Paper2Poster引入PaperQuiz评估方法,确保海报有效传达核心内容,提高生成效率,适用于学术会议、报告、科研展示及教

LangBot

LangBot 是一款开源的多平台即时通讯机器人,支持多种主流通信工具及大语言模型。具备多模态交互、多轮对话、插件扩展和安全管理等功能,适用于企业客服、个人助理、社区管理、教育辅导和内容创作等场景,提供灵活、安全的自动化服务。

生数

生数以其创新的多模态大模型和深度生成式算法研究,为艺术设计、游戏制作、影视后期和内容社交等领域提供了强大的技术支持和解决方案。

POINTS 1.5

POINTS 1.5 是腾讯微信开发的多模态大模型,基于LLaVA架构设计,包含视觉编码器、投影器和大型语言模型。它在复杂场景OCR、推理、关键信息提取、数学问题解析及图片翻译等方面表现突出,适用于票据识别、自动客服、新闻摘要、学术论文处理、旅游翻译和在线教育等多个领域。该模型通过高效的数据处理和特征融合技术,实现了跨模态任务的精准处理与高效输出。