Wan2.1 Wan2.1是阿里云推出的开源AI视频生成模型,支持文生视频与图生视频,具备复杂运动生成和物理模拟能力。采用因果3D VAE与视频Diffusion Transformer架构,性能卓越,尤其在Vbench评测中表现领先。提供专业版与极速版,适应不同场景需求,已开源并支持多种框架,便于开发与研究。 AI项目与工具 2025年06月12日 47 点赞 0 评论 242 浏览
深言科技 深言科技是一家由孙茂松教授和其学生一同创办的创业公司,致力于使用世界领先的人工智能和自然语言处理技术,为数亿脑力劳动深言科技(DeepLang AI)者和数千万组织的信息处理全流... 创作工具 1970年01月01日 0 点赞 0 评论 242 浏览
Docmatix Docmatix 是一个专为文档视觉问答任务设计的大规模数据集,包含240万张图像和950万个问题-答案对,源自130万个PDF文档。数据集覆盖广泛,包括扫描图片、PDF文件和数字文档,且具有高质量的问答对。Docmatix 支持模型训练和微调,可用于训练视觉语言模型,提高其在理解和回答与文档内容相关问题方面的性能。应用场景包括自动化客户服务、智能文档分析、教育和学术研究以及业务流程自动化等。 AI项目与工具 2025年06月12日 87 点赞 0 评论 242 浏览
PromptLoop Promptloop 是一个帮助您编写更好文本的网站。它使用人工智能来生成改进您的写作风格、语法、词汇和内容的建议。 Ai办公效率 2025年06月05日 37 点赞 0 评论 242 浏览
HART HART是一种由麻省理工学院研究团队开发的自回归视觉生成模型,能够生成1024×1024像素的高分辨率图像,质量媲美扩散模型。通过混合Tokenizer技术和轻量级残差扩散模块,HART实现了高效的图像生成,并在多个指标上表现出色,包括重构FID、生成FID以及计算效率。 AI项目与工具 2025年06月12日 93 点赞 0 评论 242 浏览
ViVa AI Sora同架构视频生成模型,支持文本生成视频、图片生成视频以及 4K 分辨率放大功能,另外也支持提示词的自动优化。 Ai视频生成 2025年06月05日 47 点赞 0 评论 241 浏览
Open Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供 AI项目与工具 2024年01月01日 97 点赞 0 评论 241 浏览
MOFA MOFA-Video是由腾讯AI实验室和东京大学研究人员开发的开源图像生成视频模型。该工具通过生成运动场适配器对图像进行动画处理,能够通过稀疏控制信号(如手动轨迹、面部关键点序列或音频)实现对视频生成过程中动作的精准控制。MOFA-Video支持零样本学习,能够将多种控制信号组合使用,生成复杂的动画效果,并能生成较长的视频片段。 --- AI项目与工具 2025年06月12日 22 点赞 0 评论 240 浏览
MatterGen MatterGen是由微软开发的生成式AI模型,专注于无机材料的设计与生成。它通过扩散过程逐步优化原子结构,生成稳定、多样化且符合特定性能要求的材料。支持化学组成、磁性、电子和机械性能等多维度约束,适用于逆向材料设计,提升新材料研发效率。已应用于能源、催化、电子等领域,推动材料科学进步。 AI项目与工具 2025年06月12日 16 点赞 0 评论 240 浏览