模型 - 智狐AI导航

CityDreamer

CityDreamer，一个专门为城市设计的AI生成的3D城市街景生成模型。

Ai绘画生成 2025年06月05日 59 点赞 0 评论 726 浏览

SignGemma

SignGemma是由谷歌DeepMind团队开发的全球最强大的手语翻译AI模型，专注于将美国手语（ASL）实时翻译成英语文本。通过多模态训练方法，结合视觉和文本数据，实现高准确率和低延迟的翻译，响应时间低于0.5秒。支持端侧部署，保护用户隐私，适用于教育、医疗和公共服务等场景。

AI项目与工具 2025年06月11日 24 点赞 0 评论 726 浏览

HoloTime 是由北京大学深圳研究生院与鹏城实验室联合开发的全景 4D 场景生成框架，可将单张全景图像转化为动态视频，并进一步重建为沉浸式 4D 场景。其核心技术包括全景动画生成器（Panoramic Animator）和时空重建技术，结合 360World 数据集进行训练，实现高质量的视频生成与场景重建。该工具支持 VR/AR 应用，适用于虚拟旅游、影视制作、游戏开发等多个领域，提供高效的沉

AI项目与工具 2025年06月11日 20 点赞 0 评论 727 浏览

MMaDA

MMaDA（Multimodal Large Diffusion Language Models）是由普林斯顿大学、清华大学、北京大学和字节跳动联合开发的多模态扩散模型，支持跨文本推理、多模态理解和文本到图像生成等多种功能。其采用统一的扩散架构和模态不可知设计，结合混合长链推理微调策略与UniGRPO强化学习算法，提升跨模态任务性能。MMaDA在多项任务中表现优异，适用于内容创作、教育辅助、智能客

AI项目与工具 2025年06月11日 80 点赞 0 评论 727 浏览

Janus

Janus是一种由DeepSeek AI开发的自回归框架，专注于多模态理解和生成任务的统一化。它通过分离视觉编码路径并使用单一Transformer架构来提升灵活性和性能，支持多种输入模态如图像、文本等，并在某些任务中表现出色。Janus具备多模态理解、图像生成及跨模态交互能力，适用于图像创作、自动标注、视觉问答等多个领域。

AI项目与工具 2025年06月12日 45 点赞 0 评论 727 浏览

LIMO

LIMO是由上海交通大学研发的一种高效推理方法，通过少量高质量训练样本激活大语言模型的复杂推理能力。其核心假设是“少即是多推理假设”，即在预训练阶段已具备丰富知识的模型中，复杂推理能力可通过精心设计的样本被有效激发。LIMO在多个数学推理基准测试中表现优异，且数据使用效率极高，仅需1%的数据即可达到显著效果。适用于教育、科研、工业和医疗等多个领域。

AI项目与工具 2025年06月12日 96 点赞 0 评论 727 浏览

IterComp

IterComp是一种基于迭代反馈学习机制的文本到图像生成框架，由多所顶尖高校的研究团队联合开发。它通过整合多个开源扩散模型的优势，利用奖励模型和迭代优化策略，显著提升了生成图像的质量和准确性，尤其在多类别对象组合与复杂语义对齐方面表现突出，同时保持较低的计算开销。IterComp适用于艺术创作、游戏开发、广告设计、教育和媒体等多个领域。

AI项目与工具 2025年06月12日 31 点赞 0 评论 727 浏览

FunClip

FunClip是一款由阿里巴巴达摩院通义实验室开发的开源、本地部署的视频剪辑工具。它主要通过自动化语音识别技术，帮助用户基于语音转文字的结果，选择特定文本片段或说话人进行视频剪辑。其特点包括高精度的中文ASR模型、热词定制化、说话人识别功能、Gradio交互界面，以及支持多段剪辑和自动生成SRT字幕文件。

AI项目与工具 2024年07月01日 55 点赞 0 评论 727 浏览

Aiswers

一个一站式AI问答平台，汇聚了ChatGPT, Claude, Gemini等几十款全球顶尖的AI，为用户提供各种问题的解答。涵盖了各种主题，包括学习、技术、文化、生活等，用户不但可以得到文字回答，还能生成各种图片。

AI写作对话 2025年06月05日 32 点赞 0 评论 727 浏览

UniVG

百度公司推出的视频生成模型，能够以文本和图像的任意组合作为输入条件进行视频生成。

Ai开源项目 2025年06月05日 22 点赞 0 评论 728 浏览

模型

首页

模型

列表

默认

浏览次数

发布日期