AI项目与工具

Migician

Migician是一款由多所高校联合开发的多模态大语言模型,专为多图像定位任务设计。它基于大规模数据集MGrounding-630k,采用端到端架构和两阶段训练方法,支持跨图像精准定位与多任务处理。Migician适用于自动驾驶、安防监控、医疗影像等多个领域,具有高效的推理能力和灵活的输入方式。

混元图生视频

混元图生视频是腾讯混元推出的开源图生视频模型,支持用户上传图片并输入描述生成5秒短视频,具备对口型、动作驱动和背景音效自动生成等功能。模型适用于多种风格与场景,参数量达130亿,已在腾讯云上线并开源,支持本地部署与定制开发,适用于创意视频、特效制作及动画开发等多个领域。

Text Behind Image

Text Behind Image 是一款开源在线工具,支持用户在图片中主体背后添加自定义文字,提供多样化的样式定制选项,包括字体、颜色、位置等。它基于 Next.js 框架,采用前端图像处理技术,适配多种应用场景,如社交媒体营销、广告宣传、个人表达及教育用途。

Gemini 2.5 Pro

Gemini 2.5 Pro 是谷歌推出的高性能 AI 模型,具备深度推理能力,可在多模态输入下进行复杂任务处理。支持文本、图像、音频、视频及代码等多种输入形式,拥有 100 万 token 的上下文窗口。在推理、代码生成和多模态任务中表现优异,适用于学术研究、软件开发、创意工作和企业应用等多个领域。

多种草AI

多种草AI是一款面向社交媒体平台的智能内容创作工具,具备智能文案生成、敏感词检测、账号定位分析及图文内容适配等功能。它能够高效生成适合小红书、抖音等平台的优质内容,并通过跨平台适配功能简化发布流程,助力用户提升内容质量和传播效果。

Shallow Research

Shallow Research 是一种基于“小模型+大模型”架构的快速信息处理工具,能够在短时间内完成大量网页内容的搜索、整理和初步分析,适合需要高效获取信息和生成初步结论的场景,提升研究与决策效率。

SyncAnimation

SyncAnimation是一款基于音频驱动的实时动画生成框架,能够生成与音频同步的上半身姿态和面部表情,包括嘴唇动作。采用NeRF技术,结合音频到姿态和表情的同步模块,实现实时渲染与高精度动画生成。支持多种推理方式,具备高同步性和自然表现力,适用于虚拟主播、视频会议、动画制作、游戏开发及智能客服等多个领域。

SlideChat

SlideChat是一款先进的视觉语言助手,专注于处理和分析千兆像素级别的全切片病理图像。它具备强大的多模态对话能力和复杂指令响应能力,在显微镜检查、诊断等领域展现出卓越性能。通过两阶段训练机制,SlideChat实现了视觉与语言特征的有效对齐,并被广泛应用于病理诊断、医学教育、研究开发以及临床决策支持。 ---

DualPipe

DualPipe是由DeepSeek开发的开源双向流水线并行技术,通过将前向和反向计算分离为独立管道并行执行,显著提升大规模深度学习模型的训练效率。该技术优化了计算与通信的重叠,降低内存峰值,提高资源利用率,并支持多模态处理、多任务学习等应用场景。适用于需要高效训练和推理的AI系统。

fynk

fynk 是一款基于AI技术的合同管理工具,支持合同全生命周期管理,包括起草、审查、签署、分析与跟踪。其核心功能包括自动化合同分析、可定制审查规则、数据分析与风险预警,适用于多种商务文档。该工具能够提升合同处理效率,优化工作流程,广泛应用于法务、采购、销售、金融及房地产等领域,助力企业实现合规与高效运营。