AI开源

DiT

创新的图像生成模型,它通过结合扩散模型和Transformer架构,实现了在图像生成任务中的高效和高质量输出。其可扩展性和条件生成能力使其在多个领域都有广泛的应用潜力。

Vary

一个小型但功能强大的视觉语言模型,它使得资源有限的研究者和开发者也能体验到先进的视觉语言模型功能。

onewebot2

易于使用的微信AI机器人软件包,它通过简化的配置流程和一键运行功能,使得用户能够快速启动和运行微信机器人。无论是个人还是企业,都能通过oneWebot2创建智能助手,实现自动化服务

PortraitGen

AI人像视频编辑工具,它通过先进的技术实现了对视频中人物的高质量编辑。无论是在影视制作、艺术创作、广告宣传、时尚展示、社交媒体还是游戏开发等领域,PortraitGen都能提供高效...

IP

一个强大的工具,它通过引入图像提示来增强文本到图像扩散模型的能力。它的设计轻量且高效,易于部署和使用,同时支持广泛的应用场景,包括图像生成、转换和修复。通过解耦的交叉...

OLMo

一个开放的语言模型框架,它为研究人员和开发者提供了一套完整的工具和资源,以促进AI和语言模型的共同进步。

GOT

创新的OCR模型,它通过先进的技术提供了精准、高效的OCR解决方案。无论是文档数字化、场景文本识别还是票据处理等应用场景,GOT-OCR 2.0都能提供强大的支持。

ScreenAgent

一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。

MotionCtrl

强大的视频生成工具,它通过精确控制视频中的相机和物体运动,为视频制作带来了新的可能性。无论是简单的运动场景还是复杂的交互动作,MotionCtrl都能够提供令人满意的解决方案。

Draw an Audio

创新的视频生成音频系统,它通过先进的AI技术,能够自动分析视频内容并生成与之匹配的声音效果。