开发平台
ScreenAgent
一个先进的计算机控制智能体,它通过观察屏幕截图和执行鼠标键盘动作来完成复杂的任务。它利用VLM和强化学习环境,可以在真实计算机屏幕上执行多步骤任务。
ConsiStory
它提供了一种快速、高效且训练无关的方法来生成一致性图像,特别适用于需要保持主题一致性的应用场景。它不仅能够处理单主题场景,还能够应对多主题挑战,并与现有的图像编辑工具...
Follow Your Pose
一个创新的文本到视频生成框架,它通过两阶段训练策略实现了高度的姿态控制和时间连贯性。该框架不仅能够根据文本描述生成视频,还能让用户通过姿态序列精确控制视频中角色的动作...