AI项目与工具

ScreenAI

ScreenAI是一款专为理解和处理用户界面（UI）及信息图表而设计的AI视觉语言模型。它能够识别和理解UI元素及其相互关系，并生成与屏幕UI元素相关的文本，如问题回答、UI导航指令和内容摘要。ScreenAI通过多模态编码器结合视觉和语言信息，并采用自回归解码器生成自然语言响应。此外，ScreenAI还能适应不同屏幕格式，提供精确的UI导航和内容摘要功能。

AI项目与工具 2024年01月01日 16 点赞 0 评论 778 浏览

Vision Search Assistant

Vision Search Assistant (VSA) 是一种结合视觉语言模型与网络代理的框架，旨在提升模型对未知视觉内容的理解能力。它通过网络检索，使 VLMs 能够处理和回答有关未见图像的问题。VSA 在开放集和封闭集问答测试中表现出色，支持图像描述生成、网络知识搜索、协作生成等功能，可应用于图像识别、新闻分析、教育、电商和旅游等多个领域。

AI项目与工具 2025年06月12日 100 点赞 0 评论 778 浏览

可灵2.0

可灵2.0是快手推出的AI视频生成模型，支持文生视频和图生视频，具备复杂动态生成、动作流畅性和多模态编辑能力。它能根据用户输入的文字或图片生成高质量视频，提升视频的真实感和沉浸感，适用于影视、广告、教育、游戏等领域，提高创作效率与灵活性。

AI项目与工具 2025年06月11日 70 点赞 0 评论 778 浏览

Learn Prompting

Learn Prompting 是一个开源平台，致力于教授 AI 提示工程相关知识，涵盖从基础到高级的内容。其主要功能包括智能推荐、深度解析、模拟对话、学习进度跟踪等，同时提供体系化课程及实际应用场景案例。该工具适用于教育、语言学习、内容创作、数据分析等多个领域，助力用户提升 AI 技术的应用能力。

AI项目与工具 2025年06月12日 16 点赞 0 评论 778 浏览

Dawn AI

Dawn AI是一款基于AI技术的图像生成工具，支持文本转图像、多种绘画风格选择以及头像生成等功能。用户可通过输入文字或上传图片，快速生成艺术作品。界面简洁易用，适合各类用户，适用于社交媒体、创意内容制作及角色定制等多种场景，提升创作效率与个性化表达。

AI项目与工具 2025年06月12日 39 点赞 0 评论 779 浏览

Moshi

Moshi是一款由法国Kyutai实验室开发的端到端实时音频多模态AI模型，具备听、说、看的能力，并能模拟70种不同的情绪和风格进行交流。Moshi具有多模态交互、情绪和风格表达、实时响应低延迟、语音理解与生成、文本和音频混合预训练以及本地设备运行等特点。它支持英语和法语，主要应用于虚拟助手、客户服务、语言学习、内容创作、辅助残障人士、研究和开发、娱乐和游戏等领域。

AI项目与工具 2025年06月12日 73 点赞 0 评论 779 浏览