AI

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

Getaiway

Getaiway 是一款由 AI 驱动的旅行工具,可在一分钟内创建个性化的旅行计划。您所要做的就是输入您的偏好,例如您的预算、氛围和品味,Getaiway 将按小时为您生成行程。

QLIP

QLIP是一种基于二进制球形量化(BSQ)的视觉标记化方法,具备高质量图像重建和零样本图像理解能力。通过对比学习目标和两阶段训练策略,QLIP可作为视觉编码器或图像标记器,广泛应用于多模态任务,如文本到图像生成、图像到文本生成及多模态理解。其技术设计提升了模型的语义表达与训练效率,为统一多模态模型的开发提供了新思路。

Loom AI

Loom AI是一个强大的视频处理工具,它通过人工智能简化了视频的录制、编辑和分享过程。它不仅提高了视频内容的可访问性和参与度,还通过自动化功能显著提升了工作效率。

Vanna.AI

一个基于人工智能的Python软件包,只需提出问题即可从去数据库里找到相应的数据,帮助生成Snowflake、BigQuery、Athena和Postgres等数据库的SQL。

ProductPics.Ai

只需上传您的未经编辑的照片,免费开始生成工作室级产品摄影。

Airparser

Airparser是一款利用GPT技术开发的数据提取工具,能够自动从电子邮件、PDF、文档等多种文件中提取结构化数据,支持60多种语言的文本识别。它具备强大的文档兼容性、自动化处理能力和与第三方应用的集成能力,广泛应用于客户关系管理、人力资源管理、财务管理等领域,帮助用户高效处理和管理数据。

Aether

Aether是由上海AI Lab开发的生成式世界模型,基于合成数据训练,具备4D动态重建、动作条件视频预测和目标导向视觉规划等核心功能。它通过三维时空建模和多任务协同优化,实现对环境的精准感知与智能决策,具有出色的零样本泛化能力,适用于机器人导航、自动驾驶、虚拟现实等多个领域。

GitHub Spark

GitHub Spark是一款基于自然语言处理的AI编程工具,支持多种高级AI模型,允许用户通过自然语言描述需求快速生成微应用程序。其主要功能包括即时预览、多模型选择、自动保存和版本控制。用户可以轻松定制应用程序的外观和功能,适用于个人生产力、教育、财务、健康及娱乐等多个领域。