图像

Moondream

Moondream是一款小型的开源人工智能视觉语言模型,具有强大的图像处理能力和灵活性,能够在不同设备上运行。它基于Apache 2.0许可证,支持商业使用,并广泛应用于安全监控、无人机和机器人技术以及零售与购物领域。

塔罗耳语AI

一个结合传统塔罗牌占卜与现代AI技术的线上平台,塔罗耳语提供用户个性化的塔罗牌解读服务。

Ideogram AI

Ideogram AI通过其在线应用程序ideogram.ai,允许用户通过文字提示以多种艺术风格生成图像。

SigLIP 2

SigLIP 2 是 Google DeepMind 开发的多语言视觉-语言模型,具有强大的图像与文本对齐能力。它支持多种语言输入,具备零样本分类、图像-文本检索等功能,并通过 Sigmoid 损失函数和自监督学习技术提升训练效率与模型性能。其支持多种分辨率的变体,适用于文档理解、视觉问答及开放词汇任务。该模型基于 Vision Transformer 架构,具备良好的兼容性。

Follow

Follow-Your-Click是一款由腾讯、清华大学和香港科技大学合作开发的图像到视频生成模型。它允许用户通过简单的点击和动作提示将静态图像转化为包含局部动画效果的动态视频。主要功能包括直观的用户界面、局部动画生成、多对象处理、简短动作提示、高质量视频生成及运动速度控制。其工作原理涉及用户交互、图像分割、第一帧遮罩策略、运动增强模块和基于光流的运动幅度控制。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

RestorePhotos

一款人工智能驱动的工具,它使用先进的算法来修复和恢复损坏的旧照片。它可以去除划痕、撕裂、斑点和褪色,甚至可以为黑白照片着色。让旧记忆重获新生。

Phraser

Phraser 是一款人工智能驱动的工具,专为 Midjourney、Dall-E、Stable Diffusion、Disco Diffusion 和 Craiyon 等领先艺术生成器的快速创作而设计。

Nexa AI

Nexa AI致力于生成高质量的AI生成产品图像。它可以根据用户上传的产品图片,自动去除背景并生成符合不同行业的适用模板。

PimEye

一种先进的面部识别AI搜索引擎,PimEyes基于图像的搜索,帮助个人和组织识别他们的图像或肖像可能在未经同意的情况下被使用或共享的情况。