AI

Monaland AI

一个通过创建超现实的人工智能角色扮演并与之聊天的平台。

CLEAR

CLEAR是一种由新加坡国立大学推出的新型线性注意力机制,能够有效提升预训练扩散变换器生成高分辨率图像的效率。该机制通过局部注意力窗口和知识蒸馏技术,实现了线性复杂度,显著减少了计算量和时间延迟,同时保持了高质量的图像生成效果。CLEAR还支持跨模型泛化、多GPU并行推理以及稀疏注意力优化,广泛适用于数字媒体创作、虚拟现实、游戏开发等多个领域。

BabelDOC

BabelDOC是一款专为科学论文翻译设计的开源PDF处理工具,支持双语对照显示,保留原文格式如公式、图表等。兼容多种翻译引擎,支持自定义模型接入,适用于学术、商业和技术文档翻译,提供在线和本地部署方式,保障翻译准确性和排版一致性。

AskYourPDF

AskYourPDF是一款利用人工智能技术的PDF文档处理工具,支持用户通过自然语言查询快速检索和提取PDF文档中的信息。其主要功能包括交互式查询、即时摘要生成、关键词检索、页码标记等,并提供高效的数据加密保障。该工具适用于学术研究、法律审查、商业分析等多种场景,有效提高信息管理效率。

GPTMaket

GPTMaket,一个AI智能出题平台, 由GPT提供支持。

ComfyUI客户端

ComfyUI客户端是一款专为图像生成与处理设计的桌面应用程序,支持Windows和Mac系统。它具备一键安装、自动更新及预配置Python环境等功能,可帮助用户快速搭建AI生图流程。软件提供丰富的节点连接选项,支持图像生成、编辑、修复以及虚拟现实场景构建等多样化应用场景,适用于艺术家、设计师及医学影像专家等领域。

MarsAi

MarsX是一个改变软件开发游戏的平台,结合了AI、NoCode和代码,以及微应用。

LLaVA

LLaVA-OneVision是字节跳动开发的开源多模态AI模型,主要功能包括多模态理解、任务迁移、跨场景能力、开源贡献及高性能。该模型采用多模态架构,集成了视觉和语言信息,通过Siglip视觉编码器和Qwen-2语言模型,实现高效特征映射和任务迁移学习。广泛应用于图像和视频分析、内容创作辅助、聊天机器人、教育和培训以及安全监控等领域。

TrackVLA

TrackVLA是银河通用推出的端到端导航大模型,具备纯视觉环境感知、语言指令驱动、自主推理和零样本泛化能力。它能在复杂环境中自主导航、灵活避障,并根据自然语言指令识别和跟踪目标对象。无需提前建图,适用于多种场景,如陪伴服务、安防巡逻、物流配送等,为具身智能商业化提供支撑,推动机器人走向日常生活。