AI工具

BuyScout

BuyScout是一款基于AI技术的在线购物助手,通过分析客户反馈生成产品优缺点总结,提供个性化购物建议、价格监控和补货提醒等功能,帮助用户优化购物决策,节省时间和金钱。

CoGenAV

CoGenAV是一种先进的多模态学习模型,专注于音频和视觉信号的对齐与融合。通过对比特征对齐和生成文本预测的双重目标进行训练,利用同步音频、视频和文本数据,学习捕捉时间对应关系和语义信息。CoGenAV具备音频视觉语音识别、视觉语音识别、噪声环境下的语音处理、语音重建与增强、主动说话人检测等功能,适用于智能助手、视频内容分析、工业应用和医疗健康等多个场景。

Torch

Torch-MLU 是一个开源的 PyTorch 扩展插件,支持开发者将寒武纪 MLU 系列智能加速卡作为 PyTorch 的加速后端。它实现了对 PyTorch 的原生支持,使开发者能够无缝地将基于 GPU 的深度学习模型迁移到 MLU 硬件上,显著提高模型的训练和推理效率。此外,Torch-MLU 还支持自动混合精度训练,通过优化计算图等技术,进一步提升了模型的执行效率。

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动(VLA)模型,专为经济高效的机器人设计。拥有4.5亿参数,可在CPU上运行,单个消费级GPU即可训练,适合在MacBook上部署。它能够处理多模态输入,生成动作序列,并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

Act

Act-One是一款由Runway开发的AI生成式角色表演工具,能够基于简单视频输入生成逼真的虚拟角色动画。它简化了面部动画制作流程,无需复杂设备,仅需单一摄像头即可完成,同时支持多样化角色表现和多轮对话场景生成,广泛应用于电影、动画、角色设计及叙事内容创作等领域。

Asyncflow v1.0

Asyncflow v1.0 是一款基于 AI 的文本转语音工具,支持超过 450 种语音选项,涵盖多种语言和风格。通过 Magic Dust AI 技术,实现快速语音克隆与高质量输出,降低训练成本。提供 API 接口,便于开发集成,适用于播客、广告、教育等多种场景,具备高效、易用和高性价比的特点。

SVG Converter

SVG Converter是一款高效的在线矢量转换工具,可将多种位图格式(如JPG、PNG、BMP)转换为SVG、AI、EPS等矢量格式。支持高精度输出、像素级调整、多层结构及颜色自定义,操作简便,适用于网页设计、图形编辑、Logo制作等多个领域。

Omnitool

Omnitool是一款开源的AI桌面工具,提供统一界面整合多种AI模型,支持本地运行,保障数据隐私。兼容OpenAI、Stable Diffusion等主流平台,无需复杂配置即可实现图像生成、文本翻译、音频创建等功能。具备高扩展性,支持脚本和第三方工具集成,适用于从初学者到开发者的多场景应用,涵盖艺术创作、教育、企业开发等领域。

WhisperChain

WhisperChain 是一款开源语音识别工具,支持实时语音转文本并提供文本优化功能,可去除填充词、优化语法。用户可通过全局热键快速启动语音输入,处理结果自动复制到剪贴板。支持 Streamlit 界面与 FastAPI 架构,适用于会议记录、写作辅助等场景。

PhotoApp

PhotoApp 是一款基于AI技术的照片处理工具,可修复模糊、低质量图像并提升为高清版本。主要功能包括面部增强、颜色调整、背景优化、照片放大及旧照片修复,操作简便且效果显著,适用于社交媒体、电子商务、教育等多个领域。