AI项目与工具

Kimi

Kimi-VL是月之暗面推出的轻量级多模态视觉语言模型,支持图像、视频、文档等多种输入形式。其基于轻量级MoE架构和原生分辨率视觉编码器,具备强大的图像感知、数学推理和OCR能力。在长上下文(128K)和复杂任务中表现优异,尤其在多模态推理和长视频理解方面超越同类模型。适用于智能客服、教育、医疗、内容创作等多个领域。

元镜

元镜是一款基于人机共生引擎的AI视频创作工具,支持从创意脚本生成到成片输出的全流程制作。具备多模态分镜设计、智能工作流和一键成片功能,提升视频创作效率与质量。适用于短视频、广告、教育、影视及政务宣传等多个领域,满足多样化内容生产需求。

VoiceDub

VoiceDub 是一款AI驱动的音频处理平台,支持人声替换、声音克隆、文本转语音及音频分离等功能,提供超过10,000种AI人声音色。用户可通过平台进行音乐创作、有声内容制作及个性化音频生成,适用于多种应用场景,如语言学习、娱乐互动等。

FocuSee

FocuSee是一款智能化屏幕录制软件,具备自动缩放、光标跟踪及动态变焦功能,能将普通屏幕录制升级为专业级视频。支持多布局定制、字幕添加、水印嵌入以及跨平台导出与分享,适用于教学、产品演示、营销推广、软件教程等多种场景,大幅降低后期编辑成本,提升视频制作效率。

绘蛙·多图成片

绘蛙·多图成片是一款基于AI技术的视频生成工具,通过上传2-4张连贯图片并配合文字描述,快速生成高质量视频。支持多种视频尺寸,具备智能文案生成能力,适用于创意视频、广告、电商展示等多种场景,显著降低视频制作门槛和成本。

WorldSense

WorldSense是由小红书与上海交通大学联合开发的多模态基准测试工具,用于评估大型语言模型在现实场景中对视频、音频和文本的综合理解能力。该平台包含1662个同步视频、3172个问答对,覆盖8大领域及26类认知任务,强调音频与视频信息的紧密耦合。所有数据经专家标注并多重验证,确保准确性。适用于自动驾驶、智能教育、监控、客服及内容创作等多个领域,推动AI模型在多模态场景下的性能提升。

Wren AI

Wren AI 是一个开源的文本到 SQL 工具,基于自然语言处理技术,允许用户通过自然语言提问来执行数据库查询,无需编写 SQL 代码。它支持多种数据库和数据源,具有语义理解能力,能准确解析业务上下文并提供精确的结果。Wren AI 的核心功能包括语义引擎、向量数据库和大型语言模型,支持数据集成、安全性和结果导出,广泛应用于业务智能分析、数据探索、报告生成等领域。

Backflip AI

Backflip AI 是一款基于 AI 技术的 3D 模型生成工具,可将 3D 扫描数据快速转换为 CAD 模型,提升数字设计效率。支持多种文件格式,具备自动修复、智能特征识别等功能,适用于制造业、建筑、文化遗产保护等多个领域。用户可通过不同订阅方案灵活使用,满足多样化需求。

EvoAgentX

EvoAgentX 是一个开源的 AI Agent 自进化框架,通过进化算法实现多 Agent 系统的自动化生成与优化。它能根据目标描述自动生成工作流,并通过迭代优化提升性能。框架采用模块化设计,包含工作流生成器、Agent 管理器、执行器、评估器和优化器等核心组件,支持多种 LLM 模型,用户可通过自然语言提示轻松定制 Agent 和工作流。同时提供可视化工具和多环境支持,适用于复杂系统模拟、自

Skyvern

Skyvern是一款基于开源的浏览器自动化工具,集成了大型语言模型和计算机视觉技术,用于实现网页内容解析、交互计划生成及执行。其主要功能涵盖CAPTCHA解决、双因素认证支持、代理网络配置、可解释AI操作以及数据提取等,适用于网站数据抓取、表单填写、网页测试等多种应用场景。