AI项目与工具

SmolVLM

SmolVLM是一款由Hugging Face开发的轻量级视觉语言模型,专为设备端推理设计。该模型具有三个版本,包括SmolVLM-Base、SmolVLM-Synthetic和SmolVLM-Instruct,分别适用于不同的应用场景。SmolVLM借鉴了Idefics3的理念,采用SmolLM2 1.7B作为语言主干,并通过像素混洗技术提升视觉信息的压缩效率。其训练数据集包括Cauldron和

ViLAMP

ViLAMP是由蚂蚁集团与中国人民大学联合开发的视觉语言模型,专为高效处理长视频设计。采用混合精度策略,支持在单张A100 GPU上处理长达3小时的视频,提升处理效率并降低计算成本。具备长视频理解、关键信息提取、多任务处理等功能,适用于教育、监控、直播、影视制作及智能客服等场景。技术上通过差分关键帧选择与特征合并优化性能,实现精准且高效的视频分析。

食神

食神是老板电器研发的烹饪领域AI大模型,基于46年烹饪数据与DeepSeek技术,可精准理解用户需求。支持语音、文字交互,提供个性化菜谱推荐、健康膳食规划,并能与智能厨电联动,实现烹饪全流程自动化。同时具备文化讲解与情感陪伴功能,提升用户体验。适用于家庭烹饪、健康管理及文化体验等多个场景。

BuyScout

BuyScout是一款基于AI技术的在线购物助手,通过分析客户反馈生成产品优缺点总结,提供个性化购物建议、价格监控和补货提醒等功能,帮助用户优化购物决策,节省时间和金钱。

通义万相AI视频

通义万相AI视频是一款基于人工智能的视频生成工具,支持文生视频和图生视频两种模式。用户可输入文字描述或上传图片生成高质量视频,支持多语言、多种艺术风格及音频生成功能,优化中式元素表现,广泛应用于影视、广告、动画设计等多个领域。

Refly

Refly是一款基于“自由画布”理念的AI原生创作平台,支持多线程对话、知识库管理、上下文记忆和智能写作等功能。用户可通过其便捷的工具实现创意转化、内容优化与团队协作,适用于学术研究、内容创作及商业文档撰写等多种场景。平台强调高效、专业与个性化,助力用户提升创作效率与内容质量。

MTVCrafter

MTVCrafter是由中国科学院深圳先进技术研究院计算机视觉与模式识别实验室、中国电信人工智能研究所等机构推出的新型人类图像动画框架,基于4D运动标记化(4DMoT)和运动感知视频扩散Transformer(MV-DiT)实现高质量动画生成。该工具直接对3D运动序列建模,支持泛化到多种角色和风格,保持身份一致性,并在TikTok基准测试中取得优异成绩。其应用场景包括数字人动画、虚拟试穿、沉浸式内

VSI

VSI-Bench是一种用于评估多模态大型语言模型(MLLMs)视觉空间智能的基准测试工具,包含超过5000个问题-答案对,覆盖多种真实室内场景视频。其任务类型包括配置型任务、测量估计和时空任务,可全面评估模型的空间认知、理解和记忆能力,并提供标准化的测试集用于模型性能对比。 ---

学术云端AI写作助手

学术云端AI写作助手是一款面向学生、教师和研究人员的高效学术写作工具。其核心功能包括智能选题、摘要生成、段落布局建议、智能纠错、文献检索与引用、内容生成等,旨在提升论文写作效率和质量。支持多种论文类型,适用于选题规划、论文撰写及教学辅助等多种场景,具备良好的实用性与专业性。

GenFM

GenFM是一款由ElevenLabs开发的AI工具,可将PDF、文章、电子书等内容转换为多角色播客音频。它支持32种语言,具备自动化声音选择、人性化填充词添加及高度定制化功能,适用于教育、播客制作、有声书创作、商业推广等多个领域。