admin的文章

Mem

Mem是一款智能AI笔记应用，支持高效记录笔记，并基于AI技术自动发现笔记之间的关联，帮助用户快速找到所需信息。用户可通过Mem Chat提问，获取精准答案、总结会议要点或生成内容。Mem具备智能搜索、自动整理笔记、实时同步等功能，支持离线使用和多种格式输入，适用于创业者、高管和创意人士，提升工作效率与知识管理能力。

508 0

MultiTalk是由中山大学深圳校区、美团和香港科技大学联合推出的音频驱动多人对话视频生成框架。它根据多声道音频输入、参考图像和文本提示，生成包含人物互动且口型与音频一致的视频。通过Label Rotary Position Embedding (L-RoPE) 方法解决多声道音频与人物绑定问题，并采用部分参数训练和多任务训练策略，保留基础模型的指令跟随能力。MultiTalk适用于卡通、歌唱及

424 0

灵语文档

灵语文档（MindLink）是一款AI驱动的云文档编辑平台，为企业提供一站式文档编辑和共享服务。平台支持思维导图、原型白板、可视化图表等多种文档组件，具备版本历史管理、智能创作、全平台访问、权限控制和AI智能助手等功能。基于AI与多模态能力，灵语文档提升团队协作效率，打破部门壁垒，增强信息共享，确保文档安全，助力企业高效管理知识资产，赋能数字化转型。

632 0

SmolVLA

SmolVLA是Hugging Face开源的轻量级视觉-语言-行动（VLA）模型，专为经济高效的机器人设计。拥有4.5亿参数，可在CPU上运行，单个消费级GPU即可训练，适合在MacBook上部署。它能够处理多模态输入，生成动作序列，并通过异步推理提高控制效率。适用于物体抓取、家务劳动、货物搬运和机器人教育等场景。

519 0

ContentV

ContentV是字节跳动开源的80亿参数文生视频模型框架，通过替换Stable Diffusion 3.5 Large的2D-VAE为3D-VAE并引入3D位置编码，提升视频生成能力。采用多阶段训练策略和流匹配算法，实现高效训练。支持文本到视频生成、自定义视频参数、风格迁移与融合、视频续写与修改等功能，适用于视频内容创作、游戏开发、VR/AR和特效制作等场景。

436 0

PartCrafter

PartCrafter是一款先进的3D生成模型，能够从单张RGB图像中生成多个语义明确且几何形态各异的3D网格。通过组合潜在空间表示每个3D部件，并利用层次化注意力机制确保全局一致性。该模型基于预训练的3D网格扩散变换器（DiT），支持多部件联合生成、端到端生成和部件级编辑，适用于游戏开发、建筑设计、影视制作等多个领域。

708 0

MaskSearch

MaskSearch是阿里巴巴通义实验室推出的新型通用预训练框架，通过检索增强掩码预测（RAMP）任务提升大型语言模型（LLM）的智能体搜索能力。该工具利用外部知识库和搜索工具预测被掩盖的关键信息，增强模型对复杂问题的理解和回答能力。结合SFT和强化学习（RL）训练方法，采用多智能体协同生成思维链数据，并引入课程学习策略优化模型性能。适用于智能客服、教育、企业搜索及机器学习模型调试等多个场景。

190 0