学习

Lipsync

Lipsync-2 是 Sync Labs 推出的全球首个零样本嘴型同步模型,无需预训练即可快速生成符合说话者风格的嘴型动作。支持多语言、个性化表达和温度参数调节,具备高精度、高真实感和高效处理能力,广泛应用于视频翻译、动画制作、多语言教育及 AI 内容生成等领域。

Orbit

Orbit是由Mozilla开发的浏览器扩展工具,基于AI技术实现对网页内容的快速总结与信息提取。用户可自定义摘要长度和格式,支持多种应用场景如学术研究、商业分析、新闻阅读等。该工具注重隐私保护,无需注册即可使用,适用于Gmail、Google Docs、YouTube等平台,有效提升在线阅读和信息处理效率。

EyeDiff

EyeDiff是一款基于扩散模型的文本到图像生成工具,专为多模态眼科图像生成设计。通过自然语言提示,EyeDiff能够捕捉常见及罕见眼病的关键特征,显著提升诊断准确性。该工具采用CLIP文本编码器与交叉注意力机制,结合潜在扩散模型(LDM),生成高质量、与文本高度一致的图像,适用于数据增强、疾病筛查、数据共享及医学教育等场景。

StochSync

StochSync是一种基于扩散同步(DS)和分数蒸馏采样(SDS)的图像生成技术,适用于360°全景图和3D纹理生成。它通过引入最大随机性与多步去噪方法,兼顾图像细节与连贯性,无需额外训练即可生成高质量图像。支持高分辨率输出,适用于复杂几何纹理化任务。

Phantom

Phantom是由字节跳动研发的视频生成框架,支持从参考图像中提取主体并生成符合文本描述的视频内容。它采用跨模态对齐技术,结合文本和图像提示,实现高质量、主体一致的视频生成。支持多主体交互、身份保留等功能,适用于虚拟试穿、数字人生成、广告制作等多种场景。模型基于文本-图像-视频三元组数据训练,具备强大的跨模态理解和生成能力。

WiseMind AI

WiseMind AI 是一款基于 AI 的学习与知识管理工具,支持多种文档格式,可快速生成摘要、思维导图和智能笔记,提升信息处理效率。平台兼容多个 AI 大模型,提供翻译、海报生成、知识卡片等功能,并采用本地化存储保障数据安全,适用于学术、商务、语言学习等多场景。

OpenL.io

Openl.io是一个支持100多种语言的AI驱动惊人的翻译工具。具有翻译、润色、语法修正、语言学习等功能。

WebRL

WebRL是一种由清华大学与智谱AI共同研发的自我进化的强化学习框架,专注于通过开放大型语言模型优化网络代理性能。该框架采用动态任务生成与结果监督奖励机制,并结合自适应强化学习策略,解决了任务稀缺和反馈稀疏等问题。其显著提升了开源模型在WebArena-Lite基准测试中的表现,具备自我进化、持续改进的特点。

WhatTheFont

一个简单易用的字体查找器,WhatTheFont可以帮助您识别字体。只需上传您需要识别的字体的图像,该工具就会为您想要识别的字体。

HoloPart

HoloPart 是一种基于扩散模型的 3D 分割工具,能准确识别并补全被遮挡的语义部件,支持几何与材质编辑等任务。其两阶段方法结合局部与全局注意力机制,提升分割精度与一致性。适用于动画制作、几何优化及数据生成等领域,已在多个数据集上取得优异性能。