训练

MMedAgent

MMedAgent是一款面向医疗领域的多模态AI平台,集成了指令优化的多模态大型语言模型(MLLM)及一系列定制化医疗工具,支持多种医学成像模式(如MRI、CT、X射线等),可高效处理视觉问答、分类、定位、分割、医学报告生成(MRG)及检索增强生成(RAG)等任务,显著提升了医疗数据处理效率与准确性。

ResAdapter

ResAdapter是一种专为扩散模型设计的分辨率适配器,允许图像生成模型生成任意分辨率和宽高比的图像,同时保持原始风格。其主要功能包括分辨率插值、分辨率外推、域一致性、即插即用设计以及广泛的兼容性。通过在扩散模型中插入ResCLoRA和引入ResENorm,ResAdapter能够在不影响模型风格的情况下扩展其分辨率范围。

SynClub

SynClub是一款基于AI技术的社交应用,允许用户创建并定制个性化的AI角色,实现情感陪伴与互动交流。该工具支持文字和语音对话,具备自然语言处理能力,能根据用户行为进行学习与适应,提供更精准的互动体验。适用于情感支持、社交训练、兴趣交流及语言学习等多场景,注重用户隐私与安全感。

TimesFM 2.0

TimesFM 2.0是谷歌推出的开源时间序列预测模型,采用仅解码器架构,支持处理长达2048个时间点的单变量序列,具备灵活的预测频率选择与分位头预测功能。模型通过大规模自监督预训练,覆盖多个领域,具有优秀的泛化能力。适用于零售、金融、交通、环境监测等多个场景,为数据分析与决策提供支持。

LaTRO

LaTRO(Latent Reasoning Optimization)是一种用于提升大型语言模型推理能力的框架,通过将推理过程视为潜在分布采样并采用变分推断方法进行优化,无需外部反馈即可增强模型生成高质量推理路径的能力。该框架支持自奖励机制、联合学习及梯度估计等技术,广泛应用于数学问题求解、科学问题解答、编程任务、逻辑推理以及自然语言理解等领域,有助于构建更智能、更自主的问题解决系统。

InfiniteYou

InfiniteYou 是由字节跳动推出的基于扩散变换器的身份保持图像生成框架,通过 InfuseNet 注入身份特征,确保生成图像与输入图像的高度相似。结合多阶段训练策略,提升文本与图像对齐、图像质量和美学效果。支持插件化设计,兼容多种工具,适用于社交媒体、影视制作、广告营销等多个领域。

Talkme练口语

TalkMe是一款革命性的跨语言学习产品,告别社恐,建立自信,AI练口语轻松又有趣,代替真人AI口语练习无负担。

AIEasyPic

利用了如Stable Diffusion、ControlNet和LoRAs等模型,根据您的文本输入生成视觉效果。

Video Diffusion Models

Video Diffusion Models项目展示了扩散模型在视频生成领域的潜力,通过创新的梯度条件方法和自回归扩展技术,生成了具有高度时间连贯性和质量的视频样本。

幻方AI

成立于2019年12月,专注于人工智能(AI)领域的算法与基础应用研究。公司致力于通过前沿科技的研发,激发创造力和想象力,推动人类梦想的实现。