学习

ChatTS

ChatTS-14B 是一款由字节跳动开发的大型语言模型,专为时间序列数据的理解与推理设计,具备 140 亿参数规模。通过合成数据对齐技术提升任务表现,支持自然语言交互,可应用于金融、气象、工业、医疗和运维等多个场景,提供数据分析、预测与诊断功能。模型已开源,便于开发者使用和扩展。

陌言AI

陌言AI是一款免费的智能AI问答系统,可以快速、准确地解答您的问题,辅助您更高效的学习和工作,陌言Ai–让创作变得更加简单。

GPT-SoVITS

一个强大的语音合成工具,特别适合需要快速生成特定人声的场景。它通过先进的技术实现了高质量的语音克隆和文本到语音转换,支持多种语言,并提供了易于使用的WebUI工具。

GPDiT

GPDiT是一种由多所高校和企业联合开发的视频生成模型,结合了扩散模型与自回归模型的优势,具备高质量视频生成、视频表示学习、少样本学习和多任务处理能力。其核心技术包括轻量级因果注意力机制和无参数的旋转基时间条件策略,提升了生成效率与质量。该模型适用于视频创作、编辑、内容理解及创意生成等多种应用场景。

Xiaomi MiMo

Xiaomi MiMo 是小米推出的推理型大模型,具备强大的数学推理与代码生成能力。通过预训练与后训练相结合,利用大量高价值语料及强化学习算法,在 7B 参数规模下实现超越更大模型的表现。支持多场景应用,包括教育、科研、软件开发等,已开源至 HuggingFace,便于开发者使用与研究。

AndroidGen

AndroidGen 是一个基于大语言模型(LLM)的智能代理框架,专注于提升 Agent 在数据稀缺环境下的任务执行能力。它通过无监督方式收集用户操作轨迹并进行训练,结合 ExpSearch、ReflectPlan、AutoCheck 和 StepCritic 四个核心模块,增强任务规划、执行和评估能力。该框架在 AndroidWorld 和 AitW 基准测试中表现出色,适用于自动化任务处理、

SigStyle

SigStyle是一款由多所高校与Adobe合作开发的签名风格迁移框架,能将单张风格图像的视觉特征(如几何结构、色彩和笔触)精准迁移到目标图像,同时保持内容的语义和结构。其核心技术基于个性化文本到图像扩散模型,结合超网络和时间感知注意力交换技术,实现高效且高质量的风格迁移。支持多种应用场景,如艺术创作、时尚设计、影视制作等,具备灵活性和广泛适用性。

Mona Land

Mona Land是一款基于AI技术的角色扮演互动平台,提供高度拟真的虚拟角色定制服务,用户可设计角色外观、性格及思维模式,并与之进行深入对话和冒险。平台支持多平台访问,拥有丰富的角色类型和沉浸式故事体验,适用于角色扮演爱好者、创意表达者及社交互动需求者。

TripoSR

TripoSR是一款由Stability AI与VAST联合开发的开源3D生成模型,能够在不到0.5秒内从单张2D图像生成高质量的3D模型。基于Transformer架构和大型重建模型(LRM)设计,采用先进的图像编码、三平面NeRF表示及优化训练策略,支持无GPU设备运行。适用于游戏开发、影视制作、建筑设计、产品设计等多个领域,具有高效、高精度和广泛适用性的特点。

DAM

DAM-3B是英伟达开发的多模态大语言模型,专用于图像和视频中特定区域的详细描述。支持点、边界框、涂鸦或掩码等方式指定目标区域,生成精准文本描述。其核心技术包括焦点提示与局部视觉骨干网络,有效融合全局与局部特征。DAM-3B-Video版本扩展至视频处理,适用于动态场景。模型基于Transformer架构,支持多模态输入,广泛应用于内容创作、智能交互及无障碍工具等领域。