AI项目与工具

CNKI AI学术研究助手

CNKI AI学术研究助手是一款由华知大模型驱动的AI辅助研究工具,专注于科研全流程的支持。其主要功能涵盖问答式增强检索、AI辅助研读、AI辅助创作及苹果树智能体服务,能够提供学术问答、文献综述生成、语言翻译、深度解读等多种能力,适用于文献检索、学术写作及研究趋势分析等多个场景,助力科学研究与创新。

NeuralCam

NeuralCam是一款基于AI技术的智能相机应用,提供实时摄影指导和多种图像优化功能,包括自动人像、夜间拍摄、AI照明和智能HDR等。适用于低光环境、人像摄影、旅行记录及专业摄影等多种场景,旨在提升用户的拍摄质量和效率。支持免费下载并提供进阶订阅服务。

PhysGen3D

PhysGen3D 是一款能够将单张图像转换为交互式 3D 场景并生成物理真实视频的工具。它结合图像分析与物理模拟技术,支持精确控制物体属性、动态效果整合及高质量渲染。适用于影视、VR/AR、教育、游戏和广告等多个领域,提供高效且逼真的视觉内容生成能力。

OCRmyPDF

OCRmyPDF 是一款开源的命令行工具,用于将扫描 PDF 转换为可搜索、可编辑的文档。基于 Tesseract OCR 引擎,支持 100 多种语言,具备图像优化、纠偏、清洁等功能,提升识别准确率。支持多核处理与批量操作,适合高效处理大量文件,且完全离线运行,保障数据安全。

Open

Open-Sora是一个开源视频生成模型,基于DiT架构,通过三个阶段的训练(大规模图像预训练、大规模视频预训练和高质量视频数据微调),生成与文本描述相符的视频内容。该模型包括预训练的VAE、文本编码器和STDiT(Spatial-Temporal Diffusion Transformer)核心组件,利用空间-时间注意力机制和交叉注意力模块实现视频生成。项目旨在提供全面的视频生成模型训练过程,供

Shutterstock AI

Shutterstock AI是一款由Shutterstock与OpenAI合作开发的AI图像生成与编辑工具。它使用户能够通过简单的描述或文本提示,快速生成高质量、符合伦理标准的图片,适用于商业授权。该工具提供了六大核心功能,包括神奇画笔、变体生成、图像扩展、智能尺寸调整、背景移除以及AI图像生成器,旨在简化图片编辑流程并激发用户的创意灵感。

MoonCast

MoonCast 是一个零样本播客生成系统,能够从纯文本源合成自然的播客风格语音。它采用长上下文语言模型和大规模语音数据训练,支持中文和英文,生成几分钟长的高质量播客音频。MoonCast 通过特定的LLM提示生成播客脚本,并利用语音合成模块转换为最终音频,具备长音频生成、增强自然性、多语言支持和零样本语音合成等功能。其技术原理包括多阶段训练、短段级别自回归音频重建和自发性增强,适用于内容创作、教

GPT Pilot

GPT Pilot是一款AI编程工具,旨在通过模拟人类开发者的工作流程,帮助从零开始构建应用程序。它能够编写代码、调试程序、与用户讨论问题,并请求代码审查,是真正的AI开发者伙伴。GPT Pilot支持多种运行方式,包括VS Code扩展、命令行工具和Docker容器,使开发者能够在熟悉的环境中提升开发效率。其主要功能包括全功能代码生成、交互式问题解答、高度集成的开发环境、逐步开发、任务分配、开发

PandaAI

PandaAI 是一款基于自然语言处理技术的智能数据分析平台,支持用户通过自然语言提问实现快速数据处理与可视化。它具备多数据源集成、智能图表生成、团队协作等功能,适用于商业分析、数据科学及数据管理等场景。平台提供免费与付费版本,满足不同用户需求,结合 LLM 与 RAG 技术提升数据分析效率。

Dream

Dream-7B是由香港大学与华为诺亚方舟实验室联合开发的开源扩散模型,支持文本、数学和代码生成,具备双向上下文建模能力和灵活的生成控制。其在通用任务、数学推理和编程方面表现优异,适用于文本创作、数学求解、编程辅助及复杂任务规划等多种场景,提供高效且高质量的生成服务。