数据

Vision Parse

Vision Parse 是一款开源工具,旨在通过视觉语言模型将 PDF 文件转换为 Markdown 格式。它具备智能识别和提取 PDF 内容的能力,包括文本和表格,并能保持原有格式与结构。此外,Vision Parse 支持多种视觉语言模型,确保解析的高精度与高速度。其应用场景广泛,涵盖学术研究、法律文件处理、技术支持文档以及电子书制作等领域。

Docling

Docling 是一款开源工具,支持多种文档格式的解析与转换,包括 PDF、DOCX、PPTX、图片和 HTML。它通过高级 PDF 理解和 OCR 技术,将文档内容转换为统一的结构化格式(如 Markdown 和 JSON)。Docling 可与 LlamaIndex 和 LangChain 集成,增强文档的检索和问答能力,并提供简洁的命令行界面,适用于自动化文档处理、数据科学、知识管理和信息检

Suno all in one

一款高效的可将文本转化为音乐的AI工具,使音乐创作更加简单。Suno all in one提供各种音乐风格和声音效果的生成,支持快速、方便的音乐创作。

AI Now

AI Now是一款由联想推出的个人AI助手,内置Meta Llama 3等本地大型语言模型,支持自然语言交互、内容生成、设备管理和跨设备数据传输等功能。它注重数据安全与隐私保护,通过本地加密和个人知识库实现全面的数据控制。AI Now适用于个人助理、教育辅导、办公自动化、内容创作以及客户服务等多种应用场景,旨在提高用户的工作效率和生活质量。

Supercut

一款屏幕录制工具,能帮你快速录下屏幕上的内容,录制的视频可以自动生成章节,方便编辑和查找,适合工作汇报、技术演示和创意展示。

AnimateDiff

AnimateDiff是一款由上海人工智能实验室、香港中文大学和斯坦福大学的研究人员共同开发的框架,旨在将文本到图像模型扩展为动画生成器。该框架利用大规模视频数据集中的运动先验知识,允许用户通过文本描述生成动画序列,无需进行特定的模型调优。AnimateDiff支持多种领域的个性化模型,包括动漫、2D卡通、3D动画和现实摄影等,并且易于与现有模型集成,降低使用门槛。

SwiftBrush V2

SwiftBrush V2 是一款基于文本到图像的单步扩散模型,通过改进权重初始化、LoRA训练及夹紧CLIP损失等技术,实现了与多步Stable Diffusion模型相媲美的性能。它无需真实图像数据即可训练,显著提升了生成速度和图像质量,广泛应用于艺术创作、游戏开发、虚拟现实等领域。

心光

心光是一款结合AI技术的个人生活记录工具,支持时间轴记录、情绪识别、智能分类等功能,帮助用户记录生活、管理情绪并获得情感支持。其核心特点在于通过多媒体记录和个性化设置,为用户提供便捷、高效的记录方式,同时生成“人生之书”以呈现生活轨迹。

CriticGPT

CriticGPT是一种基于GPT-4架构的人工智能模型,专注于审查和识别由大型语言模型生成的代码中的错误。它利用人类反馈强化学习(RLHF)技术,显著提高了代码审查的准确性和效率。CriticGPT具备代码审核、错误识别、安全漏洞分析、反馈生成、性能评估和辅助学习等功能。它通过记录人类评估员故意插入的错误,生成训练数据,并使用近端策略优化(PPO)算法和强制采样波束搜索(FSBS)技术,生成详细

OmniParse

OmniParse是一款开源数据解析平台,支持多种文件类型的非结构化数据转换为结构化格式,包括文档、图像、视频、音频及网页内容。其核心功能涵盖表格提取、图像字幕生成、音视频转录以及网页内容结构化处理,利用自然语言处理、光学字符识别及深度学习技术提升解析效率与准确性。OmniParse完全在本地运行,确保数据隐私与安全,广泛应用于文档自动化处理、客户服务、市场研究、法律合规及医疗记录管理等领域。