结构化数据
Playwright MCP
Playwright MCP是微软推出的轻量级浏览器自动化工具,基于Model Context Protocol(MCP)协议,通过Playwright的可访问性树实现与网页的交互,无需依赖视觉模型或截图。支持多种浏览器,提供丰富的交互功能,如点击、拖动、输入文本等,适用于与大语言模型结合使用。具备结构化数据交互、网络请求管理、测试脚本生成等功能,支持无头和有头模式运行,适用于自动化测试、网页操作
ScrapeGraphAI
ScrapeGraphAI 是一款基于大型语言模型(LLM)的智能网络爬虫工具包,能够高效提取结构化数据。其核心功能包括 SmartScraper、SearchScraper 和 Markdownify,支持自然语言驱动的爬取、多页面搜索、自适应爬取、多模型和多平台兼容,可生成代码并存储为 CSV 或 JSON 格式。适用于市场分析、学术研究、产品信息收集等场景。
Jina Reader
Jina Reader是一款由Jina AI开发的开源工具,专注于将互联网上的HTML网页内容转换为适合大型语言模型处理的纯文本格式。它支持多种内容格式,具备流模式、JSON模式和Alt生成模式等功能,能够高效提取网页核心内容,去除冗余信息,并通过自然语言处理和动态内容处理技术提升文本质量和理解能力。Jina Reader适用于内容聚合、SEO优化、学术研究及个性化推荐等多个领域。
OmniParser
OmniParser是一款由微软研究院开发的屏幕解析工具,能够将UI截图转换为结构化数据,通过识别可交互图标和提取功能语义,提升基于大型语言模型的UI代理系统的性能。它支持跨平台应用,无需依赖额外信息,适用于自动化软件测试、虚拟助手、辅助技术等多个领域。