oxylabs/oxylabs-ai-studio-py

Structured data gathering from any website using AI-powered scraper, crawler, and browser automation. Scraping and crawling with natural language prompts. Equip your LLM agents with fresh data. AI Studio python SDK for intelligent web data gathering.

ai-crawlerai-scraperai-scrapingai-searchai-toolsai-web-scraperproxy-scraperpython-aiweb-scrapingweb-scraping-aiweb-scraping-apiweb-scraping-python

GAI 中文摘要

oxylabs-ai-studio-py 是一个专为 Python 开发者设计的官方 SDK，用于无缝对接 Oxylabs AI Studio 的高级数据采集服务。该工具通过人工智能驱动的爬虫、抓取器及浏览器代理技术，帮助用户利用自然语言指令轻松获取各种网站的结构化数据。

支持通过自然语言提示词直接进行网页数据抓取与爬取，简化了传统复杂的解析流程。提供多种数据输出格式，包括 JSON、Markdown、CSV 等，并支持定义自定义 JSON 架构以满足结构化提取需求。内置强大的浏览器自动化功能，能够处理复杂的 JavaScript 渲染及动态页面交互。具备灵活的地理位置配置与代理设置，确保采集任务在各种网络环境下高效、稳定地执行。

本项目适用于需要构建自动化数据流水线、进行市场研究或为大语言模型（LLM）代理提供实时数据支持的开发者与数据科学家。该 SDK 是开发智能网络爬虫、自动化信息汇总工具以及复杂网页数据采集系统的理想选择。

⭐

3.0k

Stars

🔱

Forks

👁

Watchers

📋

Issues

PythonMIT创建于 2025/6/17更新于今天

在 GitHub 上查看访问主页

README

由 Gemini 翻译整理

OxyLabs AI Studio Python SDK

这是一个简洁的 Python SDK，用于无缝对接 Oxylabs AI Studio API 服务，包括 AI-Scraper、AI-Crawler、AI-Browser-Agent 以及其他数据提取工具。

要求

Python 3.10 及以上版本
API KEY

安装

pip install oxylabs-ai-studio

使用方法

爬取数据 (`AiCrawler.crawl`)


from oxylabs_ai_studio.apps.ai_crawler import AiCrawler

crawler = AiCrawler(api_key="")

url = "https://oxylabs.io"
result = crawler.crawl(
    url=url,
    user_prompt="Find all pages with proxy products pricing",
    output_format="markdown",
    render_javascript=False,
    return_sources_limit=3,
    geo_location="United States",
)
print("Results:")
for item in result.data:
    print(item, "\n")

参数说明:

url (str): 爬取的起始 URL (必填)
user_prompt (str): 指导提取的自然语言提示词 (必填)
output_format (Literal["json", "markdown", "csv", "toon"]): 输出格式 (默认: "markdown")
schema (dict | None): 用于结构化提取的 JSON Schema (若 output_format 为 "json", "csv" 或 "toon" 则必填)
render_javascript (bool): 是否渲染 JavaScript (默认: False)
return_sources_limit (int): 返回的最大源数量 (默认: 25)
geo_location (str): ISO2 格式或国家标准名称的代理位置。详见文档
max_credits (int | None): 最大可用点数 (可选)

抓取数据 (`AiScraper.scrape`)

from oxylabs_ai_studio.apps.ai_scraper import AiScraper

scraper = AiScraper(api_key="")

schema = scraper.generate_schema(prompt="want to parse developer, platform, type, price game title, genre (array) and description")
print(f"Generated schema: {schema}")

url = "https://sandbox.oxylabs.io/products/3"
result = scraper.scrape(
    url=url,
    output_format="json",
    schema=schema,
    render_javascript=False,
)
print(result)

参数说明:

url (str): 要抓取的目标 URL (必填)
output_format (Literal["json", "markdown", "csv", "screenshot", "toon"]): 输出格式 (默认: "markdown")
schema (dict | None): 用于结构化提取的 JSON Schema (若 output_format 为 "json", "csv" 或 "toon" 则必填)
render_javascript (bool | string): 是否渲染 JavaScript。可设置为 "auto"，由服务自动检测是否需要渲染 (默认: False)
geo_location (str): ISO2 格式或国家标准名称的代理位置。详见文档
user_agent (str): User-Agent 请求头。详见 https://developers.oxylabs.io/scraping-solutions/web-scraper-api/features/http-context-and-job-management/user-agent-type

浏览器智能体 (`BrowserAgent.run`)

from oxylabs_ai_studio.apps.browser_agent import BrowserAgent

browser_agent = BrowserAgent(api_key="")

schema = browser_agent.generate_schema(
    prompt="game name, platform, review stars and price"
)
print("schema: ", schema)

prompt = "Find if there is game 'super mario odyssey' in the store. If there is, find the price. Use search bar to find the game."
url = "https://sandbox.oxylabs.io/"
result = browser_agent.run(
    url=url,
    user_prompt=prompt,
    output_format="json",
    schema=schema,
)
print(result.data)

参数说明:

url (str): 浏览的起始 URL (必填)
user_prompt (str): 提取数据的自然语言提示词 (必填)
output_format (Literal["json", "markdown", "html", "screenshot", "csv", "toon"]): 输出格式 (默认: "markdown")
schema (dict | None): 用于结构化提取的 JSON Schema (若 output_format 为 "json", "csv" 或 "toon" 则必填)
geo_location (str): ISO2 格式或国家标准名称的代理位置。例如 'Germany' (首字母大写)。

搜索 (`AiSearch.search`)

from oxylabs_ai_studio.apps.ai_search import AiSearch


search = AiSearch(api_key="")

query = "lasagna recipe"
result = search.search(
    query=query,
    limit=5,
    render_javascript=False,
    return_content=True,
)
print(result.data)

# 或者使用快速搜索
result = search.instant_search(
    query=query,
    limit=10,
)
print(result.data)

oxylabs/oxylabs-ai-studio-py

OxyLabs AI Studio Python SDK

要求

安装

使用方法

爬取数据 (AiCrawler.crawl)

抓取数据 (AiScraper.scrape)

浏览器智能体 (BrowserAgent.run)

搜索 (AiSearch.search)

爬取数据 (`AiCrawler.crawl`)

抓取数据 (`AiScraper.scrape`)

浏览器智能体 (`BrowserAgent.run`)

搜索 (`AiSearch.search`)