Airbyte JSON

Airbyteopen in new window 是一个用于从 API、数据库和文件到数据仓库和数据湖的 ELT 管道的数据集成平台。它拥有最大的 ELT 连接器目录,可连接到数据仓库和数据库。

以下内容介绍如何将 Airbyte 中的任何数据源加载到本地 JSON 文件中,以便将其读取为文档。

先决条件: 已安装 Docker Desktop。

步骤:

  1. 克隆 Airbyte 仓库 - git clone https://github.com/airbytehq/airbyte.git

  2. 切换到 Airbyte 目录 - cd airbyte

  3. 启动 Airbyte - docker compose up

  4. 在浏览器中,访问 http://localhost:8000。您将被要求输入用户名和密码。默认情况下,用户名是 airbyte,密码是 password

  5. 设置任何您想要的数据源。

  6. 将目标设置为本地 JSON,指定目标路径 - 假设为 /json_data。设置手动同步。

  7. 运行连接。

  8. 要查看创建的文件,请导航至 file:///tmp/airbyte_local

  9. 找到您的数据并复制路径。该路径应保存在下面的文件变量中。它应该以 /tmp/airbyte_local 开头。

from langchain.document_loaders import AirbyteJSONLoader
!ls /tmp/airbyte_local/json_data/
_airbyte_raw_pokemon.jsonl
loader = AirbyteJSONLoader('/tmp/airbyte_local/json_data/_airbyte_raw_pokemon.jsonl')
data = loader.load()
print(data[0].page_content[:500])
    abilities: 
    ability: 
    name: blaze
    url: https://pokeapi.co/api/v2/ability/66/
    
    is_hidden: False
    slot: 1
    
    
    ability: 
    name: solar-power
    url: https://pokeapi.co/api/v2/ability/94/
    
    is_hidden: True
    slot: 3
    
    base_experience: 267
    forms: 
    name: charizard
    url: https://pokeapi.co/api/v2/pokemon-form/6/
    
    game_indices: 
    game_index: 180
    version: 
    name: red
    url: https://pokeapi.co/api/v2/version/1/
    
    
    
    game_index: 180
    version: 
    name: blue
    url: https://pokeapi.co/api/v2/version/2/
    
    
    
    game_index: 180
    version: 
    n
Last Updated:
Contributors: 刘强