Google Drive
Google Drive 是由 Google 开发的文件存储和同步服务。
这个笔记本介绍了如何从 Google Drive 加载文档。目前,仅支持加载 Google Docs。
先决条件
- 创建一个 Google Cloud 项目或使用现有项目。
- 启用 Google Drive API。
- 为桌面应用程序授权凭据。
- 执行命令
pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib
进行安装。
🧑 导入 Google Docs 数据的说明
默认情况下,GoogleDriveLoader
预期 credentials.json
文件位于 ~/.credentials/credentials.json
,但您可以使用 credentials_path
关键字参数进行配置。同样,token.json
的路径也可以使用 token_path
进行配置。请注意,第一次使用加载程序时,token.json
将会自动创建。
GoogleDriveLoader
可以从 Google Docs 文档 ID 列表或文件夹 ID 进行加载。您可以从 URL 中获取文件夹和文档 ID:
- 文件夹:https://drive.google.com/drive/u/0/folders/1yucgL9WGgWZdM1TOuKkeghlPizuzMYb5 -> 文件夹 ID 是
"1yucgL9WGgWZdM1TOuKkeghlPizuzMYb5"
- 文档:https://docs.google.com/document/d/1bfaMQ18_i56204VaQDVeAFpqEijJTgvurupdEDiaUQw/edit -> 文档 ID 是
"1bfaMQ18_i56204VaQDVeAFpqEijJTgvurupdEDiaUQw"
!pip install --upgrade google-api-python-client google-auth-httplib2 google-auth-oauthlib
from langchain.document_loaders import GoogleDriveLoader
loader = GoogleDriveLoader(
folder_id="1yucgL9WGgWZdM1TOuKkeghlPizuzMYb5",
# Optional: configure whether to recursively fetch files from subfolders. Defaults to False.
recursive=False
)
docs = loader.load()
当您默认传递一个 folder_id
时,会加载所有类型为文档、表格和 PDF 的文件。您可以通过传递一个 file_types
参数来修改这个行为。
loader = GoogleDriveLoader(
folder_id="1yucgL9WGgWZdM1TOuKkeghlPizuzMYb5",
file_types=["document", "sheet"]
recursive=False
)