URL

这部分介绍了如何将一组URL的HTML文档加载到可供下游使用的文档格式中。

from langchain.document_loaders import UnstructuredURLLoader

urls = [
    "https://www.understandingwar.org/backgrounder/russian-offensive-campaign-assessment-february-8-2023",
    "https://www.understandingwar.org/backgrounder/russian-offensive-campaign-assessment-february-9-2023"
]

loader = UnstructuredURLLoader(urls=urls)

data = loader.load()

Selenium URL Loader

这部分介绍了如何使用SeleniumURLLoader从URL列表加载HTML文档。

使用selenium可以加载需要JavaScript渲染的页面。

设置

要使用SeleniumURLLoader，您需要安装selenium和unstructured。

from langchain.document_loaders import SeleniumURLLoader

urls = [
    "https://www.youtube.com/watch?v=dQw4w9WgXcQ",
    "https://goo.gl/maps/NDSHwePEyaHMFGwh8"
]

loader = SeleniumURLLoader(urls=urls)

data = loader.load()

Playwright URL Loader

这部分介绍了如何使用PlaywrightURLLoader从URL列表加载HTML文档。

与Selenium的情况类似，Playwright允许加载需要JavaScript渲染的页面。

设置

要使用PlaywrightURLLoader，您需要安装playwright和unstructured。此外，您还需要安装Playwright Chromium浏览器：

# 安装playwright
!pip install "playwright"
!pip install "unstructured"
!playwright install

from langchain.document_loaders import PlaywrightURLLoader

urls = [
    "https://www.youtube.com/watch?v=dQw4w9WgXcQ",
    "https://goo.gl/maps/NDSHwePEyaHMFGwh8"
]

loader = PlaywrightURLLoader(urls=urls, remove_selectors=["header", "footer"])

data = loader.load()

# URL

# Selenium URL Loader

# 设置

# Playwright URL Loader

# 设置

URL

Selenium URL Loader

设置

Playwright URL Loader

设置