HTML
超文本标记语言(HTML)是一种用于在网页浏览器中显示的文档的标记语言。
本文介绍如何将 HTML
文档加载为可在后续流程中使用的文档格式。
from langchain.document_loaders import UnstructuredHTMLLoader
loader = UnstructuredHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='My First Heading\n\nMy first paragraph.', lookup_str='', metadata={'source': 'example_data/fake-content.html'}, lookup_index=0)]
使用BeautifulSoup4加载HTML
我们还可以使用BeautifulSoup4
使用BSHTMLLoader
加载HTML文档。这将从HTML中提取文本到page_content
中,并将页面标题提取到metadata
的title
字段中。
from langchain.document_loaders import BSHTMLLoader
loader = BSHTMLLoader("example_data/fake-content.html")
data = loader.load()
data
[Document(page_content='\n\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': 'example_data/fake-content.html', 'title': 'Test Title'})]