EPub
EPUB 是一种电子书文件格式,使用“.epub”文件扩展名。该术语是电子出版的简称,有时以 ePub 样式呈现。EPUB 受到许多电子阅读器的支持,并且可在大多数智能手机、平板电脑和计算机上使用兼容的软件。
本教程介绍了如何将 .epub
文档加载到我们可以在下游使用的 Document 格式中。您需要安装 pandocs
软件包,以便该加载器正常工作。
#!pip install pandocs
from langchain.document_loaders import UnstructuredEPubLoader
loader = UnstructuredEPubLoader("winter-sports.epub")
data = loader.load()
保留元素
在底层,Unstructured 为不同的文本块创建了不同的 "元素"。默认情况下,我们将它们组合在一起,但您可以通过指定 mode="elements"
来保持它们的分离。
loader = UnstructuredEPubLoader("winter-sports.epub", mode="elements")
data = loader.load()
data[0]
Document(page_content='The Project Gutenberg eBook of Winter Sports in\nSwitzerland, by E. F. Benson', lookup_str='', metadata={'source': 'winter-sports.epub', 'page_number': 1, 'category': 'Title'}, lookup_index=0)