开放文档格式 (ODT)

开放办公室文档格式 (ODF)open in new window,也称为 OpenDocument,是一种用于文字处理文档、电子表格、演示文稿和图形的开放文件格式,使用ZIP压缩的XML文件。它的目标是为办公应用程序提供一种基于开放的、基于XML的文件格式规范。

该标准由 Organization for the Advancement of Structured Information Standards (OASIS) 联盟的技术委员会开发和维护。它基于 Sun Microsystems 为 OpenOffice.org XML 开发的规范,这是 OpenOffice.org 和 LibreOffice 的默认格式。它最初是为 StarOffice 开发的,旨在提供办公文档的开放标准。

使用 UnstructuredODTLoader 可以加载 Open Office ODT 文件。

from langchain.document_loaders import UnstructuredODTLoader
loader = UnstructuredODTLoader("example_data/fake.odt", mode="elements")
docs = loader.load()
docs[0]

Document(page_content='Lorem ipsum dolor sit amet.', metadata={'source': 'example_data/fake.odt', 'filename': 'example_data/fake.odt', 'category': 'Title'})

Last Updated:
Contributors: 刘强