所有文章

微软出品的markdown转换工具,强大且简单易用

发布时间

calendar-icon

作者

阅读时间

read-time-icon 3 min read

浏览量

view-count-icon

摘要: 微软推出一款强大的开源Markdown转换工具,功能多样,能将多格式文件(如 PDF、Office 文档等)转成 Markdown 格式,有自动转换、文档分析等功能,支持诸多文件类型。安装便捷,电脑终端输入代码即可。使用简单,按步骤操作几行代码就能完成转换。

简介

微软出品的markdown转换工具,官方出手,果然强大!非常简单易用!

微软最新发布的开源 Python 工具能够高效地将多种格式的文件转换为 Markdown 格式,包括 PDF、Office 文档(Word、PPT、Excel)、图片、音频等。该工具集成了 OCR 文字识别、语音转文字和元数据提取等强大功能,特别适用于文档分析和内容索引。


查看Giuthub项目地址

主要功能

自动转换:将各种类型的文档智能转换为 Markdown 格式。

文档分析:适用于文本分析和内容索引,提升数据处理效率。

简洁 API:提供易于使用的 Python API,方便集成到现有项目中。

支持的文件格式

PDF 文件

PowerPoint 演示文稿

Word 文档

Excel 电子表格

图片文件(包括图片中的文字识别)

音频文件(包括音频中的语音转文字)

HTML 文件

基于文本的文件(如 CSV、JSON 和 XML)

ZIP 压缩文件(可以处理压缩包里的所有内容)

适用场景

批量处理:需要处理大量不同格式的文档时。

文档索引:构建高效的文档索引系统。

文本分析:适用于文本分析和数据挖掘项目。

统一格式:在需要将文档格式统一到 Markdown 时。

安装

10 秒钟安装完毕:Mac苹果电脑,在终端输入一键安装代码

pip install markitdown

CleanShot 2024-12-21 at 14.09.55.gif

使用

该工具的使用方法非常简单,仅需几行代码即可完成转换:

markitdown path-to-file.pdf > document.md

具体操作

1.复制文件路径

温馨提示:文件名字不能有空格,不然转换会失败

1734594500599.webp

2.使用Marktidown的格式转换代码

markitdown path-to-file.pdf > document.md

path-to-file.pdf 换成刚才刚才复制的路径: markitdown /Users/pipu/Downloads/example/20241108 Meeting.xlsx > document.md

1734761936464.webp

如果没有提示,就代表转换成功

md文件默认的输出路径是用户的Home文件夹

1734762057572.webp