strip-tags 作者 simonw

收藏

README 源代码

strip-tags

PyPI Changelog Tests License

从 HTML 中剥离标签,可选择剥离由 CSS 选择器标识区域中的标签

参见 llm, ttok 和 strip-tags——用于处理 ChatGPT 及其他大型语言模型的 CLI 工具,了解有关此项目的更多信息。

安装

使用 pip 安装此工具

pip install strip-tags

用法

将内容通过管道输入此工具以剥离其中的标签

cat input.html | strip-tags > output.txt

或传递文件名

strip-tags -i input.html > output.txt

仅针对由 CSS 选择器标识的特定区域运行

strip-tags '.content' -i input.html > output.txt

可以使用多个选择器调用此命令

cat input.html | strip-tags '.content' '.sidebar' > output.txt

要仅返回页面上与其中一个选择器匹配的第一个元素,请使用 --first

cat input.html | strip-tags .content --first > output.txt

要移除由特定选择器包含的内容 - 例如