
从 HTML 中剥离标签,可选择剥离由 CSS 选择器标识区域中的标签
参见 llm, ttok 和 strip-tags——用于处理 ChatGPT 及其他大型语言模型的 CLI 工具,了解有关此项目的更多信息。
使用 pip
安装此工具
将内容通过管道输入此工具以剥离其中的标签
cat input.html | strip-tags > output.txt
或传递文件名
strip-tags -i input.html > output.txt
仅针对由 CSS 选择器标识的特定区域运行
strip-tags '.content' -i input.html > output.txt
可以使用多个选择器调用此命令
cat input.html | strip-tags '.content' '.sidebar' > output.txt
要仅返回页面上与其中一个选择器匹配的第一个元素,请使用 --first
cat input.html | strip-tags .content --first > output.txt
要移除由特定选择器包含的内容 - 例如