Tag: html
-
html源代码提取分析利器htmlq
以前的笨办法: https://developers.redhat.com/articles/2022/10/05/filter-content-html-using-regular-expressions-grep# 项目地址 :https://github.com/mgdm/htmlq/releases 安装可根据官网。以下是经典例子: 以这个html文件为例: 扩展阅读 1、CSS ID选择器,用符号:# 2、CSS属性选择器,–attribute参数提取href值,如果你提取/查找HTML页面的元素的属性值,可以为htmlq指定–attribute选项,然后指定HTML元素的名称和该元素属性名称。例如搜索/提取HTML页面所有a元素href属性。你将运行以下命令: 这将会输出所有html页面中所有a元素的href属性,即页面中所有可跳转的链接。内容类似于下面的输出: 3、使用CSS class类名选择器提取文本, 一个点后面跟class类标签 输出内容将不包含HTML的元素标签,仅剩下文本 4、在输出之前移除指定节点,如果需要在你提取的数据或者截取的HTML片段移除不需要的元素,可以为htmlq命令指定–remove-nodes选项。该选项在一个CSS选择器之后,并在该选项之后添加要删除节点的CSS选择器。例如要从.whynix类名选择器中移除所有svg元素/节点,你将运行以下命令: 5、格式化HTML输出,htmq除了提取HTML页面的数据,元素,属性,片段之外还可以对HTML片段进行格式化输出,例如以下命令将格式化输出选择器#posts元素片段的输出,你将运行以下命令: 6、HTML语法高亮 bat命令是一个语法高亮的命令。可在终端中高亮几乎所有语言的语法和关键词。让你更容易查看数据与语法。htmlq命令的结果是写到标准输出,这允许我们将htmlq命令的结果通过管道传递给bat命令高亮HTML片段关键词/语法/属性等。 例如我们使用htmlq提取body元素所有内容,包括HTML标签,属性。即不只是文本,并通过bat命令高亮HTML语法你将运行以下命令: