领取MOLI红包

python爬取各类文档方法归类汇总

发布日期：2025-01-04 17:25 点击次数：136

HTML文档是互联网上的主要文档类型，但还存在如TXT、WORD、Excel、PDF、csv等多种类型的文档。网络爬虫不仅需要能够抓取HTML中的敏感信息，也需要有抓取其他类型文档的能力。下面简要记录一些个人已知的基于python3的抓取方法，以备查阅。 1.抓取TXT文档在python3下，常用方法是使用urllib.request.urlopen方法直接获取。之后利用正则表达式等方式进行敏感词检索。上面的方法是已知目标网页为txt文本时的抓取。事实上，在自动抓取网页时，必须考虑目标网页是否为纯文本，用何种编码等问题。如果只是编码问题，可以简单使用print(textPage.read(),'utf-8')等python字符处理方法来解决，如果抓取的是某个HTML，最好先分析，例如： 2.抓取CSV文档 CSV文件是一种常见的数据存档文件，与TXT文档基本类似，但在内容组织上有一定格式，文件的首行为标题列，之后的文件中的每一行表示一个数据记录。这就像一个二维数据表或excel表格一样。 python3中包含一个csv解析库，可用于读写csv文件，但其读取目标一般要求是在本地，要读取远程网络上的csv文件需要用urllib.request.urlopen先获取。例如： csv文档的标题行（首行）需要特殊处理，csv.DictReader可以很好的解决这个问题。DictReader将读取的行转换为python字典对象，而不是列表。标题行的各列名即为字典的键名。 3.抓取PDF文档 pdf文档的远程抓取与操作，可借助比较流行的pdfminer3k库来完成。 4.抓取WORD 老版word使用了二进制格式，后缀名为.doc，word2007后出现了与OPEN OFFICE类似的类XML格式文档，后缀名为.docx。python对word文档的支持不够，似乎没有完美解决方案。为读取docx内容，可以使用以下方法：（1）利用urlopen抓取远程word docx文件；（2）将其转换为内存字节流；（3）解压缩（docx是压缩后文件）；（4）将解压后文件作为xml读取（5）寻找xml中的标签（正文内容）并处理 5.抓取EXCEL 6.抓取HTML源文档 7.抓取HTML表单数据 8.抓取Javascript数据更多内容请参考专题《python爬取功能汇总》进行学习。以上就是本文的全部内容，希望对大家的学习有所帮助，也希望大家多多支持脚本之家。

上一篇：Defender Control单文件版
下一篇：MICM整合诊断技术解析（五）：基因分析（上）|染色体|白血病|基因|血液|肿瘤|

python爬取各类文档方法归类汇总

热点资讯

相关资讯