上回时间太赶,对采集内容处理写的很浅,在实际操作过程中仍有很多奇淫巧技,需要创意与技术的结合。此文全程装逼。 回顾 上回说道处理采集内容的两个先后步骤: 对原始内容的处理 对处理后内容进行组织 第一块,对原始内容的处理,上篇主要针对html源码信息的处理,但没说对文本信息该如何处理。 下面分享下本渣渣曾经使用的一些,对采集内容文本的处理方式… 对原始采集内容文本信息的处理 对元数据的处理,这边忽略,因为元数据主要是添加逻辑上的映射。比如我一个企业黄页的网站,去抓了“XXX公司的规模、商标、年营业额、法人信息”等元数…