如何编写自己的采集器

采集器 文章 2019-12-30 15:27 1275 0 全屏看文

AI助手支持GPT4.0

        很多SEOer告诉用户:原创是王!

        我想说:放屁!!!!!

        当然放这个屁也是要判断的,如果你是UGC(User Generated Content 用户生成内容)那是另当别论。

        为何如此一说?

        你原创。1年1000篇不多吧。那一天就得3篇。我敢保证,连续1个月后基本上你的知识就架空了,该写的都写完了。

        而且,就算你原创了又能咋地。权重高的采集网站一采集,蜘蛛很可能就判断为这是高权重网站的原创,而你是采集!

        当然你可以使用复制文章自动追加版权信息来操作。

        或者在文章下追加版权信息,如:

        image.png

        所以,我还是觉得,如果你做不到UGC,那倒不如采集来的痛快,一小时就是几千帖。

        所以下面我们谈谈采集的事。

        我们这篇文章只讨论采集端,而不是发布端,因为网站不一样,离线发布代码一般也不一样。

        采集器的编写一般就是几个步骤:

        1. 分析网页结构体。

        2. 找到内容所在容器元素

        3. 分析容器元素是否存在于源码(右击查看源码)里,并获取相关的元素

            image.png

        4. 获取节点内容,做进一步数据处理(去除无用数据)

            这一步,最好还是使用正则表达式

        5. 通过http请求发送数据到离线发布接口。


         

        那一般采集器的知识体系如下:

        1. dom的结构体,最起码你要知道在html里 id、tagname、class等基础信息。

            这个可以参照:https://www.runoob.com/html/html-tutorial.html

        2. 第三方的爬虫框架

            这些框架可以让你更好的找到你想要的html内容

            比如Java的jsoup

                    java爬虫类jsoup的对html的基础操作

                    php的simple_html_dom

                    php爬虫类simple_html_dom对html的基本操作 

      3. 正则表达式的使用

             正则表达式教程可以参考:正则表达式

-EOF-

AI助手支持GPT4.0