为什么使用“小偷程序”?
远程抓取文章资讯或商品信息是很多企业要求程序员实现的功能,也就是俗说的小偷程序。其最主要的优点是:解决了公司网编繁重的工作,大大提高了效率。只需要一运行就能快速的抓取别人网站的信息。
“小偷程序”在哪里运行?
“小偷程序” 应该在 Windows 下的 DOS(参考文章:http://blog.csdn.net/liruxing1715/article/details/7079488) 或 Linux 下通过 PHP 命令运行为最佳,因为,网页运行会超时。
比如图(Windows 下 DOS 为例):
“小偷程序”的实现
这里主要通过一个实例来讲解,我们来抓取下“华强电子网”的资讯信息,请先看观察这个链接 http://www.hqew.com/info-c10.html,当您打开这个页面的时候发现这个页面会发现一些现象:
1、资讯列表有 500 页(2012-01-03);
2、每页的 url 链接都有规律,比如:第1页为http://www.hqew.com/info-c10-1.html;第2页为http://www.hqew.com/info-c10-2.html;……第500页为http://www.hqew.com/info-c10-500.html;
3、由第二点就可以知道,“华强电子网” 的资讯是伪静态或者是生成的静态页面
其实,基本上大部分的网站都有这样的规律,比如:中关村在线、慧聪网、新浪、淘宝……。
这样,我们可以通过这样的思路来实现页面内容的抓取:
1、先获取文章列表页内容;
2、根据文章列表页内容循环获取文章的 url 地址;
3、根据文章的 url 地址获取文章的详细内容
这里,我们主要抓取资讯页里面的:标题(title)、发布如期(date)、作者(author)、来源(source)、内容(content)
“华强电子网”资讯抓取
首先,先建数据表结构,如下所示:
抓取程序:
通过上面的程序,就可以实现抓取华强电子网的资讯信息。
入口方法 init($min, $max) 如果想抓取 1-500 页面内容,那么 init(1, 500) 即可!这样,用不了多长时间,华强电子网的资讯就会全部抓取到数据库里面了。^_^
执行界面:
数据库:
分享到:
相关推荐
本篇文章给大家分享PHP源码批量抓取远程网页图片并保存到本地的实现方法,对批量抓取网页图片相关知识感兴趣的朋友一起学习吧
可以抓取远程网页的内容,并保存到数据库。
java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java简单的抓取网页内容的程序java...
php写的页面小偷 自动抓取页面并在本地重新生成HTML文件 重新组织了CSS文件,图片,动画 生成的HTML代码经过程序优化 去掉了不必要的东西 各种资源文件路径也经过重新编写
很多朋友多问过我如何抓取网页的内容,其实并不难,但是对于网页的分析却不是很简单,以前我接触正则表达式比较少,就自己去分析页面,结果是要么抓到的数据不准,要么就根本抓不到。 现在写了两个类给朋友们用,...
Delphi实现远程屏幕抓取 Delphi实现远程屏幕抓取
用delphi实现的,批量抓取指定页面中的所有e-mail地址,使用了TPerlRegEx插件(正则表达式),希望对你有帮助
自动抓取网页视频,批量下载m3u8视频ts文件,并自动合成一个MP4格式视频文件
asp数据抓取程序,asp+xmlhttp抓取远程数据到数据库
主要介绍了PHP实现采集抓取淘宝网单个商品信息,本文是一种实现思路,使用file_get_contents函数实现,并给出了采集正则,需要的朋友可以参考下
利用curl抓取远程页面内容的一个小示例,需要的朋友可以过来参考下
一个用java实现的抓取网站程序,使用了多线程抓取,对html分析程序和防屏蔽功能实现
PHP抓取远程图片并另存为的实现方法_.docx
一款基于PHP环境的新闻小偷程序,内部预设的规则是采集网易新闻的内容,只上传了首页,分类也很简单的,改下首页INDEX.PHP 的抓取地址就行了。程序更重要的是演示PHP代码的采集编写方法,很多采集都需要根据规则来...
本程序可以抓取指定IE窗口中已下载完毕的网页中的全部或部分图片(可根据图片文件后缀和图片所属站点的域名过滤,也可以对单个图片进行选取),对于选中的图片,可以: 1)抓取文件URL列表,可以转换为UBB代码或HTML...
Python爬虫开发 基于Python实现的批量抓取采集新浪博客页面的所有文章 含源代码及案例数据集.rar
不是完整的程序,只是两页 抓取与采集页面内容 喜欢的拿去研究下 代码量不大,注释没加,不过都不太难。