1 下载 和 解压
从http://crawler.archive.org/下载解压到本地 E:/heritrix-1.14.3
2 配置环境变量
HERITRIX_HOME=E:/heritrix-1.14.3
path后追加 ;%HERITRIX_HOME%/bin
3 配置 heritrix
拷贝E:/heritrix-1.14.3/conf/jmxremote.password.template到E:/heritrix-1.14.3下
并从命名为jmxremote.password
修改E:/heritrix-1.14.3/conf下的heritrix.properties 文件
用UrltraEditor或其他的文本编辑工具打开,找到 heritrix.cmdline.admin =
admin是空的 这是登陆heritrix UI的用户名和密码 格式为 username:password
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8080 配置端口 为了不和tomcat的8080端口冲突我改为8888
用winrar 打开E:/heritrix-1.14.3下的heritrix-1.14.jar文件,将其目录中的profiles文件夹拷到
E:/heritrix-1.14.3/conf目录下即完成heritrix的配置
(用些网友说要将jmxremote.password文件的属性改为只读,我不知道为什么?,官方文档里也没说)
4 启动heritrix
开始 -》运行 -》cmd 打开cmd端口
输入heritrix --admin=admin:admin
--admin heritrix的启动参数 必须的*
弹出一个Heritrix窗口 打印。。。。。。。。。。。。。Heritrix version: 1.14.3
cmd窗口打印出
2009-04-15 星期三 10:42:03.04 Starting heritrix
Heritrix 1.14.3 is running.
Web console is at: http://127.0.0.1:8888
Web console login and password: admin/admin
表示启动完成
5 抓取任务
用浏览器打开http://127.0.0.1:8888 输入用户名和密码
选Jobs选项, 在Create New Job 下选择 With defaults 子项
Create new crawl job based on default profile
Name of new job 和Description 随便写
Seeds 填写要抓取的网站 http://www.verycd.com/ (必须以/结尾)
单击Modules 按钮
Select Modules and Add/Remove/Order Processors
从上而下,可以看到,需要配置的内容共有7项
1.CrawlScope
CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如,如果选择BroadScope,则表示当前
抓 取的范围不受限制,但如果选择了HostScope,则表示抓取的范围在当前的Host内。
选择 org.archive.crawler.scope.BroadScope 单击change按钮即可
2.URI Frontier
URI Frontier是一个URL的处理器,它将决定下一个被处理的URL是什么。同时,它还会将经由处理器
链所解析出来的URL加入到等待处理的队列中去。在例子中,使用BdbFrontier类来做为处理器,全权
掌管URL的分配
选择 org.archive.crawler.frontier.BdbFrontier 单击change按钮即可
3.Pre Processors
这个队列中,所有的处理器都是用来对抓取时的一些先决条件做判断的。比如判断robot.txt的信息等
,它是整个处理器链的入口
选择org.archive.crawler.prefetch.Preselector 和
org.archive.crawler.prefetch.PreconditionEnforcer 两项 (在下拉列表中选择好,点击Add添加即可
)
4.Fetcher:从名称上看,它用于解析网络传输协议,比如解析DNS、HTTP或FTP等
选择org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP 两个单击Add添加
5.Extractors
它主要用是于解析当前获取到的服务器返回内容,这些内容通常是以字符串形式缓存的。在这个队列中
,包括了一系列的工具,如解析HTML、CSS等。在解析完毕,取出页面中的URL后,将它们放入队列中,等
待下次继续抓取
org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
org.archive.crawler.extractor.ExtractorCSS
org.archive.crawler.extractor.ExtractorJS
org.archive.crawler.extractor.ExtractorSWF
6.Writers
Writers主要是用于将所抓取到的信息写入磁盘。通常写入磁盘时有两种形式,一种是采用压缩的方式写
入,在这里被称为Arc方式,另一种则采用镜象方式写入。当然处理起来,镜象方式要更为容易一些。
默认的是Arc方式 点击旁边的Remove 删除 在下拉框中选择
org.archive.crawler.writer.MirrorWriterProcessor 单击Add添加
7 Post Processors
在整个抓取解析过程结束后,进行一些扫尾的工作,比如将前面Extractor解析出来的URL有条件的加入
到待处理队列中去
org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler 单击Add添加
【在设置时,可以看见在队列的右侧总是有“Up”、“Down”和“Remove”这样的操作是因为在处理器链
的设置过程中,每一个队列中的处理器都是要分先后顺序的】
设置运行时的参数
在设置完处理链后,选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面
后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮
助信息。这里只要更改 “HTTP-Header”项中的内容,更改其属性值user-agent和 from
其中user-agent中的 PROJECT_URL_HERE 对应自己的完整URL地址,(http://192.168.16.128)
from中设置自己的合法email地址 只需是格式正确的邮件地址就可以
@VERSION@是设置heritrix的版本 填上1.14.3
user-agent Mozilla/5.0 (compatible; heritrix/1.14.3 +http://192.168.16.128)
设置完成后单击“Submit job”链接 会回到Job是页面
显示了“Job created”,这表示刚才所设置的抓取任务已经被成功的建立。同时,在下面的“Pending
Jobs”一栏,可以清楚的看到刚刚被创建的Job,它的状态目前为“Pending”。
最后启动这个任务。回到“Console”界面上,可以看到刚刚创建的任务已经显示了出来,等待我们开始
它。
单击面版中的“Start”链接,就会将此时处于“Pending”状态的抓取任务激活,令其开始抓取
此时,面版中出现了一条抓取状态栏,它清楚的显示了当前已经被抓取的链接数量
抓取完毕后在E:/heritrix-1.14.3/目录下生成以个jobs目录
进入jobs 可以看到 verycd-20090415024225919 其中verycd就是job的名称
进去 里面有一个mirror目录 是因为在前面设置了Writer的类型为MirrorWriter
里面每一个站点的URL地址即为保存的目录名称
至此 heritrix抓取任务就到此结束...
- 浏览: 534082 次
- 性别:
- 来自: 武汉
文章分类
- 全部博客 (533)
- spring (8)
- struts (21)
- hibernate (17)
- java其他 (73)
- 设计模式 (2)
- 开发软件/插件 (26)
- android (8)
- extjs4 (1)
- 网络编程 (4)
- 生活杂记 (3)
- ibatis (5)
- 应用服务器 (4)
- js (26)
- html/css (16)
- linux (0)
- db (32)
- jsp/servlet (13)
- xml (9)
- webservice (10)
- 错误/异常处理 (23)
- 线程 (10)
- maven (7)
- lucene (2)
- python (0)
- 报表 (1)
- mongodb (6)
- restful (6)
- ssl (1)
最新评论
-
zmwxiaoming:
...
struts2拦截器验证登陆状态 -
u012413283:
感谢楼主,同样的问题解决了
eclipse下安装m2e的maven插件报错的各类解决方案(含pom editor没装好的解决方案) -
javalucky:
你妹,想不吐槽都不行啊,eclipse 那来的maven4My ...
clipse加载maven工程提示pom.xml无法解析org.apache.maven.plugins:maven-resources-plugin: -
zhaoyh82:
感谢楼主
eclipse下安装m2e的maven插件报错的各类解决方案(含pom editor没装好的解决方案) -
hua2011:
按照楼主说的,还是没有出现pom editor编辑器,麻烦楼主 ...
eclipse下安装m2e的maven插件报错的各类解决方案(含pom editor没装好的解决方案)
发表评论
-
javaBean与Map<String,Object>互转
2014-02-25 13:32 6351. 为什么要实现javaBean与Map<Strin ... -
java反射工具类
2014-02-25 09:18 1018import java.lang.reflect.Field ... -
java反射详解
2014-02-24 14:07 310http://www.cnblogs.com/rollenho ... -
svn如何清除已保存的用户名密码
2014-02-24 10:41 8661.Windows 删除以下目录C:\Documents a ... -
HttpURLConnection 上传大文件 内存溢出 out of memery
2014-02-23 11:35 1729项目中遇到问题总结 ... -
基于https,HttpsURLConnection客户端代码调用
2014-02-23 11:36 843今天遇到配置了SSL的服务器,不知道怎么写客户端调用,费了 ... -
聚簇索引(Clustered Index)和非聚簇索引 (Non- Clustered Index)
2014-02-17 09:54 1001索引的重要性数据库性能优化中索引绝对是一个重量级的因素,可 ... -
数据库中索引的优缺点
2014-02-17 09:46 370一、索引的概念 索 ... -
eclipse项目中的java文件导入后变为空心J问题
2014-02-11 10:19 3630今天从SVN更新了一下整个工程,更新完成后发现工程的目录顺序 ... -
Java获取客户端真实IP地址
2013-12-25 11:00 825在JSP里,获取客户端的IP地址的方法是:reques ... -
idea总结
2013-12-20 23:09 7071. IDEA内存优化 先看看 ... -
Java 位运算符
2013-12-11 09:49 861写道 位运算符用来对二进制位进行操作 ,Java中提 供 ... -
CAS单点登录
2013-12-09 15:24 835一、简介 1、cas ... -
jira的详细安装和破解
2013-12-04 11:04 1179jira的详细安装和破解 以下是在Windows20 ... -
java常见排序速记
2013-11-11 10:10 464冒择路(入)兮(希尔)快归堆 冒泡,选择,插入,希尔,快 ... -
JA-SIG(CAS)学习笔记3
2013-11-07 15:17 787技术背景知识: JA-SI ... -
JA-SIG(CAS)学习笔记2
2013-11-07 15:15 654背景知识: 什么是SSO(Single Sign On)单点 ... -
JA-SIG(CAS)学习笔记1
2013-11-07 15:14 726实验背景: 系统环境: Windows XP | SUN ... -
gea穿墙教程
2013-10-22 13:41 1... -
applicationContext.xml 配置文件的存放位置
2013-10-17 10:38 1274web.xml中classpath:和classpath*: ...
相关推荐
Heritrix 是一款基于JAVA的开源的网络爬虫框架,亲自动手记录
heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置heritrix正确完整的配置
Heritrix1.4.4安装配置使用手册,有研究索引技术的可以下载看看.
Heritrix的安装与配置方法:文档中详细介绍了Heritrix的安装与配置,可以按照里面的方法自己安装配置。
Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具
heritrix抓取指南heritrix抓取指南 heritrix抓取指南
搜索引擎开源网络爬虫Heritrix无敌配置搜索引擎开源网络爬虫Heritrix无敌配置
对heritrix抓取的操作和扩展 里面有MirrorWriterProcessor扩展的类文件修改
按照这个步骤安装绝对会让你安装成功的。步骤非常的清晰。Heritrix是一个不错的选择。网络爬虫,更快更好的帮你捕捉到你想要的网页
heritrix 的详细配置 与 使用资料.里面对heritrix配置有详细的说明!
详细介绍Heritrix的配置手册,具体的操作和使用示例。
heritrix的安装和配置[归纳].pdf
将hertrix配置到myeclipse中
heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix...
Heritrix是用来爬取网页的开源工具包,本文档描述了如何在Eclipse环境下配置heritrix
介绍了heritrix爬虫安装和部署,以及运行示例和常见错误
Heritrix1.14.3配置流程[参考].pdf
Eclipse下配置Heritrix,具体配置步骤详细介绍。
heritrix heritrix heritrix heritrix heritrix heritrix
Heritrix 配置,部署详解 在Eclipse里配置Heritrix的开发环境 1. 下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包; 2. 在Eclipse下新建普通Java项目,取名...