b1gc8v 发表于 2024-8-25 17:49:24

玩大数据必定用得到的19款Java开源Web爬虫


    <div style="color: black; text-align: left; margin-bottom: 10px;">
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">网络爬虫(又被<span style="color: black;">叫作</span>为网页蜘蛛,网络<span style="color: black;">设备</span>人,在FOAF社区中间,更经常的<span style="color: black;">叫作</span>为网页追逐者),是一种<span style="color: black;">根据</span><span style="color: black;">必定</span>的规则,自动地抓取万维网信息的程序<span style="color: black;">或</span>脚本。<span style="color: black;">另一</span><span style="color: black;">有些</span>不常<span style="color: black;">运用</span>的名字还有蚂蚁、自动索引、模拟程序<span style="color: black;">或</span>蠕虫。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">今天将为<span style="color: black;">大众</span>介绍19款Java开源Web爬虫,需要的小伙伴们赶快<span style="color: black;">保藏</span>吧。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/e4a0002b9a6e015817b~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725102426&amp;x-signature=R8wPawOEWsI0wMdST%2BDMIbjwC5A%3D" style="width: 50%; margin-bottom: 20px;"></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">1、</span>Heritrix</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Heritrix 是一个由 java <span style="color: black;">研发</span>的、开源的网络爬虫,用户<span style="color: black;">能够</span><span style="color: black;">运用</span>它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取<span style="color: black;">规律</span>。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Heritrix 是个“Archival Crawler”——来获取完整的、精确的、站点内容的深度复制。<span style="color: black;">包含</span>获取图像以及其他非文本内容。抓取并存储<span style="color: black;">关联</span>的内容。对内容来者不拒,不对页面进行内容上的修改。重新爬行对相同的URL不针对先前的进行替换。爬虫<span style="color: black;">重点</span><span style="color: black;">经过</span>Web用户界面<span style="color: black;">起步</span>、监控和<span style="color: black;">调节</span>,<span style="color: black;">准许</span>弹性的定义要获取的url。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Heritrix是按多线程方式抓取的爬虫,主线程把任务分配给Teo线程(处理线程),<span style="color: black;">每一个</span>Teo线程每次处理一个URL。Teo线程对<span style="color: black;">每一个</span>URL执行一遍URL处理器链。URL处理器链<span style="color: black;">包含</span>如下5个处理<span style="color: black;">过程</span>。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(1)预取链:<span style="color: black;">重点</span>是做<span style="color: black;">有些</span>准备工作,例如,对处理进行延迟和重新处理,否决随后的操作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(2)提取链:<span style="color: black;">重点</span>是下载网页,进行DNS转换,填写请求和响应表单。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(3)抽取链:当提取完成时,抽取感兴趣的HTML和JavaScript,通常那里有新的要抓取的URL。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(4)写链:存储抓取结果,<span style="color: black;">能够</span>在这一步直接做全文索引。Heritrix<span style="color: black;">供给</span>了用ARC格式<span style="color: black;">保留</span>下载结果的ARCWriterProcessor实现。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">(5)提交链:做和此URL<span style="color: black;">关联</span>操作的最后处理。<span style="color: black;">检测</span><span style="color: black;">那些</span>新提取出的URL在抓取范围内,<span style="color: black;">而后</span>把这些URL提交给Frontier。<span style="color: black;">另一</span>还会更新DNS缓存信息。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/ddc0000f0f57230f571~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725102426&amp;x-signature=TTYjQAP4P2%2FsiDUifHwCtigMIao%3D" style="width: 50%; margin-bottom: 20px;"></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Heritrix系统框架图</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><img src="https://p3-sign.toutiaoimg.com/e49000451779d5bdc2f~noop.image?_iz=58558&amp;from=article.pc_detail&amp;lk3s=953192f4&amp;x-expires=1725102426&amp;x-signature=kKFdjCbBIsWGObymr4h%2FgVp%2BpNc%3D" style="width: 50%; margin-bottom: 20px;"></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">heritrix处理一个url的流程</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">2、</span>WebSPHINX</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">WebSPHINX 是一个 Java 类包和 Web 爬虫的交互式<span style="color: black;">研发</span>环境。 Web 爬虫 ( <span style="color: black;">亦</span>叫作<span style="color: black;">设备</span>人或蜘蛛 ) 是<span style="color: black;">能够</span>自动浏览与处理 Web 页面的程序。 WebSPHINX 由两部分<span style="color: black;">构成</span>:爬虫工作平台和 WebSPHINX 类包。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">WebSPHINX 是一个 Java 类包和 Web 爬虫的交互式<span style="color: black;">研发</span>环境。 Web 爬虫 ( <span style="color: black;">亦</span>叫作<span style="color: black;">设备</span>人或蜘蛛 ) 是<span style="color: black;">能够</span>自动浏览与处理 Web 页面的程序。 WebSPHINX 由两部分<span style="color: black;">构成</span>:爬虫工作平台和 WebSPHINX 类包。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">WebSPHINX – 用途</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1.可视化<span style="color: black;">表示</span>页面的集合</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2.下载页面到本地磁盘用于离线浏览</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3.将所有页面拼接成单个页面用于浏览<span style="color: black;">或</span>打印</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">4.<span style="color: black;">根据</span>特定的规则从页面中抽取文本字符串</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">5.用Java或Javascript<span style="color: black;">研发</span>自定义的爬虫</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">仔细</span>介绍可见&gt;&gt;&gt;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">3、</span>WebLech</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">WebLech是一个功能强大的Web站点下载与镜像工具。它支持按功能<span style="color: black;">需要</span>来下载web站点并能够尽可能模仿标准Web浏览器的<span style="color: black;">行径</span>。WebLech有一个功能<span style="color: black;">掌控</span>台并采用多线程操作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">WebLech是一个功能强大的Web站点下载与镜像免费开源工具。它支持按功能<span style="color: black;">需要</span>来下载web站点并能够尽可能模仿标准Web浏览器的<span style="color: black;">行径</span>。WebLech有一个功能<span style="color: black;">掌控</span>台并采用多线程操作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">这款爬虫足够简单,<span style="color: black;">倘若</span>初学<span style="color: black;">倘若</span>编写爬虫,可做入门参考。<span style="color: black;">因此</span>我<span style="color: black;">选取</span>了用这个爬虫<span style="color: black;">起始</span>我的<span style="color: black;">科研</span>。<span style="color: black;">倘若</span>只是做<span style="color: black;">需求</span>不高的应用,<span style="color: black;">亦</span>可试试。<span style="color: black;">倘若</span>想找一款功能强大,就别在WebLech上浪费时间了。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页</p>:http://weblech.sourceforge.net/

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">特点:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1)开源,免费</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2)代码是用纯Java写的,<span style="color: black;">能够</span>在任何支持Java的平台上<span style="color: black;">亦</span>行</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">3)支持多线程下载网页</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">4)可维持网页间的链接信息</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">5)可配置性强: 深度优先或宽度优先爬行网页 可定制URL过滤器,<span style="color: black;">这般</span>就<span style="color: black;">能够</span>按需要爬行单个web服务器,单个目录或爬行整 个WWW网络 可设置URL的优先级,<span style="color: black;">这般</span>就<span style="color: black;">能够</span>优先爬行<span style="color: black;">咱们</span>感兴趣或重要的网页 可记录断点时程序的状态,一边重新<span style="color: black;">起步</span>时可接着上次继续爬行。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">4、</span>Arale</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Arale<span style="color: black;">重点</span>为个人<span style="color: black;">运用</span>而设计,而<span style="color: black;">无</span>像其它爬虫<span style="color: black;">同样</span>是关注于页面索引。Arale能够下载<span style="color: black;">全部</span>web站点或来自web站点的某些资源。Arale还能够把动态页面映射成静态页面。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">5、</span>JSpider</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">JSpider:是一个完全可配置和定制的Web Spider引擎.你<span style="color: black;">能够</span>利用它来<span style="color: black;">检测</span>网站的错误(内在的服务器错误等),网站内<span style="color: black;">外边</span>链接<span style="color: black;">检测</span>,分析网站的结构(可创建一个网站地图),下载<span style="color: black;">全部</span>Web站点,你还<span style="color: black;">能够</span>写一个JSpider插件来扩展你所需要的功能。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Spider是一个用Java实现的WebSpider,JSpider的执行格式如下:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">jspider </p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">URL<span style="color: black;">必定</span>要加上协议名<span style="color: black;">叫作</span>,如:http://,否则会报错。<span style="color: black;">倘若</span>省掉ConfigName,则采用默认配置。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">JSpider 的<span style="color: black;">行径</span><span style="color: black;">是由于</span>配置文件<span style="color: black;">详细</span>配置的,<span style="color: black;">例如</span>采用什么插件,结果存储方式等等都在conf\\目录下设置。JSpider默认的配置种类 很少,用途<span style="color: black;">亦</span>不大。<span style="color: black;">然则</span>JSpider非常容易扩展,<span style="color: black;">能够</span>利用它<span style="color: black;">研发</span>强大的网页抓取与数据分析工具。要做到这些,需要对JSpider的原理有深入的了 解,<span style="color: black;">而后</span><span style="color: black;">按照</span>自己的<span style="color: black;">需要</span><span style="color: black;">研发</span>插件,撰写配置文件。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Spider是:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">一个高度可配置和和可定制Web爬虫</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">LGPL开源许可下<span style="color: black;">研发</span></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">100%纯Java实现</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">您<span style="color: black;">能够</span><span style="color: black;">运用</span>它来:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">检测</span>您网站的错误(内部服务器错误, …)</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">传出或内部链接<span style="color: black;">检测</span></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">分析你网站的结构(创建一个sitemap, …)</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">下载整修网站</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">经过</span>编写JSpider插件实现任何功能.</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://j-spider.sourceforge.net/

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">6、</span>spindle</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">spindle是一个构建在Lucene工具包之上的Web索引/搜索工具.它<span style="color: black;">包含</span>一个用于创建索引的HTTP spider和一个用于搜索这些索引的搜索类。spindle项目<span style="color: black;">供给</span>了一组JSP标签库使得<span style="color: black;">哪些</span>基于JSP的站点不需要<span style="color: black;">研发</span>任何Java类就能够<span style="color: black;">增多</span>搜索功能。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">7、</span>Arachnid</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Arachnid是一个基于Java的web spider框架.它<span style="color: black;">包括</span>一个简单的HTML剖析器能够分析<span style="color: black;">包括</span>HTML内容的输入流.<span style="color: black;">经过</span>实现Arachnid的子类就能够<span style="color: black;">研发</span>一个简单的Web spiders并能够在Web站上的<span style="color: black;">每一个</span>页面被解析之后<span style="color: black;">增多</span>几行代码调用。 Arachnid的下载包中<span style="color: black;">包括</span>两个spider应用程序例子用于演示<span style="color: black;">怎样</span><span style="color: black;">运用</span>该框架。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://arachnid.sourceforge.net/
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">8、</span>LARM</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">LARM能够为Jakarta Lucene搜索引擎框架的用户<span style="color: black;">供给</span>一个纯Java的搜索<span style="color: black;">处理</span><span style="color: black;">方法</span>。它<span style="color: black;">包括</span>能够为文件,数据库表格<span style="color: black;">创立</span>索引的<span style="color: black;">办法</span>和为Web站点建索引的爬虫。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://larm.sourceforge.net/

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;"><span style="color: black;">9、</span>JoBo</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">JoBo是一个用于下载<span style="color: black;">全部</span>Web站点的简单工具。它本质是一个Web Spider。与其它下载工具相比较它的<span style="color: black;">重点</span><span style="color: black;">优良</span>是能够自动填充form(如:自动登录)和<span style="color: black;">运用</span>cookies来处理session。JoBo还有灵活的下载规则(如:<span style="color: black;">经过</span>网页的URL,<span style="color: black;">体积</span>,MIME类型等)来限制下载。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十、snoics-reptile</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">1、snoics-reptile是什么?</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">是用纯Java<span style="color: black;">研发</span>的,用来进行网站镜像抓取的工具,<span style="color: black;">能够</span><span style="color: black;">运用</span>配制文件中<span style="color: black;">供给</span>的URL入口,把这个网站所有的能用浏览器<span style="color: black;">经过</span>GET的方式获取到的资源<span style="color: black;">所有</span>抓取到本地,<span style="color: black;">包含</span>网页和<span style="color: black;">各样</span>类型的文件,如:<span style="color: black;">照片</span>、flash、mp3、zip、rar、exe等文件。可以将<span style="color: black;">全部</span>网站完整地下传至硬盘内,并能保持原有的网站结构精确不变。只需要把抓取下来的网站放到web服务器(如:Apache)中,就<span style="color: black;">能够</span>实现完整的网站镜像。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">2、<span style="color: black;">此刻</span><span style="color: black;">已然</span>有了其他的类似的软件,<span style="color: black;">为何</span>还要<span style="color: black;">研发</span>snoics-reptile?</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">由于</span>有些在抓取的过程中经常会<span style="color: black;">显现</span>错误的文件,<span style="color: black;">况且</span>对<span style="color: black;">非常多</span><span style="color: black;">运用</span>javascript<span style="color: black;">掌控</span>的URL<span style="color: black;">无</span>办法正确的解析,而snoics-reptile<span style="color: black;">经过</span>对外<span style="color: black;">供给</span>接口和配置文件的形式,对特殊的URL,<span style="color: black;">能够</span><span style="color: black;">经过</span>自由的扩展对外<span style="color: black;">供给</span>的接口,并<span style="color: black;">经过</span>配置文件注入的方式,基本上能实现对所有的网页都正确的解析和抓取。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://www.blogjava.net/snoics

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十一、Web-Harvest</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Web-Harvest是一个Java开源Web数据抽取工具。它能够收集指定的Web页面并从这些页面中提取有用的数据。Web-Harvest<span style="color: black;">重点</span>是运用了像XSLT,XQuery,正则表达式等这些技术来实现对text/xml的操作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Web-Harvest 是一个用Java 写的开源的Web 数据提取工具。它<span style="color: black;">供给</span>了一种从所需的页面上提取有用数据的<span style="color: black;">办法</span>。为了达到这个目的,你可能需要用到如XSLT,XQuery,和正则表达式等操作text/xml 的<span style="color: black;">关联</span>技术。Web-Harvest <span style="color: black;">重点</span>着眼于<span style="color: black;">日前</span>仍占大<span style="color: black;">都数</span>的基于HMLT/XML 的页面内容。另一方面,它<span style="color: black;">亦</span>能<span style="color: black;">经过</span>写自己的Java <span style="color: black;">办法</span>来轻易扩展其提取能力。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Web-Harvest 的<span style="color: black;">重点</span>目的是加强现有数据提取技术的应用。它的<span style="color: black;">目的</span>不是创造一种新<span style="color: black;">办法</span>,而是<span style="color: black;">供给</span>一种更好地<span style="color: black;">运用</span>和组合现有<span style="color: black;">办法</span>的方式。它<span style="color: black;">供给</span>了一个处理器集用于处理数据和<span style="color: black;">掌控</span>流程,每一个处理器被看作是一个函数,它<span style="color: black;">持有</span>参数和执行后<span style="color: black;">一样</span>有结果返回。<span style="color: black;">况且</span>处理是被组合成一个管道的形式,<span style="color: black;">这般</span>使得它们<span style="color: black;">能够</span>以链式的形式来执行,<span style="color: black;">另外</span>为了更易于数据操作和重用,Web-Harvest 还<span style="color: black;">供给</span>了变量上下方用于存储<span style="color: black;">已然</span>声明的变量。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">web-harvest <span style="color: black;">起步</span>,<span style="color: black;">能够</span>直接双击jar包运行,<span style="color: black;">不外</span>该<span style="color: black;">办法</span><span style="color: black;">不可</span>指定web-harvest java虚拟机的<span style="color: black;">体积</span>。第二种<span style="color: black;">办法</span>,在cmd下切到web-harvest的目录下,敲入命令“java -jar -Xms400m webharvest_all_2.jar” <span style="color: black;">就可</span><span style="color: black;">起步</span>并设置起java虚拟机<span style="color: black;">体积</span>为400M。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://web-harvest.sourceforge. net

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">2、</span>ItSucks</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">ItSucks是一个Java Web爬虫开源项目。可灵活定制,支持<span style="color: black;">经过</span>下载模板和正则表达式来定义下载规则。<span style="color: black;">供给</span>一个<span style="color: black;">掌控</span>台和Swing GUI操作界面。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">功能特性:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">多线程</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">正则表达式</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">保留</span>/载入的下载工作</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在线<span style="color: black;">帮忙</span></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">HTTP/HTTPS 支持</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">HTTP 代理 支持</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">HTTP身份验证</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Cookie 支持</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">可配置的User Agent</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">连接限制</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">配置HTTP响应代码的<span style="color: black;">行径</span></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">带宽限制</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Gzip压缩</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://itsucks.sourceforge.net/

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">3、</span>Smart and Simple Web Crawler</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Smart and Simple Web Crawler是一个Web爬虫框架。集成Lucene支持。该爬虫<span style="color: black;">能够</span>从单个链接或一个链接数组<span style="color: black;">起始</span>,<span style="color: black;">供给</span>两种遍历模式:最大迭代和最大深度。<span style="color: black;">能够</span>设置 过滤器限制爬回来的链接,默认<span style="color: black;">供给</span>三个过滤器ServerFilter、BeginningPathFilter和 RegularExpressionFilter,这三个过滤器可用AND、OR和NOT联合。在解析过程或页面加载前后都<span style="color: black;">能够</span>加监听器。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">4、</span>Crawler4j</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">crawler4j是Java实现的开源网络爬虫。<span style="color: black;">供给</span>了简单易用的接口,<span style="color: black;">能够</span>在几分钟内创建一个多线程网络爬虫。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">crawler4j的<span style="color: black;">运用</span><span style="color: black;">重点</span>分为两个<span style="color: black;">过程</span>:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">实现一个继承自WebCrawler的爬虫类;</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">经过</span>CrawlController调用实现的爬虫类。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">WebCrawler是一个抽象类,继承它必须实现两个<span style="color: black;">办法</span>:shouldVisit和visit。其中:</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">shouldVisit是判断当前的URL<span style="color: black;">是不是</span><span style="color: black;">已然</span>应该被爬取(<span style="color: black;">拜访</span>);</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">visit则是爬取该URL所指向的页面的数据,其传入的参数即是对该web页面<span style="color: black;">所有</span>数据的封装对象Page。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">另一</span>,WebCrawler还有其它<span style="color: black;">有些</span><span style="color: black;">办法</span>可供覆盖,其<span style="color: black;">办法</span>的命名规则类似于Android的命名规则。如getMyLocalData<span style="color: black;">办法</span><span style="color: black;">能够</span>返回WebCrawler中的数据;onBeforeExit<span style="color: black;">办法</span>会在该WebCrawler运行结束前被调用,<span style="color: black;">能够</span>执行<span style="color: black;">有些</span>资源释放之类的工作。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">许可</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Copyright (c) 2010-2015 Yasser Ganjisaffar</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><span style="color: black;">按照</span> Apache License 2.0 发布</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">开源<span style="color: black;">位置</span>: </p>https://github.com/yasserg/crawler4j

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">5、</span>Ex-Crawler</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Ex-Crawler 是一个网页爬虫,采用 Java <span style="color: black;">研发</span>,该项目分成两部分,一个是<span style="color: black;">保护</span>进程,<span style="color: black;">另一</span>一个是灵活可配置的 Web 爬虫。<span style="color: black;">运用</span>数据库存储网页信息。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Ex-Crawler分成三部分(Crawler Daemon,Gui Client和Web搜索引擎),这三部分组合起来将<span style="color: black;">作为</span>一个灵活和强大的爬虫和搜索引擎。其中Web搜索引擎部分采用PHP<span style="color: black;">研发</span>,并<span style="color: black;">包括</span>一个内容管理系统CMS用于<span style="color: black;">守护</span>搜索引擎。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://ex-crawler.sourceforge.net/joomla/
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">6、</span>Crawler</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Crawler是一个简单的Web爬虫。它让你<span style="color: black;">不消</span>编写枯燥,容易出错的代码,而只专注于所需要抓取网站的结构。<span style="color: black;">另外</span>它还非常易于<span style="color: black;">运用</span>。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: </p>http://projetos.vidageek.net/crawler/crawler/

      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">7、</span>Encog</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Encog是一个高级神经网络和<span style="color: black;">设备</span>人/爬虫<span style="color: black;">研发</span>类库。Encog<span style="color: black;">供给</span>的这两种功能<span style="color: black;">能够</span>单独<span style="color: black;">掰开</span><span style="color: black;">运用</span>来创建神经网络或HTTP<span style="color: black;">设备</span>人程序,<span style="color: black;">同期</span>Encog还支持将这两种高级功能联合起来<span style="color: black;">运用</span>。Encog支持创建前馈神经网络、Hopfield神经网络、自组织图。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Encog<span style="color: black;">供给</span>高级HTTP<span style="color: black;">设备</span>人/爬虫编程功能。支持将多线程爬虫产生的内容存在内存或数据库中。支持HTM解析和高级表单与Cookie处理。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Encog是一种先进的<span style="color: black;">设备</span>学习框架,它支持多种先进的算法,以及支持类正常化和处理数据。<span style="color: black;">设备</span>学习算法,如支持向量机,人工神经网络,遗传编程,贝叶斯网络,隐马尔可夫模型,遗传编程和遗传算法的支持。大<span style="color: black;">都数</span>Encog培训algoritms是多线程的,很好地扩展到多核硬件。Encog还<span style="color: black;">能够</span><span style="color: black;">运用</span>一个GPU,以进一步加快处理时间。一个基于GUI的工作台<span style="color: black;">亦</span><span style="color: black;">供给</span><span style="color: black;">帮忙</span>模型和火车<span style="color: black;">设备</span>学习算法。自2008年<span style="color: black;">败兴</span>Encog<span style="color: black;">始终</span>在积极发展.</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Encog 支持多种语言,<span style="color: black;">包含</span>C#Java 和C</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">在GitHub上有<span style="color: black;">各样</span>语言版本的源代码.</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">http://www.heatonresearch.com/encog</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">https://github.com/encog</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;"><strong style="color: blue;">十<span style="color: black;">8、</span>Crawljax</strong></p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">Crawljax是一个开源Java工具用于Ajax Web应用程序的自动化抓取和测试。Crawljax能够抓取/爬行任何基于Ajax的Web应用程序<span style="color: black;">经过</span>触发事件和在表单中填充数据。</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">收录时间:2011-05-18 09:50:32</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">该项目主页: http://crawljax.com/</p>
      <p style="font-size: 16px; color: black; line-height: 40px; text-align: left; margin-bottom: 15px;">开源<span style="color: black;">位置</span>: </p>https://github.com/crawljax/crawljax

    </div>




星☆雨 发表于 2024-9-3 14:23:31

同意、说得对、没错、我也是这么想的等。

longshao2024 发表于 2024-9-7 13:43:23

期待与你深入交流,共探知识的无穷魅力。

情迷布拉格 发表于 2024-9-10 09:58:25

这夸赞甜到心里,让我感觉温暖无比。
页: [1]
查看完整版本: 玩大数据必定用得到的19款Java开源Web爬虫