一区二区三区在线-一区二区三区亚洲视频-一区二区三区亚洲-一区二区三区午夜-一区二区三区四区在线视频-一区二区三区四区在线免费观看

服務器之家:專注于服務器技術及軟件下載分享
分類導航

PHP教程|ASP.NET教程|JAVA教程|ASP教程|

服務器之家 - 編程語言 - JAVA教程 - 使用webmagic實現爬蟲程序示例分享

使用webmagic實現爬蟲程序示例分享

2019-11-19 14:41Java教程網 JAVA教程

這篇文章主要介紹了使用webmagic實現爬蟲程序示例,需要的朋友可以參考下

代碼如下:


package com.letv.cloud.spider;

 

import java.util.HashSet;
import java.util.List;

import us.codecraft.webmagic.Page;
import us.codecraft.webmagic.Site;
import us.codecraft.webmagic.Spider;
import us.codecraft.webmagic.processor.PageProcessor;

public class MoviePaperPageProcessor implements PageProcessor {
 private Site page = Site.me().setRetryTimes(3).setSleepTime(1000);

 public Site getSite() {
  return page;
 }

 public void process(Page page) {
  List<String> links = page.getHtml().links().regex(
    "http://posters.aa.com/poster/\\d+").all();
  links = removeDuplicate(links);
  page.addTargetRequests(links);
  page.putField("title", page.getHtml().xpath(
    "//div[@id='imdbleftsecc']/center/h1/text()").toString());
  page.putField("imgurl", page.getHtml().xpath(
    "//div[@id='imdbleftsecc']/center/img/@src").toString());
 }

 public static void main(String[] args) {
  for (int i = 1; i <= 3; i++) {
   Spider.create(new MoviePaperPageProcessor()).addUrl(
     "http://posters.aa.co/poster_page/" + i).thread(5).run();
  }
 }

 public static List removeDuplicate(List list) {
  HashSet hs = new HashSet(list);
  list.clear();
  list.addAll(hs);
  return list;
 }
}

 

延伸 · 閱讀

精彩推薦
主站蜘蛛池模板: 日本红色高清免费观看 | 美女下面揉出水免费视频 | 亚洲+欧美+国产+综合 | 国产福利在线观看第二区 | 美女校花被调教出奶水 | 32pao强力打造免费高速高清 | 秋霞717理论片在线观看 | 久草在线草a免费线看 | 美国艳星lisann成人作品 | 午夜国产| 午夜国产在线视频 | 欧美视| 九哥草逼网 | 无码11久岁箩筣 | 99久久中文字幕伊人 | 日本美女动态图片 | 日本高清中文 | 成人精品一区二区三区中文字幕 | 免费看国产一级片 | 亚洲天堂中文 | 欧美精品久久久久久久影视 | 久久er99热精品一区二区 | 攻插受 | 青青青青青国产费线在线观看 | 成人在线观看免费视频 | 国产精品久久久久久久午夜片 | 四虎影音先锋 | 99久久综合九九亚洲 | 日韩视频一区二区三区 | 国产成人久久精品一区二区三区 | 免费视频片在线观看大片 | 亚洲第一在线播放 | 四虎免费在线观看 | 高清在线观看免费入口 | 国产拍拍拍免费专区在线观看 | 国产成人精品一区二区仙踪林 | 短篇同学新婚h系列小说 | 国产精品一级视频 | 国产国拍亚洲精品av | 情缘免费观看完整版 | 久久成人亚洲 |