土豆的一些采集页面,备忘,不知道他会不会随时变

进入后直接采集 列表页的 名字,图片,URL即可
电视剧 http://tv.tudou.com/albumtop/c30t-1a-1y-1h-1s1p1.html
软件首次运行先 采集所有电视剧
呆采集完毕后,再采集这个http://tv.tudou.com/albumtop/c30t-1a-1y-1h-1s0p1.html
注意这里进去后,每个电视剧是列表,采集列表URL,标题,演员
电影 http://www.tudou.com/albumtop/c22t-1a-1y-1h-1s1p1.html 所有
http://movie.tudou.com/albumtop/c22t-1a-1y-1h-1s0p1.html 最新更新
同理,不过这个没有集这个东西
综艺 http://zy.tudou.com/albumtop/c31t-1a-1y-1h-1s0p1.html 所有 这好像没最新更新,就采集所有的吧。
动漫 http://cartoon.tudou.com/albumtop/c9t-1a-1y-1h-1s1p1.html 也是所有。
热点
  • 拍客制造
  • 热点专区
  • 域外采风
  • 广角镜
  • 娱闻快报
  • 财富
  • 时尚
  • 循环采集。。
  • 其他栏目,也可以采用这种方式。 只是跳过不符合规则的栏目即可。 那些不符合规则的就暂时不采集了。

    HTML代码清晰,直接用正则抓即可。

    建站心得-相关

    Copyright BateerSoft 巴特尔软件工作室 1999-2012, All rights Reserved. Email: bateer@bateersoft.com QQ:172076159.