爬虫学习记录

爬虫学习记录

excel抓取数据

目标:获取网站上的图表数据

手段:利用excel中的数据-自网站功能

限制:受限较多,可抓取的图表数据不多

Web Scraper-爬虫

工具:Chrome浏览器+Web Scraper插件

使用方法:

基础版本

多页爬取注意关注网页链接

进阶

注意:

  1. 需要点击才能获取元素的采用element click,其中element为需要获取的元素的更大集合

反爬虫

常见手段:

  1. 文件头user-agent检查
  2. 动态加载(AJAX,Javascript等)
  3. 用户行为(cookies+请求时间间隔)
  4. 人机交互验证

应对方法:

web scraper能够解决大部分的检测,其他方式

  1. 怂:请求间隔和延迟分别设置长一点
  2. 键鼠操作

奇葩方法:

  1. 雪碧图:利用移动端解决
  2. 元素位移:手机端,查找ttf,下载ttf解决
  3. 结果解析为图片

web scraper常见疑问,局限点和突破方法

  1. 无法收到过程数据: 可随时查看,通过browse
  2. 速度较慢:设置分页
  3. 缺失了部分采集数据: 自建网站集
  4. 模态窗口的下拉滚动: 鼠标,采用较长延迟,自行鼠标点击
  5. 抓取结果无序排列: 获取当前分页的页面id或使用couchDB
  6. Flash:下载swf分析

高阶使用技巧

  1. xml或数据接口
  2. 移动站:在打开的窗口中选择network emulator
  3. 多开:只要不是一个站点地图sitemap即可
  4. 自建网站路径:everything建站,hosts替换,用excel转word制作站点集,解决多站点
  5. IP池:shadowsocks进行负载均衡
  6. Element Click元素+delay实现自动点击页面上的元素
  7. 鼠标点击或鼠标操作
  8. 结合power query(couchDBde API)

拓展阅读

  1. Everything 建站,让本地文件可以通过 127.0.0.1 的方式访问
  2. Excel 超链接公式,第一列为待采集网址,第二列为超链接公式生成的网址,复制第二列到 word 里并另存为 html 文件
  3. 改 host,让某个域名指向本地的 html 文件
Seafun wechat
扫一扫上面的二维码加我微信!
坚持原创分享,您的支持将鼓励我继续创作!