健萌99 发表于 2017-12-12 17:19:55 | 显示全部楼层 |阅读模式 打印 上一主题 下一主题
网络爬虫简介
假设我有一个鞋店, 并且想要及时了解竞争对手的价格。 我可以每天 访问他们的网站 , 与我店铺中鞋子的价格进行对比。但是,如果我店铺中 的鞋类品种繁多,或是希望能够更加频繁地查看价格变化的话,就需要花 费大量的时间,甚至难以实现。再举一个例子, 我看中了一双鞋, 想等它 促销时再购买。我可能需要每天访问这家鞋店的网站 来查看这双鞋是否降 价, 也许需要等待几个月的时间, 我才能如愿盼到这双鞋促销。上述这 两个重复性的手工流程,都可以利用本书介绍的网络爬虫技术实现自动化 处理。理想状态下,网络爬虫并不是必须品,每个网站都应该提供API,以结构 化的格式共享它们的数据。然而现实情况中, 虽然一些网站 已经提供了这种 API,但是它们通常会限制可以抓取的数据,以及访问这些数据的频率。另外, 对于网站的开发者而言,维护前端界面比维护后端AP I接口优先级更高。总 之, 我们不能仅仅依赖于API去访问我们所需的在线数据,而是应该学习一 些网 络爬虫技术的相关知识。
网络爬虫目前还处于早期的蛮荒阶段,“允许哪些行为” 这种基本秩序还 处于建设之中。 从目前的实践来看, 如果抓取数据的行为用于个人使用, 则 不存在问题:而如果数据用于转载,那么抓取的数据类型就非常关键了。 世界各地法院的一些案件可以帮助我们确定哪些网 络爬虫行为是允许 的。 在Feist Publications, Inc.起诉Rural Tel写phone Service Co.的案件中, 美 国联邦最高法院裁定抓取并转载真实数据(比如,电话清单〉是允许的。而 在澳大利亚,Telstra Corporation Limited起诉Phone Directories Company Pty Ltd 这一类似案件中, 则裁定只有拥有明确作者的数据, 才可以获得版权。 此外, 在欧盟的ofir.dk起诉home.dk一案中, 最终裁定定期抓取和深度链接 是允许的。 这些案件告诉我们,当抓取的数据是现实生活中的真实数据(比如,营业 地址 、 电话清单) 时, 是允许转载的。 但是, 如果是原创数据(比如,意见 和评论), 通常就会受到版权限制,而不能转载。 无论如何,当你抓取某个网站的数据时,请记住自己是该网站的访客,应 当约束自己的抓取行为, 否则他们可能会封禁你的IP ,甚至采取更进一步的 法律行动。 这就要求下载请求的速度需要限定在一个合理值之内, 并且还需 要设定一个专属的用户代理来标识自己。 在下面的小节中我们将会对这些实 践进行具体介绍。

关于上述几个法律案件的更多信息可以参考下述地址: • http://caselaw.lp.findlaw.com/scripts/ getcase. pl?court=US&vol=499&invol=340 £· http://www.austlii.edu.au/au/cases/cth/ FCA/2010/44.html • http://www.bvhd.dk/uploads/tx mocarticles /S og Handelsrettens afg relse i Ofir-sagen.pdf

您需要登录后才可以回帖 登录 | 注册

本版积分规则

关注0

粉丝0

帖子2

发布主题
国内最专业的源码技术交流社区
全国免费热线电话

0373-5171417

周一至周日9:00-23:00

反馈建议

admin@eenot.com 在线QQ咨询

扫描二维码关注我们