目前,我国现行的法律法规并没有对爬虫行为作出明确定义,2012年中国互联网协会曾于出台的《互联网搜索引擎服务自律公约》中将其简单定义为“自动爬行网络的程序”,而在国家互联网信息办公室于2019年5月出台的《数据安全管理办法》中,首次对爬虫行为进行明确规制,即“网络运营者采取自动化手段访问收集网站数据,不得妨碍网站正常运行;此类行为严重影响网站运行,如自动化访问收集流量超过网站日均流量三分之一,网站要求停止自动化访问收集时,应当停止”。
就我个人经验来看,数据爬虫是很费时间的技术,特别对于中小公司和个人,我曾经想研究下某音用户短视频的评论情感倾向,需要大概100万条级以上的数据,光是写代码有上千行,虽然是公开数据,但会面临各种反爬手段,最后脚本磨了两三天才能正常稳定的运行。