流量变现70%分成 全国楼凤小姐姐 招商联系客服 招商联系客服 招商联系客服 招商联系客服

马克斯(maxcms)4.0采集规则使用方法_小白入门网络采集、网页数据采集、渗透到底是什么东东?...

[复制链接]
查看175 | 回复0 | 2024-9-20 10:20:20 | 显示全部楼层 |阅读模式
本帖最后由 real 于 2024-9-20 10:24 编辑

告诉大家神马是:
2,数据采集
4,渗透单
6,XPATH
网络采集
数据来源,也就是输入部分:
  • 公开型网站——58同城、美团网等网站,你可以看到大量的页面,每个网页上的文字和图片,都是可以采集的,当把这些文字汇总,就会变成一个表格,说俗了这就是数据。单独的一个页面上的文字并没有太实际的意义,但是当采集了大量网页,将里面的文字提取和汇总,就会变成有意义的数据。
——我想采集美团网北京地区全部商家的信息,信息包括商家名称、联系方式、地址、评价
最后这些信息通过采集之后会形成一张庞大的表格,至于信息做什么用,那就是仁者见仁智者见智的事情了。例如,商品信息可以用来分析什么卖的好,店主下一步该如何进货。评价信息可以用来分析网友对什么好评,好评点是什么等等。
  • 特殊的网页——很多网站是可以登录的,只有登录以后才能看到更多数据。这类的数据通常比较难采集,而且网站也会有一些反采集的措施。比如天眼查、企查查之类的网站,不登录,你只能看到几条企业信息,登陆以后才能看到更多,类似的还有阿里巴巴等。这里有一个概念,反采集,这个概念之后详细说一下。
现在问题来了,小白最喜欢在我的淘宝店问我的问题是这样的:
店主:可以,给我网址,我分析一下
店主:…… (内心一万只草泥马跑过)
“店主,我要采集所有医疗机构的电话”
“还要网址?不是泛采么?”
这里就是一个很简单的问题,第一,这个人不懂什么是网页,也不懂HTML之类的。第二,他也不懂网络公开类数据采集的流程。一个网络数据采集工作者的实际流程是这样的:
2,调研数据来源。有了需求了,就得研究去哪里采集,如果是明确的需求还好,美团商家信息,只要去美团官网就可以了,京东商品信息,去京东就好了。就怕不明确的需求,比如我想要一汽丰田汽车的新闻评论数据。那怎么办?如果这是淘宝客户,我就直接“出门右拐不送,拜拜了您呐”。但是对于舍得掏大米币的用户,或者是我的领导,我就会分析去什么网站,什么网页上有我想要的数据。所以,重点是一定要知道什么网站、什么网页有我想要的数据。然后锁定采集范围和预估数据量。
4,确定如何输出采集到的数据。采集到的数据可能是几百上千,也可能是千万级或者亿万级的。所谓大数据其实就是这么来的,对于高手来说,上亿都不好意思打招呼,得用存储空间来说,要不然都觉得丢人。所以面对真正搞大数据的人千万别很装逼的说我现在数据上千万,那就是啪啪啪抽自己的脸,最次也得很不好意思的说:抱歉,大神,我现在数据量只有100GB,和您的10PB实在没法比…… 这么大量的数据怎么办?如果只有几万条数据,一般excel表格对付对付也就哦了,但是如果面对几千万的数据,怎么也得搞个数据库才能处理的过来。对于GB级别的数据,就得用Hadoop、Spark、Redis等分布式存储和处理技术的方法才能做到较好的管理和计算。所以确定对方使用excel还是数据库很重要,决定了提交给对方的数据格式。
黑客渗透攻击是指黑客针对特定目标实施的多方位的攻击。这种攻击方式具有很强的针对性,黑客可以花很长的时间对已经确定的目标进行信息的搜集和整理,并结合一切可以利用的攻击手段对目标实施攻击。黑客渗透攻击的目的相当明确,就是入侵并盗取目标环境中的敏感数据信息,如敏感数据、敏感文件等。
  • 有撞库好的数据,谁要!——他的意思是,他可能通过不知道什么手段,搞到了用户名和密码,然后将不同网站之间的库(也就是用户账户)比对,登录测试等方法。得出了一些实际可用的用户账户。之前网易邮箱账户信息大规模泄露之后,很多人就用这个方法得到了用户苹果手机账户的信息和资料。
说了很多,现在说重点:搞清楚从什么网站的什么网页可以采集到你想要的数据,再说用什么来采集等等的后话。
回复

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册

本版积分规则