云电目录取证使用爬虫技术入侵了服务器？

2023-10-07 16:54:48 湖南云电

回答这个问题前，我们先了解一下云电目录取证的工作原理。

日常学习工作中，人们通过浏览器使用http（或https）协议请求服务器上的特定文件时，浏览器会返回文件的状态码（不存在状态码为404，正常状态码为200，存在但运行报错报错的有301、403、500等），由此，即可判断该文件是否存在。当文件存在时，取证软件即可将浏览器返回的网页目标代码内容（如php、jsp、aspx等执行文件运行后的网页内容）、静态文件（如图片、文档、css、js、xml、json、sql等）等保存至电子证据包中。

利用这一基本原理，取证平台就可以通过取证用户上传的取证参照软件（权利软件），按照“被取证网址/文件夹路径/文件名”的方式对每个文件构建访问路径，并以此构建全部取证队列，自动依次执行访问请求操作，并将http（或https）访问后的结果进行保存，并将所有文件的访问、保存过程记录在取证日志之中，即可完成取证过程。取证过程中，取证平台可以自动获取被取证服务器上静态文件（如图片、文档、css、js、xml、json、sql等）和取证用户参照软件所有文件的修改时间、文件大小、文件指纹md5值等，进而可以对两者自动进行比对，并得出初步的比对结果（其中php、jsp、aspx等执行文件使用编译后返回给浏览器的目标代码作为文件内容进行比较）。取证工具（取证软件）一般位于联网的云服务器上，取证过程无需人工干预。

通过以上取证原理我们很容易得出一下结论：

1、云电目录取证固定的是被取证站点的静态资源文件（如图片、文档、css、js、xml、json、sql等）和执行文件（如php、jsp、aspx等）的目标代码，无法获取服务器上可执行文件的源代码。

2、取证过程全程使用http（或https）超文本传输协议公开访问被取证站点，无需绕过站点管理员登录机制，更不存在入侵服务器的必要和可能。

3、取证过程中对被取证服务器的访问严格按照取证用户提交的参照软件（权利软件）所有文件所对应的访问链接公开进行，每个文件的访问过程及文件状态等详细记录于“取证日志.txt”文件中，全程未使用爬虫扫描技术，未对被取证服务器进行目录和文件扫描。

4、取证软件固定的css、js、xml、json、sql相关源代码文件（静态资源文件）本身就可以使用浏览器通过http（或https）公开访问并下载，如https://mall.91bd.cn/models/install.sql