Teleport Ultra 是懒人扒站必备软件,但最大缺点是标注了 tppabs 原始地址,这是完全用不到的,也是爱扒站的人最不喜欢看到的。解决办法是可以使用一些编辑软件,如 DW、Notepad++、Editplus 等的批量替换功能,通过正则表达式删除这些标记。具体做法如下:
HTML 文件中,使用以下代码全部替换为“空”(替换时注意勾选:使用正则表达式):
\btppabs="h[^"]*"
CSS、JS 文件中,链接的图片文件 tpa 原始地址(HTTPS 协议则用 https),使用以下代码:
\/\*tpa=http://[^\s]*\/
全部替换为空值。
有时候因为各种原因,Teleport 无法下载成功的资源(尤其是超链接中的JS口令),会有一些乱码的提示信息,字符无法正常显示,替换方法是:
href="javascript:if\(confirm\('htt[^"]*"全部替换为:
href=""
即把这类超链接都替换成空值,也可以替换为其他需要的。
开头结尾匹配内容替换:
\b开头字符.*?结尾字符\b
正则表达式替换超链接为空值:
(href=")[^"]*(")替换成:
$1$2
这些替换工作做好后,扒下来的网站副本代码就干净多了。
另外,这些替换工作完成后,还需要做一些格式上的普通替换,JS可能会出现异常(附带了原有网址),如排除麻烦,可能手工重新下载一次。