博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
往"某度文库"上传资源之前,请先做好这些...
阅读量:6701 次
发布时间:2019-06-25

本文共 3064 字,大约阅读时间需要 10 分钟。

先讲个相关的故事:匿名黑客的"复仇行动"

2010年12月10日,黑客组织匿名者发布了一条消息,解释了他们发起最近一次代号为”复仇行动”的攻击的大致动机(Prefect,2010)。由于被那些放弃支持维基解密网站的公司所激怒,匿名者组织号召要通过对涉及的一些机构进行分布式拒绝服务攻击(DDoS)以实现报复。这个稿子上既没有签名,也没有标注消息来源,只是以PDF(Portable Document Format,便携式文档格式)文件的形式被发布出来。

这是当时的文件,为了满足好奇心,被我刨出来了...

PDF原文件第一页
PDF原文件第二页

虽然没有署名,但用脚本很快查到了文档的元数据(这里演示的ANONOPS_The_Press_Release.pdf就是真实的原文件,文件的元数据还被保留着...)

查看元数据

几天后,希腊警方逮捕Alex Tapanaris 先生...

Alex Tapanaris 先生的"复仇行动"提前结束了

这个例子告诉我们,就算技术不好,也不要让别人知道,是你做的种子...


在当下,敏感元数据,在国内资源网站依然大量存在

以博主从国内各大资源网站下载到的技术类书籍资源为例:

(不要问我资源是哪里来的,作为程序员,对于获取资源的套路还是懂一些的...)

为避免小伙伴们在 "某度文库" 发"资源"赚积分的时候成为第二个Alex Tapanaris先生,下面放出博主刚完成的批量清除pdf元数据的脚本,以及使用方法:

快速清除PDF元数据

快速清除PDF元数据

清除后的效果

清除后的效果

批量获取文档元数据(查别人):

import PyPDF2from PyPDF2 import PdfFileReaderimport sysimport osimport re#获取目录下所有的pdf文件目录def getFiles():    files = os.listdir()    # 如果输入了单个pdf文件,则只输出单个pdf元数据    try:        if sys.argv[1]:            files = [sys.argv[1]]    except:        pass    pdf_files = list()    for file_name in files:        try:            result = re.match(r".*\.pdf$", file_name)                        if result:                pdf_files.append(file_name)        except Exception as e:            pass    return pdf_files# 打印文件的元信息def printMeta(files):        for filename in files:            try:                pdfFile= PdfFileReader(open(filename, "rb"))                docInfo = pdfFile.getDocumentInfo()                print ("===文件%s的元信息为:"%filename)                for metaItem in docInfo:                    print(metaItem,":",docInfo[metaItem])            except Exception as e:                print("---文件%s元数据无法读取,已经跳过!"%filename)if __name__ == "__main__":    filenames = getFiles()    printMeta(filenames)

清除源信息(藏自己):

import sysimport osimport refrom PyPDF2 import PdfFileReader, PdfFileWriter#获取目录下所有的pdf文件def getFiles():    files = os.listdir()    pdf_files = list()    for file_name in files:        try:            result = re.match(r".*\.pdf$", file_name)                        if result:                pdf_files.append(file_name)        except Exception as e:            pass    return pdf_filesdef get_page_num(file_name):    #获取一个pdfFileReader对象    my_pdf = PdfFileReader(open(file_name,"rb"))    # 获取页数    page_num = my_pdf.getNumPages()    print("PDF文件%s的页数为%s"%(file_name, page_num))    return page_num    def create_new_pdf(file_names):    try:        os.mkdir("./pure")    except Exception as e:        pass        for file_name in file_names:        try:            # 获取原pdf的信息            my_pdf = PdfFileReader(open(file_name,"rb"))            # 创建一个PdfFileWriter对象            new_pdf = PdfFileWriter()                        for i in range(0, get_page_num(file_name)):                                page_info = my_pdf.getPage(i)                new_pdf.addPage(page_info)            new_pdf.write(open("./pure/%s"%file_name, "wb"))            print("文件%s已清除元数据!"%file_name)        except Exception as e:            print("文件%s编码有问题,已自动跳过!"%file_name)if __name__ == "__main__":    create_new_pdf(getFiles());

想到一句好玩的话:知道是你干的,只是懒得抓你!

如果你喜欢python,喜欢故事,请点赞或关注我!您的支持是对作者最大的鼓励!

转载地址:http://lowlo.baihongyu.com/

你可能感兴趣的文章
WIN8系统中 任务管理器 性能栏 显示CPU利用率(已暂停)怎么回事?
查看>>
whu oj 1551 Pairs (莫队算法)
查看>>
iOS:iOS开发系列–打造自己的“美图秀秀”(中)
查看>>
程序猿的还有一出路:大数据project师
查看>>
FIREDAC直连ORACLE数据库
查看>>
Gac代码库分析(3)智能指针
查看>>
【转】MFC 字体LOGFONT
查看>>
iOS 图片填充 UIImageView
查看>>
Android 动态加载 (一) 态加载机制 案例一
查看>>
口唇口腔紅肿案
查看>>
ZeroMQ接口函数之 :zmq_ctx_get - 得到环境上下文的属性
查看>>
PyTorch为何如此高效好用?
查看>>
学习ASP.NET Core Razor 编程系列十八——并发解决方案
查看>>
【转】 Android BCM4330 蓝牙BT驱动调试记录
查看>>
NHibernate自定义集合类型(上):基本实现方式
查看>>
Microsoft Build 2016 Day 2 记录(多图慎入)
查看>>
JSON的理解
查看>>
LeetCode: Binary Tree Maximum Path Sum
查看>>
1.平凡之路-ORM概述
查看>>
开源情报订阅OpenTaxii+mysql+nginx 配置教程
查看>>