本文最后更新于 16 天前,其中的信息可能已经有所发展或是发生改变。
前言
这篇博客只是用来记录做这个课题的思考过程、实践过程以及相关的编程和结果。过程仅供参考,最终数据和相关代码会在后续公布在github作参考
阶段一
需要大量的隐私政策来支撑、构筑数据集,方便后续的模糊词筛查、权重计算。利用爬虫把国内多个知名平台的隐私政策下载下来保存。
相关的代码和结果详见github
阶段二
依次执行模块
第一模块——隐私政策模糊分数、阅读友好型/文本可理解性
爬取大量隐私政策后,通过大模型或者自己创建模糊词数据集,新建程序通过数据集计算爬取下来的隐私政策,并计算这些模糊词出现的个数和占比权重
第二模块——权利完整性、信息安全性
权利完整性思路——对照《个人信息保护法》(PIPL)第15-18条 + GB/T 35273,主要评估 8大核心权利 是否被明确告知且可执行:
- 知情同意权
- 访问/查阅权
- 更正/补充权
- 删除权(被遗忘权)
- 撤回同意权
- 限制处理权
- 数据可携带权(复制/转移)
- 投诉/举报权 + 救济途径
优化前面的v5代码,调整了内部对于模糊度吉萨UN的权重和阈值,让最终的模糊度结果不会显得太过于保守。
对于信息安全性——信息安全性维度评估点(5个子项)
- 数据安全措施(加密、匿名化、技术保护等)
- 传输安全(TLS、HTTPS、加密传输)
- 存储安全(加密存储、访问控制)
- 第三方共享的安全要求(签订协议、审计等)
- 安全事件处理与通知(泄露通知、应急响应)
第三模块——加权总分
加权方案
- 模糊性(告知明确性):30%(最核心)
- 权利完整性:25%
- 信息安全性:25%
- 阅读友好性(可读性):20%
第四模块——可视化雷达图
通过plotly库直接生成各个隐私政策的雷达图,这会对内存造成较大负担,因为是以HTML形式直接出现在网页上,后续还需要优化生成小文件