(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210539997.2
(22)申请日 2022.05.17
(71)申请人 南京航空航天大 学
地址 211106 江苏省南京市江宁区将军大
道29号
(72)发明人 宫丽娜 李秋林 魏明强
(74)专利代理 机构 青岛锦佳专利代理事务所
(普通合伙) 37283
专利代理师 朱玉建
(51)Int.Cl.
G06F 21/57(2013.01)
G06F 21/62(2013.01)
G06F 40/30(2020.01)
(54)发明名称
基于用户评语的移动应用隐私保护政策漏
洞自动识别的方法
(57)摘要
本发明公开了一种基于用户评语的移动应
用隐私保护政 策漏洞自动识别的方法, 其包括如
下步骤: 使用短文本主题建模和语义规则匹配方
法, 从用户评语中匹配移动应用存在危害用户个
人信息的行为, 获得移动应用不良行为集; 使用
显示语义分析方法提取隐私保护政策中与用户
个人信息相关的语句, 提取相应语句的信息内
容, 然后将语句中出现的信息内容组成信息内容
集合; 通过静态分析提取移动应用在实际使用的
过程中存在搜集的用户个人信息, 确定移动应用
对用户个人信息的使用情况, 获取移动应用申请
的使用权限中文名称集合。 本发 明方法能够基于
上述步骤获得的结果自动识别移动应用隐私保
护政策存在的漏洞。
权利要求书3页 说明书5页 附图3页
CN 114925373 A
2022.08.19
CN 114925373 A
1.基于用户评语的移动应用隐私保护政策漏洞自动识别的方法, 其特 征在于,
包括如下步骤:
步骤1.使用短文本主题建模和语义规则匹配方法, 从用户评语中匹配移动应用存在危
害用户个人信息的行为, 获得移动应用不良行为 集;
步骤2.使用显示语义分析方法提取隐私保护政策中与用户个人信 息相关的语句, 并提
取相应语句的信息内容, 然后将语句中出现的信息内容组成信息内容 集合;
步骤3.通过静态分析提取移动应用在实际使用的过程中存在搜集的用户个人信 息, 确
定移动应用对用户个人信息的使用情况, 获取移动应用申请的使用权限中文名称集 合;
步骤4.基于上述 步骤1至3的结果, 自动识别移动应用隐私保护政策漏洞;
比对移动应用不良行为集与信 息内容集合: 如果移动应用存在不良行为危害用户个人
信息但信息内容集合中却未出现不良行为信息或与不良行为表述不一致的情况, 则认定隐
私保护政策与移动应用实际行为存在不一致, 隐私保护政策对移动应用行为描述存在缺
漏;
比对信息内容集合与使用权限中文名称集合: 如果使用权限中文名称集合中存在权限
没有出现在信息内容集合中或者使用权限中文名称集合中权限与信息内容集合中对权限
描述的内容 不一致, 则认定隐私保护政策存在权限缺漏或者权限使用目的不 一致。
2.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法, 其特 征在于,
所述步骤1具体为:
步骤1 .1 .定义移动应用的不良行为集合UndesiredBehaviors, 该集合
UndesiredBehavi ors中包含移动应用存在危害用户个人信息的不良行为, 包括:
索要和滥用非必要权限、 包含攻击性广告、 非法读取用户个人信息、 滥用网络流量、 隐
藏第三方应用、 非法重 定向、 非法更新、 修改浏览器设置以及功能和描述 不一致;
步骤1.2.获取应用平台上移动 应用的所有评论, 选取和筛选用户评论, 筛选获得9个语
料库Corpus, 每 个语料库对应一种不良行为, 包 含多条涉及到不良行为的用户评论;
步骤1.3.对于步骤1.2中的语料库Corpus, 将每个语料库中的评论进行词汇分割, 去除
无意义的单词, 并根据TF ‑IDF加权对剩余单词进行降序排序, 获取W ordList;
步骤1.4.根据步骤1.3获取的Wor dList中的每一个关键词, 获取语料库Corpus中包含
所述关键词的每 个评论, 并添加到 评论集contentword中;
步骤1.5.对于步骤1.3获取的W ordList中的每一个关键词, 遍历进行比较;
具体为: 对于WordList中的关键词m及其对应的评论集contentword_m, 以及WordList
中的关键词n及其对应的评论 集contentword_n, 进行如下比较:
如果评论集contentword_m和评论集contentword_n存在交集, 则将关键词m和关键词n
合并到一个关键词集中, 否则将关键词m放到一个新的关键词集中;
通过对WordList中的关键词汇遍历比较, 获得 所有的关键词集K eyWordSets;
步骤1.6.对于关键词集KeyWordSets中的每一个关键词, 成对地组合该关键词集中不
同词性的关键词, 定义格式为{keyw ord1,keyw ord2,constraints};
其中, {keyword1,keyword2,constraints}表示为关键词keyword1在关键词keyword2
的前面, 且关键词keyw ord1与关键词keyw ord2之间的距离不超过co nstraints个单词;
如果关键词集中的每一个关键词都是名词, 那么 对于每一个关键词, 生成一条语义规权 利 要 求 书 1/3 页
2
CN 114925373 A
2则, 样式如下: {keyword,null,null}, 表示关键词keyword与其它关键词之间无距离条件约
束;
将以上形成的多条语义 规则组成语义 规则集RuleSets;
步骤1.7.使用jieba工具对移动应用的评论进行分词处理, 获取分词处理后的词汇集
合words, 使用步骤1.6中的语义 规则集RuleSets对词汇集 合words进行匹配;
如果语义规则集RuleSets中存在语义规则set, 其中关键词keyword1和关键词
keyword2都出现在词汇集合中, 则检查 关键词keyword1和关键词keyword2的前后顺序和距
离, 以确定它 们是否满足语义 规则的约束; 如果满足, 则认为匹配成功;
步骤1.8.统计步骤1.7中匹配成功的不良行为, 形成移动应用不良行为 集SUBs。
3.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法, 其特 征在于,
所述步骤2具体为:
步骤2.1.获取移动应用的隐私保护政策Privacy, 对隐私保护政策Privacy预处理, 去
除非文本内容后, 将隐私保护政策Privacy中的语句进行划分, 构建初始的语句集 合N1;
步骤2.2.对初始的语句集合N1进行句法分析, 根据THULAC词法分析工具包, 获取语句
集合N1中每条语句的语法依赖关系, 构建语句集 合N1的语法依赖关系集 合N2;
步骤2.3.预定义形式主谓宾的语料库, 包含主语列表、 宾语列表以及提供、 收集、 使用、
保留和分享个人 敏感信息的种子模式列表Pat tern;
步骤2.4.对于语法依赖关系集合N2中的每一条语句, 提取语句中的最短路径作 为新模
式, 插入种子模式列表Patter n, 并将语句中的主语和宾语插入对应的主语列表和宾语列表
中;
步骤2.5.将初始的语句集合N1分为两个句集, 一种为正句集, 为包含提供、 收集、 使用、
保留和分享个人 敏感信息的句子, 另一种为负句集, 为 不包含相关的句子;
对于种子模式列表Pat tern中的每一个模式p:
定义pos(p)表示模式p能够匹配的正确的正句数量, 定义neg(p)表示模式p能够匹配的
否定句数, 定义un k(p)表示任何模式都无法匹配的句子数量;
那么由下面的公式, 求得模式p的准确性ac c(p)和置信度co nf(p);
计算每个模式p最后的得分Scroe(p): Score(p)=co nf(p)*log(|pos(p)|);
根据每个模式的得分进行排序, 得分高的模式排在种子模式列表Pat tern的前面;
步骤2.6.定义有用句集UseSen;
解析语法依赖关系集合N2中每个句子的类型依赖关系, 遍历种子模式列表Pattern中
的每一个模式, 使用显示语义分析方法对句子进行匹配, 检查其词根是否属于提供、 收集、
使用、 保留和分享 这五个动词类别; 如果是, 则将句子放入有用句集UseSen中;
步骤2.7.对于步骤2.6有用句集UseSen中的每一条语句, 使用Thulac工具提取该语句
的信息内容, 并将每一条语句中出现的信息内容 放入信息内容 集合Content中。
4.根据权利要求1所述的移动应用隐私保护政策漏洞自动识别的方法, 其特 征在于,
所述步骤3具体为:
步骤3 .1 .使用工具androguard获取移动应用在使用的过程中权限请求集合权 利 要 求 书 2/3 页
3
CN 114925373 A
3
专利 基于用户评语的移动应用隐私保护政策漏洞自动识别的方法
文档预览
中文文档
12 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共12页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:26上传分享