(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202210742598.6
(22)申请日 2022.08.25
(71)申请人 南方电网大 数据服务有限公司
地址 510000 广东省广州市花都区新 华街
红珠路5-1
(72)发明人 赵永国 杨荣霞 曹熙 张仙梅
曾祥清 黎名航
(74)专利代理 机构 北京中睿智恒知识产权代理
事务所(普通 合伙) 16025
专利代理师 侯文峰
(51)Int.Cl.
G06F 16/21(2019.01)
G06F 16/215(2019.01)
G06F 16/28(2019.01)
G06F 16/23(2019.01)G06N 5/02(2006.01)
G06F 9/48(2006.01)
G06F 9/50(2006.01)
G06F 40/289(2020.01)
G06F 40/295(2020.01)
G06F 40/216(2020.01)
G06F 40/242(2020.01)
G06F 40/30(2020.01)
(54)发明名称
一种基于知识关联与相关性反馈技术的舆
情数据采集方法
(57)摘要
本发明公开了一种基于知识关联与相关性
反馈技术的舆情数据采集方法, 以特定目标的关
键词典为种子进行数据采集, 通过对采集结果进
行知识关联分析以扩充原始词典, 并在新词典的
采集结果基础上进行相关性反馈与重复率检测
等分析以评估 数据采集效果, 最后判断是否需要
在新的采集循环中重构关键词典; 本发明基于关
键词的分布式数据采集系统基础上融合了命名
实体识别与知识关联方法以扩充知识库, 并设计
多个指标评估采集效果, 通过控制指标阈值实现
自动化、 可持续、 可迭代的知识更新策略与信息
采集策略, 服务社交媒体舆情数据获取与知 识发
现等现实需求。
权利要求书3页 说明书6页 附图3页
CN 115145894 A
2022.10.04
CN 115145894 A
1.一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其特征在于, 包括以下
步骤:
构建数据库: 搜集特定事件相关信 息, 挑选主要的关键词编成词典, 构建具有录入和可
互动编辑功能的轻量 化数据库;
分布式数据采集: 针对所述轻量化数据库的任务清单与关键词清单进行自动化任务调
度, 实现分布式数据采集, 通过设计优先级策略和自定义配置, 满足数据采集的灵活性需
求;
数据预处理: 对于获取到的数据进行拼接、 去重处理, 对文本数据进行字符过滤、 分词
处理, 统一数据格式;
知识关联: 基于预处理后的数据, 针对已有的关键词典进行知识发现与知识关联分析,
获取语用层面和语义层面上与关键词典关联度最高的词汇, 形成扩充字典;
重构知识库: 将所述扩充字典与原始的关键词典进行合并、 去重, 然后投入下一轮数据
采集循环当中。
2.根据权利要求1所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在构建数据库的过程中, 对特定事件与任务进行关键词的挑选、 收集, 并填写对应关键
词的初始属性, 其中, 所述初始属性包括编号、 实体、 来源、 任务状态;
使用可交互编辑的轻量化数据库SeaTable录入关键词, 并以表格形式呈现, 生成对应
的任务清单与关键词清单, 以供采集系统读取;
在SeaTable提供的Python模块基础上, 构建知识库操作程序, 基于Base函数模块和
SeaTable 数据表的To ken构造知识库连接器base_co nnecter;
在知识库链接器base_connecter基础上,基于SeaTable提供的insert_row、 delete_
row与update_row函数模块, 生成知识库的增删改程序, 用于添加、 删除或修改知识库数据
内容;
在知识库链接器base_connecter基础上, 基于SeaTable提供query函数模块以及get_
rows和list_rows函数模块, 构建支持轻量化SQL查询的知识库数据内容查寻读取程序, 用
于检索并读取指定的知识内容。
3.根据权利要求2所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在进行分布式数据采集的过程中, 判断当前流程是否为初次数据采集, 若是则进行所
述数据预 处理, 若否则进 行采集效果评估, 其中, 所述采集效果评估用于通过计算采集结果
是否达到阈值, 判断是否需要扩充词典。
4.根据权利要求3所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在进行采集效果评估的过程中, 构造相关性反馈指标与重复率指标作为判断条件, 计
算采集结果是否达到阈值目标, 若是则说明无需扩充词典, 继续执行分布式数据采集; 若否
则说明需要扩充词典, 执 行知识关联步骤。
5.根据权利要求4所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:权 利 要 求 书 1/3 页
2
CN 115145894 A
2在进行分布式数据采集的过程中, 使用Airflow大数据分布式任务调度框架, 将
Airflow的Worker工作器节点分布于多台服务器, 使用Airflow的Scheduler实现任务调度
分配功能, 构造DAG任务 流程。
6.根据权利要求5所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在使用Airflow大数据分布式任务调度框架的过程中, 使用Airflow 的Scheduler作为
任务调度器, 调度程序监控所有任务和DAG, 然后在它 们的依赖关系完成后触发任务实例。
7.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在构造DAG任务流程的过程中, 读取知识库中的任务清单, 判断任务状态, 选择待执行
任务读取其对应的关键词清单传入数据采集组件, 并将执 行结果写回知识库任务清单中;
通过获取任务对应的关键词清单, 使用Scheduler将关键词分发到空闲的采集工作器
节点中执 行数据采集任务, 用于确保多个工作器的任务负载均衡;
待数据采集完毕后, 将采集结果写入MySQ L数据库中, 等待后续 步骤调用。
8.根据权利要求7所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在进行采集效果评估的过程中, 还 包括以下步骤:
相关性指标构造: 对于采集数据结果构造相关性反馈指标, 用于测量当前关键词典下
的采集结果与关键词典本身的相关性强弱;
重复性指标构造: 对于采集数据结果构造重复性指标, 用于测量当前关键词典下的采
集结果中数据的重复比例;
增长率指标构造: 对于采集数据结果构造增长率指标, 用于测量当前关键词典下的采
集结果数据相较于前一次循环的采集结果的非重复数据增长比例, 其中, 前一次循环用于
表示词典扩充前;
指标计算与判定: 计算上述指标作为是否扩充词典的判定依据, 当且仅当三个指标均
达到阈值时, 则不需要扩充词典, 否则需要扩充词典。
9.根据权利要求6所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其
特征在于:
在进行知识关联的过程中, 还 包括以下步骤:
基于命名实体识别的知识发现: 对检索数据的文本进行预处理后, 输入命名实体识别
模型, 挑选以名词和动词为词根的新词, 并构 造新词词典对文本数据重新进行分词处理, 用
于确保数据中的新词、 专有名词可以被正确的划分;
基于共现关系的知识关联: 对于使用命名实体识别后的文本数据, 分别对关键词典中
的每一个词进行词共现计算, 获取所有文本数据中与关键词共现频率最高的词汇, 除以该
词汇的出现频率, 得到语用关联度值 最高的前n个关键词作为扩充词;
基于语义相似的知识关联: 对于使用命名实体识别后的文本数据, 分别对关键词典中
的每一个词进行语义相似度计算, 获取所有文本数据中与关键词语义相似度最高的词汇,
每个关键词取 前n个最高语用关联词作为扩充词。
10.根据权利要求9所述一种基于知识关联与相关性反馈技术的舆情数据采集方法, 其权 利 要 求 书 2/3 页
3
CN 115145894 A
3
专利 一种基于知识关联与相关性反馈技术的舆情数据采集方法
文档预览
中文文档
13 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共13页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:15上传分享