(19)国家知识产权局
(12)发明 专利申请
(10)申请公布号
(43)申请公布日
(21)申请 号 202211169793.0
(22)申请日 2022.09.22
(71)申请人 生态环境部南京环境科 学研究所
地址 210042 江苏省南京市玄武区蒋 王庙
街8号
(72)发明人 李旭伟 邓绍坡 孔令雅 豆叶枝
谢文逸 刘国强 王梦杰
(74)专利代理 机构 北京彦开专利代理事务所
(普通合伙) 16149
专利代理师 杨艳秋
(51)Int.Cl.
G06F 16/2458(2019.01)
G06F 16/215(2019.01)
G06F 16/22(2019.01)
G06F 16/23(2019.01)G06F 16/25(2019.01)
(54)发明名称
一种基于污染场地同介质多批次海量数据
的整合统计方法
(57)摘要
本发明提供了一种基于污染场地同介质多
批次海量数据的整合统计方法, 属于污染场地数
据处理技术领域。 整合统计方法包括以下步骤:
S1、 获取污染场地数据; S2、 特征指标识别及更
新; S3、 数据归纳整合与数据统计分析; S4、 输出
整合统计后的污染场地数据。 本发 明解决了传统
的场地环境数据获取、 合并、 清洗和挖掘方法难
以满足海量数据处理要求的问题, 具有大大加快
数据处理速度、 节约时间和经济成本的优点。
权利要求书2页 说明书6页 附图1页
CN 115495499 A
2022.12.20
CN 115495499 A
1.一种基于污染场地同介质多批次海量数据的整合统计方法, 其特征在于, 包括以下
步骤:
S1、 获取海量的污染场地数据
将污染场地数据分为特征指标、 与特征指标对应的指标数据, 将污染场地数据进行重
分布后, 再将表现为数字形式的字符串类型 的指标数据转化为数据类型, 最后按照特征指
标与指标 数据的对应方式存 储污染场地数据;
S2、 特征指标识别及更新
确定整合统计后输出的特征指标, 并通过输出的特征指标对存储污染场 地数据中特征
指标进行识别及更新;
S3、 污染场地数据的归纳整合与统计分析
通过检索栏选择定位条件, 根据定位条件对污染场地数据归纳整合, 再通过将stream
流形式的污染场地数据作为math函数的输入参数, 完成对归纳 整合后的污染场地数据的批
量统计分析, 得到整合统计后的污染场地数据;
S4、 输出整合统计后的污染场地数据。
2.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其
特征在于, 所述步骤S1 中, 污染场地数据的格式为excel, 所述步骤S5中, 整合统计后的污染
场地数据的格式为excel。
3.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其
特征在于, 所述特 征指标包括检测指标、 检出限、 单位。
4.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其
特征在于, 所述 步骤S1还 包括:
下载污染场地数据输入模板, 再将污染场地数据写入污染场地数据输入模板, 通过文
件输出流读取excel格式的污染场地数据并进行格式判定, 在 满足格式要求后, 将所有 数据
存入hssfWorkbook, 等待进一步处理。
5.如权利要求4所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其
特征在于, 所述 步骤S1还 包括:
新建两个数据存储list, 其中一个数据存储list用于存储数据结构为areaList的数
据, 另一个数据存储list用于存储数据结构为fullList的数据, 其中, 数据结构为list的数
据对应excel中每个sheet的特征指标, 数据结构为areaList/fullList的数据对应每个
excel中每个sh eet的全部指标数据, 再创建用于存放sheet 基础数据的sh eetList, sheet 基
础数据为she et名称、 she et首行和首列内的数据,
污染场地数据存 储的操作过程 为:
通过双层循环遍历excel格式的污染场地数据, 按照excel中sheet的顺序, 对每个
sheet的每行数据进行读取, 将每个sheet中特征指标名称进行去空去重操作后存入
areaList中, 将每 个sheet中全部指标 数据存入fullList中。
6.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其
特征在于, 所述步骤S3中, 定位条件包括: 检索栏选择的限定条件、 污染场地数据输入模板
内置的特 征指标位置 。
7.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其权 利 要 求 书 1/2 页
2
CN 115495499 A
2特征在于, 所述步骤S 3中, 通过将stream流形式的污染场地数据作为math函数的输入参数,
包括以下内容:
math函数中平均值的计算公式: list.stream().mapToDouble(BigDecimal::
doubleValue).average().getAsDouble(), 平均值的计算公式将输入参数设定为是一组
数据集合list, 并运用steam流的maptoDouble的方法, 将数据进行map映射, 然后调取
average求平均值的接口直接进行计算, 最后通过getAsDouble的方式直接将结果转换成
double类型,
math函数中最大值和最小值的计算公式: list.stream().reduce(list.get(0),
BigDecimal::max), 最大值和最小值的计算公式运用stream流式计算, 调用reduce方法取
到一组数的最大值和最小值,
math函数中方差和标准差的计算方式: 采用先计算和, 再计算平均值的方式, 最后求取
方差和标准差 。
8.如权利要求1所述的一种基于污染场地同介质多批次海量数据的整合统计方法, 其
特征在于, 所述步骤S 3中, 批量统计 分析包括: 求平均值、 求最大值和最小值、 求方差和求标
准差。
9.一种数据处理设备, 用于执行如权利要求1 ‑8所述的一种基于污染场地同介质多批
次海量数据的整合统计方法, 其特 征在于, 包括:
用于提供污染场地数据输入模板的模板下载模块(101), 所述模板下载模块(101)提供
的输入模板格式为excel,
用于导入污染场地数据的导入模块(102), 所述导入模块(102)的数据输入格式为
excel,
用于确定整合统计后的输出 特征指标的特 征指标管理模块(10 3),
用于根据所述特征指标管理模块(103)确定的输出特征指标, 对所述数据存储模块处
理后的特 征指标进行识别及更新的数据整理模块(104),
用于在污染场 地数据导入后, 按照特征指标与指标数据的对应方式存储污染场 地数据
的数据存储模块(105), 所述数据存储模块(105)新建两个数据存储list, 其中一个数据存
储list用于存储数据结构为areaList 的数据, 另一个数据存储list用于存储数据结构为
fullList的数据,
其中, 数据结构为list的数据对应excel中每个sheet的特征指标, 数据结构为
areaList/fullList的数据对应 每个excel中每 个sheet的全部指标 数据,
用于展示所述数据整理模块(104)处理特征指标识别及更新后所有污染场地数据的数
据展示模块(10 6), 所述数据展示模块(10 6)还提供用于 选择定位条件的检索栏,
用于根据所述定位条件完成污染场地数据归纳整合、 批量统计分析的数据计算模块
(107), 所述数据计算模块(107)将stream流形式的污染场地数据作为math函数的输入参
数, 优化了math函数中平均值、 最大值、 最小值、 方差、 标准差的计算方式,
用于导出处理后的污染场地数据的导出模块(108), 所述导出模块(108)的数据输出格
式为excel。权 利 要 求 书 2/2 页
3
CN 115495499 A
3
专利 一种基于污染场地同介质多批次海量数据的整合统计方法
文档预览
中文文档
10 页
50 下载
1000 浏览
0 评论
309 收藏
3.0分
温馨提示:本文档共10页,可预览 3 页,如浏览全部内容或当前文档出现乱码,可开通会员下载原始文档
本文档由 思考人生 于 2024-02-07 20:38:22上传分享