基于大数据的供水客服数据热词分析研究
1 数据来源及其类型
供水客服数据热词分析是围绕供水客户服务数据,结合生产运营数据、营业收费数据展开研究的,数据来源涉及到供水企业信息系统中的客户服务系统、运行调度系统、营业收费系统等,所需数据类型如下。
1.1 客户服务数据
(1)工单编号为指用户反馈问题生成的线上客服工单的唯一编号;(2)用户信息包括工单中的用户姓名(或者姓氏)、称谓、联系方式、给水号;(3)问题来源为工单中对于上报来源的标注,包括来电、12345市民服务热线、供水企业官网、微博、微信等网络社交平台等途径;(4)问题类别为工单中对于用户问题类型的标注,包括供水问题咨询、供水问题反馈,用水业务报装;(5)用户反馈问题产生时间、产生区划及地点信息;(6)问题内容包括用户自行上报或客服热线人员记录的服务诉求。
1.2 生产运营数据
(1)管网信息。包括供水管网地理信息数据(GIS数据)、管网维修养护数据、厂站供水区域图例、供水水力模型。
(2)厂站监测数据。包括供水全过程各环节中水厂、加压站、二次供水、管网监测点的压力、流量、水质等在线采集或人工检测数据。其中,对于水厂和加压站的压力、流量监测数据,不仅需要进出厂水瞬时流量、进出厂水瞬时压力、进出站水瞬时流量、出站水瞬时压力,还需要统计进出厂水每日累计流量、进出厂水日均压力、进出站水每日累计流量、进出站水日均压力。
1.3 营业收费数据
与用户信息相关的营业收费数据,包括用于用户开户的基本信息、给水号、用水状态(是否用水)、月度(或者双月)用水量。
2 热词分析方法
对于供水客服热词分析可以反映出一条街道、一个社区、一片区域乃至一个城市在一定时期内供水用户普遍反馈的热点问题。采用热词结合热图的分析方法不仅可以具体、直观、集中的反映一定时期内用户用水现状,而且便于开展日后的数据分析应用(见图1)。
(1)数据抽取。通过聚焦爬虫从供水客服系统逐条采集并抽取一定时期内的线上客服工单中的工单编号、用户信息、问题来源、问题类别、产生时间、产生区划及地点、问题内容、服务状态等数据属性,并以文本的形式分别保存。
(2)词频统计。词频指在一份给定的文件里,某一个给定的词语在该文件中出现的次数。在热词分析中,词频统计是最为重要的一个环节,它是用来评估一个词对于反馈用户用水情况重要程度的依据,是热词提取的基础。可以利用NLPIR在线平台(自然语言处理与信息检索共享平台)批量导入文本中的问题内容部分、统计其中的高频名词词汇与对应词频数,从高到低排列生成词频统计列表。
(3)热词提取。词汇的重要性随着它在文本中出现的次数成正比增加,同时会随着它在语料库中出现的频率成反比下降,比如“如果”“也”“你们”等词汇出现的频次也很高,但其重要性很弱。因此,可以利用NLPIR在线平台(自然语言处理与信息检索共享平台)导入词频统计列表,依据词频-反转文件频率(Term frequency-inverse document frequency,TF-IDF,用以评估一个词汇对于文本内容的重要程度)剔除词频统计列表中与供水业务无关的词汇,然后结合日常工作中积累的实际客服经验再次筛选,最终以选取高频排序优先的词汇为原则构建出一定时期内的供水客服数据热词库。
(4)文本匹配。确定好分析的主题方向,例如水质问题分析、水压问题分析等,以现有客服工单数据文本为素材,使用KMP字符串匹配算法,与热词库中主题相关热词进行匹配并对匹配中文本量化统计。
(5)建立热图。对匹配中的文本,围绕文本中时间、地点、来源等维度进行可视化分析,构建热图。
(6)相关分析。参照热图,有针对性地将与热词匹配中的文本数量和与之相关的生产运营、营业收费等数据进行相关分析,溯源热点问题的出现原因。
3 实例应用
济南水务集团客服中心在2016年10月至12月的客服月报中发现反馈水质问题的客服工单同比有所增加。为分析此问题成因,决定以2014年至2016年的客服工单数据作为热词分析背景,按照热词分析方法溯源水质问题工单数量增加的原因。
(1)数据抽取。将2014年至2016年的客服工单数据中的工单编号、用户信息、产生时间、产生区划及地点、问题内容等以上数据属性,通过聚焦爬虫逐条采集、抽取并以文本的形式分别保存。
(2)词频统计。使用NLPIR在线平台(自然语言处理与信息检索共享平台)批量导入文本中的问题内容部分、统计其中的高频名词词汇与对应词频数,从高到低排列生成词频统计列表。
(3)热词提取。继续使用NLPIR在线平台(自然语言处理与信息检索共享平台)导入词频统计列表,通过与日常用语词汇库进行比对,剔除词频统计列表中的与供水业务无关的词汇,然后人工再次筛选,最终以剩余词汇构建出的热词统计列表,作为3年内的供水客服数据热词库。新构建热词库的部分热词如表1所示。
(4)文本匹配。以现有的客服工单数据文本为素材,使用KMP字符串匹配算法,与热词库中与水质问题相关的热词,如水发黄、水垢多、龙头水有异味等进行匹配并对匹配中的文本量化统计。
(5)建立热图。对匹配中的文本,首先以受理时间、水质问题为维度进行可视化分析。如图2所示,通过对2014年至2016年的水质问题工单的可视化分析发现2016年10月至12月的水质问题工单显然明显增加,其中主要热词为龙头水有异味。

图2 2016年月度龙头水有异味工单占水质问题工单的比例
Fig.2 Monthly proportion of unpleasing smell work orders in water quality problem work orders in 2016
然后以发生地点为维度将龙头水有异味的工单在地图上投影标记出来,构建出热图。如图3所示,发现发生地点围绕经十路周边成近似直线分布。
(6)相关分析。在初步得出龙头水有异味工单发生地点围绕经十路周边成近似直线分布这一推论后,首先结合沿线厂站、管网水质监测数据与水质问题工单的量化统计数据作相关分析,基本排除了沿线厂站、管网影响水质进而引起龙头水异味的可能性。由于经十路主管线水源来自玉清水厂,推断龙头水有异味问题与玉清水厂出厂水水质及其水源地玉清水库的水质题相关。
再将水质问题工单的量化统计数据与玉清水厂出厂水水质、玉清水库原水日检水质数据、月检水质数据逐项分别作一元回归分析,计算相关系数,得出玉清水库藻类物质含量与龙头水有异味数据数量存在显著正相关,相关系数为0.969,推导出结论玉清水库藻类物质含量变化是导致龙头水有异味的可能原因。
通过对2016年10月至12月玉清水库的水源变化调查,发现在此期间有南水北调的原水供入玉清水库,供入水量约为1 000万m3。由于南水北调原水的注入使玉清水库水体富营养化程度大大增加,致原水中藻类物质含量急剧增多,藻类物质死亡后分解产生大量土嗅素和2-甲基异莰醇,最终使水体异味增加,龙头水有异味工单数量也随之更加。
经此数据分析,济南水务集团与山东省(济南)供排水监测中心在南水北调及其他水源供入玉清水库的时期,增加了对藻类指标的检测,提前制定生产运营预案控制水体异味,有效减少了此类问题的发生,降低了水质问题工单的数量,提升了供水服务质量。
4 结语
基于大数据的供水客服数据热词分析使得供水客服数据不再是服务诉求的简单描述,而是精准分析出服务诉求产生的原因、范围及趋势,从而为精准掌握用户舆情、改善服务决策、提升服务精度提供决策依据。