获取同类的产品在不同年份的用户咨询问题,使用词频统计后对比的方法看用户关心的问题对比。
首先使用前几天学习到的分词方法将使用的用户咨询问题进行分词,分词结果输出为Excel 表格准备下一步使用。考虑到产品在不同月份有淡旺季影响咨询问题条目数量,把分词结果分为数量相等的2020 年份 和2021 年份两个表对比,每个表格的要素为词,词频(frequency),词频排名(rank).
选取两个表的前20词频单词各自做柱状图,柱状图左右对比,画箭头线对比前20词频变化单词前进还是后退。
2020年份词频相对于2021年份词频变少的单词为产品普通使用特性为主,前进和新出现前20的单词更多体现为HDMI 和网络app 应用。 这说明疫情第一年2020年用户对于产品的日常使用有较多的问题,随着用户对于产品的熟练度和之前回复的问题答案积累,新增加问题集中到了新出现的问题和更关注于网络流媒体使用。
以上的对比方法手动添加箭头线条效率慢,数量多了太费眼,改用词频排名相减法对比快速对比所以的单词前进后退变化。
2020年份单词排名减2021年份单词排名,得出差值为大于零说明排名前进被关注度提高,小于零说明排名后退关注度降低。上表受制于样本量的影响,每个词词频量有限,只能用于验证方法是否有效,对比问题的准确度还需要进一步看实际的来源条目。
习惯看图直观得出结论的话,可以使用词频绘制曲线,从两条线对比突兀的地方找差异。