我总结了几年前在游戏搜索方面所做的事情,现在将幻灯片贴出来作为本月的作业。
1. 总体概述
2. 架构
架构是骨架,算法策略是灵魂,同样重要。一个正常的系统可以分为三部分:在线系统接收用户请求,监控系统实时发现异常并报警,离线系统分析挖掘数据并反馈给在线系统。
2.1 监测和报告
常见的监控有QPS、服务延迟等,还可以包括业务关注的监控。
2.2 离线作业
离线系统用于挖掘用户行为然后反馈给在线系统,提高策略的有效性。常用的有日志收集、分析提取、算法计算等。本文采用Facebook的Scribe收集日志,存储到HDFS中,使用MapReduce/Hive/Spark对日志进行提取和分析,最终结果加载到在线系统使用。需要注意的是,原始日志的分析最好以日为单位,而不是以月为单位,一来数据量大,二来一天的日志出现问题很容易导致整个作业失败。
2.3 两个细节
从在线系统设计到查询分析,是一个流式的多模块过程,使用多模块树来提取查询中的多个字符串,非常有效。
3. 策略
3.1 查询理解
查询理解分为清洗、改写、查询分类、修饰语提取、查询扩展几个部分,查询扩展包括同义词扩展、拼音/单词扩展、相似查询扩展。
3.2 相似查询挖掘
相似查询是从用户的查询日志中挖掘出来的,认为同一用户在一段时间内的查询词具有相关性,根据共现性和内容相似性判定为相似查询,用于扩展原始查询。
3.3 搜索排名
排序以文本相关性为主,辅以下载指标/用户评价指标等。
3.4 多样化搜索
不同的查询往往有不同的查询目的,有的是精准搜索,有的是模糊查询,有的是相关公司的查询,所以我们要在查询理解部分识别它们,然后针对不同的目的构建不同的查询排序逻辑。
3.5 结果调整
在查询结果返回后,还会进行更加细致的调整,比如该查询以往的下载历史、运营干预、同类游戏的添加等。
3.6 建议
Suggest负责引导用户正确输入,使得用户输入更加规范,避免无效输入。
4. 总结
最终,游戏搜索系统形成一个用户、游戏、游戏之间相互影响、相互促进的生态系统。本文不涉及基于用户自身历史的个性化搜索,而是根据用户的偏好展示搜索结果。另外,在实现方面,我们根据查询的下载历史,对类似查询和类似游戏进行反馈,并利用下载历史来调整类似查询和类似游戏的排序。