让搜索也能无所不知 “搜狗知立方”评测
传统的网页搜索,都是根据用户的需求,返回符合用户需求的网页结果,而搜索结果的好坏取决于能否搜索引擎找到的网页结果,如果没有现成的网页结果很好满足的用户的需求,那搜索引擎就无能为力了。而随着百度开放平台等产品的推出和各家搜索引擎公司的不断努力发展,搜索结果的样式有了很大的进化,也带来了无限的可能性。
不断改善网页结果的排序以更好满足用户需求,是搜索引擎研究者们不断去努力的。而搜索更能够产生革新的,则是其产品的形态,未来的搜索引擎,将不再是建立网页的聚合,而是建立信息的聚合,能够分析用户的意图,将信息更好的提供给用户。
随着谷歌推出知识图谱,这个话题一下子被点热了,通过建立知识库,提供给用户相关搜索的完整相关内容和主题,展现出歧义内容,还能将信息扩展。而谷歌的知识图谱目前只支持英文,而纵观国内市场,搜狗则是第一个推出了中文的知识图谱——知立方,也说明了国内搜索引擎也一直在努力进行技术的创新。具体效果如何,以下我做一个简单的评测。
据了解,知立方的第一版目前支持明星及影视剧的知识图谱,当搜索“刘亦菲”时,在右侧展示了刘亦菲的个人资料等信息,同时对她的电视剧、电影、歌曲和专辑。而当搜索新斩获诺贝尔奖的莫言时,也给出了莫言的著作列表。
图1
知识图谱支持部分歧义,如C罗,C罗纳尔多、克里斯蒂亚诺·罗纳尔多都能识别成出来。
图2
对于重名的人,也能够给出更多样性的选择。不过这块似乎不是100%准确,例如“宋佳”就没有能够识别出来。
图3
而知识图谱能够支持资源的整合,如搜索“刘德华的电影”、“莫言的作品”,均能在最上方提供一行准确漂亮的结果。目前支持电影、电视剧、专辑和书籍作品。有点遗憾的是,排序只能根据时间因素,如果能够选择排序因素(如热门度、口碑),也许会更有价值。相信无间道、红高粱一定能上榜。
图4
主体不仅仅是明星,也可以是电影、电视剧,以及其关系。例如搜索无间道,可以看到三部曲的选择,而选择第一部后,可以看到其导演、演员及类似电影的信息。不过对电影这块的覆盖度,明显不如明星部分全,可以看出,这个还是有着非常巨大的提升空间的。
图5
以上的内容,还只是基于内容的整合,而知立方宣传的一个很大的卖点,则是关系的提取及整合,如“苍井空的三围”、“无间道的导演”、“林志玲的绯闻”、“王菲的老公”,其都能够很智能的给出结果。还有很多新闻中都用到的“梁启超的儿子的太太的情人的父亲是谁”,更说明了关系已经不仅仅是基于文本关系,而已经具有了一定的推理能力。
图6
可以说,搜狗的知立方给中文搜索引擎的带来了一些新的气象,第一版已经拥有了一定的水准。不过其还是拥有极大的提升空间,一方面继续扩充知识库的深度和广度,如囊括更多的明星和作品,以及将知识库扩展到旅游、餐饮、地理等更多领域;此外,对于歧义的识别还可以做的更好,相信知立方的下一个版本会取得更大的进步,努力让网页搜索“无所不知”。而据说百度的知识图谱也正在开发中,即将全面上线,搜索引擎产品及技术的不断竞争,会带来很多的创新,也会让用户起来得越来越爽。