http://www.pptjcw.com

电商运营之站内搜索的全面指南 (七)

    本文为大家简要介绍了电商算法的形成过程,并将搜索算法分为了分词算法、类目预测算法、商品排序算法、个性化千人千面四个部分进行介绍。

    其实在电商站内搜索领域,其核心的机密基本上就属于排序算法范围内了。我在上一章节中夸下海口说要给大家唠一唠电商算法的形成的过程,其实是有点心虚的,因为我压根不是算法出身,也无法给大家讲解什么拉格朗日公式的原理,贝叶斯的变形公式等。但是我能给大家解释一下这些算法的形成过程,以及在形成过程中运营和产品是如何配合的,以及如何运用一个现成的方案,开发出一套高时间性价比的搜索产品体系。

    电商站内搜索其实是以算法为核心,运营为辅助的模块。说到底,如果搜不准,搜不全,运营的再好也只是空中楼阁,因此我们先讲一讲算法体系,再讲运营方式。

    那如果是我,如何从0起步建立起一套经济实惠,省时省力的搜索逻辑体系(也有可能是我闭门造车,所以谨慎采纳,不喜请诚恳地指正)。

    说句题外话: 算法听上去高大上,其实通俗地讲,就是解决问题的方法,即便是计算公式再高大上,技术理念再先进,如果解决不了问题,一样不能叫算法。

    其次很多人以为算法其实应该是纯计算机来解决,其实这是一种误解,不可否认,计算机自动化确实是在算法中占举足轻重的地位,但是算法不仅仅是计算机,还有人工积累的比重,且不可或缺。

    因此搜索算法也一样,离开了人工辅助,算法什么问题都解决不了。好了说正经的,搜索算法主要分为以下几个核心:

    分词算法

    类目预测算法(解决准不准的基础)

    商品排序算法(电商核心机密)

    个性化千人千面(电商数据提升机密)

    分词算法

    我们先来了解下分词算法:目前国内有专门的汉语分词第三方分词接口,且功能完善,成本低廉,能够进行词干提取,语义分析,甚至情感判断等。算法方面也是百花齐放,各有优劣,目前有三大主流分词方法:基于字符串匹配的分词方法基于理解的分词方法基于统计的分词方法。

    基于字符串匹配的分词方法

    又称为机械分词方法,它需要有一个初始的充分大的词典,然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来。

    按扫描方向的不同,字符串匹配分词方法可以分为正相匹配和逆向匹配;按照不同长度的匹配优先度可以划分为最大匹配和最小匹配(细节我就不在这说了,这种分词方式是属于最为简单分词方式,可以自行百度其工作逻辑和流程).

    基于理解的分词方法

    这个就有点技术含量,国内的主要搜索大厂,比如百度、字节跳动等都在开发带有人工智能模块的搜索算法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。

    由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在验证和试用型阶段。

    基于统计的分词方法

    即每个字都是词的最小单元,如果相连的字在不同的文本中出现的频率越多,这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性,当频率高于某个阈值时,我们可以认为这些字可能会构成一个词。

    主要统计模型: N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场(Conditional Random Fields,CRF)等。

    优势:在实际运用中常常将字符串匹配分词和统计分词结合使用,这样既体现了匹配分词速度快、效率高的优点,同时又能运用统计分词识别生词、自动消除歧义等方面的特点。

    基于统计的分词方式&类目预测

    我们着重了解一下第三种,基于统计的分词方式&类目预测。如果说有什么算法是基于统计的,那么这个算法肯定需要一个训练集,而且这个训练集需要是正确的,人为校验的。

    因此我们所说的这种算法,则是在人工标注的训练集上训练而成的。因此我们接下来将要讨论的算法是——类目预测训练集。

    目前从训练集上来看,收集的方式主要有两种,第一种是人工中心词收集,第二种则是机器分析与训练。

    人工中心词收集

    这个方案其实是比较讨巧的,基于规范的词典词语来进行收集,主要收集物品词&品牌词。

    之所以要选定物品和品牌词收集还是基于上一章提过的app购物行为假设,即用户在购物app中始终是以搜索物品或者品牌的型号/物品为最终目的。

    提示:如果您觉得本文不错,请点击分享给您的好友!谢谢

    上一篇:想快速度过新品期?这3个方法快速搞定基础销量 下一篇:《一个人的电商》读书笔记

    郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。