电商运营之站内搜索的全面指南（七）-自媒体|电商教程-PPT教程网

本文为大家简要介绍了电商算法的形成过程，并将搜索算法分为了分词算法、类目预测算法、商品排序算法、个性化千人千面四个部分进行介绍。

其实在电商站内搜索领域，其核心的机密基本上就属于排序算法范围内了。我在上一章节中夸下海口说要给大家唠一唠电商算法的形成的过程，其实是有点心虚的，因为我压根不是算法出身，也无法给大家讲解什么拉格朗日公式的原理，贝叶斯的变形公式等。但是我能给大家解释一下这些算法的形成过程，以及在形成过程中运营和产品是如何配合的，以及如何运用一个现成的方案，开发出一套高时间性价比的搜索产品体系。

电商站内搜索其实是以算法为核心，运营为辅助的模块。说到底，如果搜不准，搜不全，运营的再好也只是空中楼阁，因此我们先讲一讲算法体系，再讲运营方式。

那如果是我，如何从0起步建立起一套经济实惠，省时省力的搜索逻辑体系（也有可能是我闭门造车，所以谨慎采纳，不喜请诚恳地指正）。

说句题外话：算法听上去高大上，其实通俗地讲，就是解决问题的方法，即便是计算公式再高大上，技术理念再先进，如果解决不了问题，一样不能叫算法。

其次很多人以为算法其实应该是纯计算机来解决，其实这是一种误解，不可否认，计算机自动化确实是在算法中占举足轻重的地位，但是算法不仅仅是计算机，还有人工积累的比重，且不可或缺。

因此搜索算法也一样，离开了人工辅助，算法什么问题都解决不了。好了说正经的，搜索算法主要分为以下几个核心：

分词算法

类目预测算法（解决准不准的基础）

商品排序算法（电商核心机密）

个性化千人千面（电商数据提升机密）

我们先来了解下分词算法：目前国内有专门的汉语分词第三方分词接口，且功能完善，成本低廉，能够进行词干提取，语义分析，甚至情感判断等。算法方面也是百花齐放，各有优劣，目前有三大主流分词方法：基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。

又称为机械分词方法，它需要有一个初始的充分大的词典，然后将待分词的字符串与词典中的元素进行匹配，若能成功匹配，则将该词切分出来。

按扫描方向的不同，字符串匹配分词方法可以分为正相匹配和逆向匹配；按照不同长度的匹配优先度可以划分为最大匹配和最小匹配（细节我就不在这说了，这种分词方式是属于最为简单分词方式，可以自行百度其工作逻辑和流程）.

这个就有点技术含量，国内的主要搜索大厂，比如百度、字节跳动等都在开发带有人工智能模块的搜索算法。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。

由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在验证和试用型阶段。

即每个字都是词的最小单元，如果相连的字在不同的文本中出现的频率越多，这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性，当频率高于某个阈值时，我们可以认为这些字可能会构成一个词。

主要统计模型： N元文法模型（N-gram），隐马尔可夫模型（Hidden Markov Model，HMM），最大熵模型（ME），条件随机场（Conditional Random Fields，CRF）等。

优势：在实际运用中常常将字符串匹配分词和统计分词结合使用，这样既体现了匹配分词速度快、效率高的优点，同时又能运用统计分词识别生词、自动消除歧义等方面的特点。

我们着重了解一下第三种，基于统计的分词方式&类目预测。如果说有什么算法是基于统计的，那么这个算法肯定需要一个训练集，而且这个训练集需要是正确的，人为校验的。

因此我们所说的这种算法，则是在人工标注的训练集上训练而成的。因此我们接下来将要讨论的算法是——类目预测训练集。

目前从训练集上来看，收集的方式主要有两种，第一种是人工中心词收集，第二种则是机器分析与训练。

这个方案其实是比较讨巧的，基于规范的词典词语来进行收集，主要收集物品词&品牌词。

之所以要选定物品和品牌词收集还是基于上一章提过的app购物行为假设，即用户在购物app中始终是以搜索物品或者品牌的型号/物品为最终目的。

提示：如果您觉得本文不错，请点击分享给您的好友！谢谢

本文链接地址：http://www.pptjcw.com/zmtds/195268.html

上一篇：想快速度过新品期？这3个方法快速搞定基础销量下一篇：《一个人的电商》读书笔记

郑重声明：本文版权归原作者所有，转载文章仅为传播更多信息之目的，如作者信息标记有误，请第一时间联系我们修改或删除，多谢。

相关文章阅读