本文为大家简要介绍了电商算法的形成过程,并将搜索算法分为了分词算法、类目预测算法、商品排序算法、个性化千人千面四个部分进行介绍。
其实在电商站内搜索领域,其核心的机密基本上就属于排序算法范围内了。我在上一章节中夸下海口说要给大家唠一唠电商算法的形成的过程,其实是有点心虚的,因为我压根不是算法出身,也无法给大家讲解什么拉格朗日公式的原理,贝叶斯的变形公式等。但是我能给大家解释一下这些算法的形成过程,以及在形成过程中运营和产品是如何配合的,以及如何运用一个现成的方案,开发出一套高时间性价比的搜索产品体系。
电商站内搜索其实是以算法为核心,运营为辅助的模块。说到底,如果搜不准,搜不全,运营的再好也只是空中楼阁,因此我们先讲一讲算法体系,再讲运营方式。
那如果是我,如何从0起步建立起一套经济实惠,省时省力的搜索逻辑体系(也有可能是我闭门造车,所以谨慎采纳,不喜请诚恳地指正)。
说句题外话: 算法听上去高大上,其实通俗地讲,就是解决问题的方法,即便是计算公式再高大上,技术理念再先进,如果解决不了问题,一样不能叫算法。
其次很多人以为算法其实应该是纯计算机来解决,其实这是一种误解,不可否认,计算机自动化确实是在算法中占举足轻重的地位,但是算法不仅仅是计算机,还有人工积累的比重,且不可或缺。
因此搜索算法也一样,离开了人工辅助,算法什么问题都解决不了。好了说正经的,搜索算法主要分为以下几个核心:
分词算法
类目预测算法(解决准不准的基础)
商品排序算法(电商核心机密)
个性化千人千面(电商数据提升机密)
分词算法我们先来了解下分词算法:目前国内有专门的汉语分词第三方分词接口,且功能完善,成本低廉,能够进行词干提取,语义分析,甚至情感判断等。算法方面也是百花齐放,各有优劣,目前有三大主流分词方法:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
基于字符串匹配的分词方法又称为机械分词方法,它需要有一个初始的充分大的词典,然后将待分词的字符串与词典中的元素进行匹配,若能成功匹配,则将该词切分出来。
按扫描方向的不同,字符串匹配分词方法可以分为正相匹配和逆向匹配;按照不同长度的匹配优先度可以划分为最大匹配和最小匹配(细节我就不在这说了,这种分词方式是属于最为简单分词方式,可以自行百度其工作逻辑和流程).
基于理解的分词方法这个就有点技术含量,国内的主要搜索大厂,比如百度、字节跳动等都在开发带有人工智能模块的搜索算法。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。
由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在验证和试用型阶段。
基于统计的分词方法即每个字都是词的最小单元,如果相连的字在不同的文本中出现的频率越多,这就越有可能是一个词。因此我们可以用相邻字出现的频率来衡量组词的可能性,当频率高于某个阈值时,我们可以认为这些字可能会构成一个词。
主要统计模型: N元文法模型(N-gram),隐马尔可夫模型(Hidden Markov Model,HMM),最大熵模型(ME),条件随机场(Conditional Random Fields,CRF)等。
优势:在实际运用中常常将字符串匹配分词和统计分词结合使用,这样既体现了匹配分词速度快、效率高的优点,同时又能运用统计分词识别生词、自动消除歧义等方面的特点。
基于统计的分词方式&类目预测我们着重了解一下第三种,基于统计的分词方式&类目预测。如果说有什么算法是基于统计的,那么这个算法肯定需要一个训练集,而且这个训练集需要是正确的,人为校验的。
因此我们所说的这种算法,则是在人工标注的训练集上训练而成的。因此我们接下来将要讨论的算法是——类目预测训练集。
目前从训练集上来看,收集的方式主要有两种,第一种是人工中心词收集,第二种则是机器分析与训练。
人工中心词收集这个方案其实是比较讨巧的,基于规范的词典词语来进行收集,主要收集物品词&品牌词。
之所以要选定物品和品牌词收集还是基于上一章提过的app购物行为假设,即用户在购物app中始终是以搜索物品或者品牌的型号/物品为最终目的。
上一篇:想快速度过新品期?这3个方法快速搞定基础销量 下一篇:《一个人的电商》读书笔记
郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如作者信息标记有误,请第一时间联系我们修改或删除,多谢。