当前位置: 金毛 >> 金毛形态特征 >> 58黄页标签提取及海量多分类优化
导读
58黄页是一个用户找服务的平台,主要靠商家发帖,用户通过帖子找服务。但商家的帖子标题描述及用户的评价等都是纯文本的,不是结构化的数据。用户检索时无法对帖子核心内容进行突出展示,召回等。由此,需要从文本里提取标签,标签是通过对帖子内容分析得到的高度精炼的特征词或短语,将帖子内容标签化可以突出帖子特性,实现帖子内容结构化,帮助用户更快定位到所需要的服务,提升用户体验。
背景
帖子的标签通常是几个词或者短语,作为对该文档主要内容的提要。标签是人们快速了解文档内容、把握主题的重要方式。标签作为帖子的核心内容广泛应用于检索召回,帖子智能摘要,及作为结构化的筛选内容(虚拟类目),以方便人们高效地检索自己需要的服务。由于58黄页的类目众多,总共有00多个类目,每个类目都有自己的标签,比如搬家的类目标签是“居民搬家”,“箱货搬家”等,而宠物类目的标签内容是“金毛”、”泰迪“等宠物名,导致总的标签数量有10w多个,标签数量过多的时候模型会变得庞大且需要更多的标注样本,如何对这个问题进行优化是本文介绍的难点。本文主要介绍两个内容:1,如何对文本(帖子标题描述及评价内容)进行标签提取。,标签数量过多时(10万)导致模型过大,如何对模型进行优化,使其变小。帖子打标签
1、候选词获取并不是所有的词都有可能成为关键词,本文选取候选词的过程如下:首先对文本进行分词,去掉停用词,然后计算词语的凝固度与自由度,设置一个阈值,大于这个阈值的词语做为候选词的初步召回,最后再进行人工校验做最终的候选词确认。在很多研究中,候选关键词还可以通过n-gram发现。.帖子标签提取流程训练模型提取关键短语-归一化获取标签词-打分排序.系统架构4.模型流程5.建模1).传统方法关键词提取传统有很多方法,无监督的有:tf-idf,textrank,lda,翻译模型ibmmodel[1],有监督的:抽象为分类模型(多标签分类模型)。经试验无监督的模型提取能力很有限,而且不易优化。这也是可以理解的因为不同的无监督只能提取到某一类型的特征信息,比如tfidf提取的是总体文本的频率及稀有程度综合排序,textRank只会考虑一个待抽取文本里的单词频率及单词建相互关联指向关系等。但标签提取的场景往往复杂多变,因为对不同领域有对关键词不同的定义,比如58同城搬家类目(厢货车等是关键词),但宠物类目(厢货车不是关键词,而是金毛等宠物名),所以这种复杂的提取场景还是需要有监督的算法针对解决。).使用分类打标签58黄页类目很多00+,每个类目都有不同的标签,总体的标签量很大。直接使用多分类,需要海量的样本,比如现在黄页标签库有10w个标签,每个标签标注10条样本,需要w条的标注。这个标注样本是海量的,人工成本太高,不可行。).使用序列列标注把关键词提取建模为序列标注模型的好处:1,标签很多时样本量并不大,可以对新标签进行发现,有监督,可以随时通过不同的标注样本应对不同的提取场景4,可以对提取标签的文本内容进行飘红,知道打标签的文本来源6.模型步骤1).序列标注提取关键短语标签提取可以抽象为两个步骤,1,进行关键内容的提取,归一化当前的有字构词的序列标注有多种实现。深度学习:robert+crfbert+crftransformer+crfidcnn+crfrnn+crf还有传统的实现:自己编写特征提取函数,然后使用crf进行标注。已有的较好的开源实现有crf++等实验效果对比:该实验效果是在我标注的0条样本上实做的,条作为训练集,条作为测试集,使用k折交叉检验对结果进行平均。评测有用了两种方法,一种是精确的评测:关键词位置内容全部正确才判断为正确。比如:北京居民搬家,欢迎来电。样本ner标记为“居民搬家”只有提取出”居民搬家“而且位置也完全正确才算正确。软评测:关键词有一部分正确也会计算再内。比如:北京居民搬家,欢迎来电。样本ner标记为“居民搬家“如果提取出”北京居民搬家“也会计算计算一部分精确率,这时候的TP是通过每个字的标签正确(但不能是非ner的标签比如未识别标记O)来计算。精确评测:模型
accuracy
recall
f值
平均性能(ms)
crf++
78.5%
71.96%
75.0%
9
idcnn+crf
80.0%
8.76%
81.7%
79
transformer+crf
70.69%
80.87%
75.44%
5
rnn+crf
8.6%
84.65%
8.6%
bert+crf
7.18%
87.5%
79.10%
robert+crf
77.1%
88.44%
8.50%
软评测:模型
accuracy
recall
f值
crf++
85.89%
78.9%
8.6%
idcnn+crf
90.57%
89.6%
89.96%
transformer+crf
88.98%
84.7%
86.61%
rnn+crf
9.68%
86.89%
89.69%
bert+crf
90.8%
9.7%
91.59%
robert+crf
9.19%
91.1%
9.4%
因为58同城的关键词提取是对帖子的描述进行提取,文本很长,0+都很正常,bert+crf等深度模型准确率虽然较好,但对bert文本不能超过51(虽然有些方法可以优化,但当文本很长的时候性能急剧下降),深度学习的推理速度比较慢,为了平衡速度与准确率,最后我们生产环境选择的是idcnn+crf文本内容:全市连锁、就近派车、一条龙服务、上门估价、正规发票、绝不加价、预约有优惠居民搬家、公司搬家、空调移机,长短途搬家、搬厂、搬仓库、各企事业单位搬迁、起重吊装、精品搬运、拆装家具、箱货车搬家、金杯车搬家、尾板车搬家、长途搬家、个人搬家、小型搬家、人力搬运、钢琴搬运、红木家私搬运、打包、装卸货柜、搬公司、搬仓库、搬写字楼、公司搬迁、仓库搬迁、设备搬迁移位、吊沙发、吊大件家私拆装空调等一条龙服务北京捷易搬家从事搬家行业0年,专业搬家、搬厂、搬写字楼、拆装空调、起重吊装的有限责任制公司,现有厢货车、尾板车、平板车、金杯车、面包车、1.5吨货车、吨货车、等10多辆和10几年工作经验的师傅,所有工作人员经过严格的专业培训,都能够熟练掌握物品包装,装卸、搬运、高难度家具拆卸,大型机器搬运,高空吊装等高难度技能亲、感谢您对我公司的信任,首先恭贺亲乔迁新禧!工作顺利!全家幸福!身体健康!搬新家是一个高兴而繁琐的事情,同时选择搬家公司更重要,为了不负亲所托、感谢亲能根据您的实际情况,在搬家过程中,只要您描述搬运的信息和事实相符,(希望您尽量详细描述搬家出发点和目的地,两边的楼层情况和物品及中间是否需要中转还有两边停车的距离情况等)我们会根据您的情况就近派车、也会给您合理的报价,坚决不会有中途加价现象,如果您选择了我们,我们会给您书面合同或
转载请注明:http://www.yybixiuke.com/jmxttz/21405.html