如何为我的在线商店寻找性价比高的店铺代运营服务?

摘要:网站建设一般多钱,店铺代运营,响应式企业营销型网站多少钱,中国企业500强中国铁建前言 在上一篇博客文本匹配中的示例代码中使用到了一个SimCSE模型,用来提取短文本的特征,然后计
网站建设一般多钱,店铺代运营,响应式企业营销型网站多少钱,中国企业500强中国铁建前言 在上一篇博客文本匹配中的示例代码中使用到了一个SimCSE模型#xff0c;用来提取短文本的特征#xff0c;然后计算特征相似度#xff0c;最终达到文本匹配的目的。但是该示例代码中的短文本是用的英文短句#xff0c;其实SimCSE模型也可以用于中文短文本的特征提取用来提取短文本的特征然后计算特征相似度最终达到文本匹配的目的。但是该示例代码中的短文本是用的英文短句其实SimCSE模型也可以用于中文短文本的特征提取本篇博客就基于苏沐剑发表于科学空间的中文任务还是SOTA吗我们给SimCSE补充了一些实验博客中使用到的代码来记录一下代码梳理的笔记并且使用自己的数据集在这篇代码上进行训练。另外关于这个模型的原理细节等可以参考别的博主写的内容还有就是作者的论文这些会附在最后的参考链接。 代码详解 数据导入部分 数据导入部分的代码主要有三个步骤1从txt中读取文本数据常规操作这里没什么可说的 datasets {%s-%s % (task_name, f):load_data(%s%s/%s.%s.data % (data_path, task_name, task_name, f))for f in [train, valid, test] }2将读取到的文本句子转换成id向量同样也是常规操作 def convert_to_ids(data, tokenizer, maxlen64):转换文本数据为id形式a_token_ids, b_token_ids, labels [], [], []for d in tqdm(data):token_ids tokenizer.encode(d[0], maxlenmaxlen)[0]a_token_ids.append(token_ids)token_ids tokenizer.encode(d[1], maxlenmaxlen)[0]b_token_ids.append(token_ids)labels.append(d[2])a_token_ids sequence_padding(a_token_ids)b_token_ids sequence_padding(b_token_ids)return a_token_ids, b_token_ids, labels3第三步则是写了一个class使用了一个生成器完成数据batch读取。这里需要注意的是每个batch中同一个文本数据输入了两次一个batch中的两个一样的文本输入由于模型最后一层的加入了dropout模型输出结果是有些许差别的这样有差别的输出则可以互为label这也是SimCSE模型巧妙的地方。
阅读全文