如何找到泰国公共建设网站的微站官网?
摘要:微站官网,泰国公共建设网站,Wordpress外贸网站搭建公司,网站设计的一般流程当 OpenAI 于 2022 年 11 月发布 ChatGPT 时,引发了人们对人工智能和机器学习的新一波兴趣。 尽管必要的技
微站官网,泰国公共建设网站,Wordpress外贸网站搭建公司,网站设计的一般流程当 OpenAI 于 2022 年 11 月发布 ChatGPT 时#xff0c;引发了人们对人工智能和机器学习的新一波兴趣。 尽管必要的技术创新已经出现了近十年#xff0c;而且基本原理的历史甚至更早#xff0c;但这种巨大的转变引发了各种发展的“寒武纪大爆炸”#xff0c;特别是在大型语…当 OpenAI 于 2022 年 11 月发布 ChatGPT 时引发了人们对人工智能和机器学习的新一波兴趣。 尽管必要的技术创新已经出现了近十年而且基本原理的历史甚至更早但这种巨大的转变引发了各种发展的“寒武纪大爆炸”特别是在大型语言模型和生成 transfors 领域。 一些怀疑论者认为这些模型是 “随机鹦鹉”只能生成他们所接受训练的内容的排列。 有些人认为这些模型是 “黑匣子”超出了人类理解范围甚至可能是“黑魔法”其工作原理完全深奥。
我对在语义搜索背景下使用机器学习模型的可能性感到特别兴奋。 Elasticsearch 是一家基于 Apache Lucene 的高级搜索和分析引擎。 充分了解倒排索引、评分算法、语言分析的特殊性等所有复杂性我偶然发现的一些例子看起来几乎就像……是的“黑魔法”。
在我们深入研究 Python 代码之前我想回顾一下历史。 正如我发现的机器学习或人工智能主题的困难之一是大量高度具体的术语并且缺乏关于技术如何工作的直观心理模型。 例如如果我通过说它们是 “密集向量dense vectors” 来解释上一段中的术语 “嵌入embeddings”那就无济于事了 —— 不仅你的眼睛会变得呆滞而且我还必须解释两个术语而不是解释其中的一个。 词汇和语义搜索lexical and semantic search
事实上用数字表示语言元素是传统全文检索的基础。 现代倒排索引与传统索引或书后索引之间的主要区别在于倒排索引存储的信息不仅仅是术语的出现。 它还跟踪它们在文档中的位置和出现的频率。 这已经允许某些算术运算例如短语搜索phrase search搜索以特定顺序出现的术语和邻近搜索查找出现在彼此一定数量的位置内的术语。
使用这些数字特别是文档中术语出现的频率以及整个文档集合中术语的总体频率是对搜索结果进行评分的传统方法 TF-IDF术语频率 vs 逆文档频率公式和更复杂的公式如 BM-25。 简而言之某个术语在特定文档中出现的频率越高该文档在相关文档列表中的排名就越高。 相反特定术语在整个集合中出现的频率越高该文档在列表中的排名就越少。 将有关术语的统计信息存储在集合中可以实现比简单查找例如 “此特定文档包含此特定单词”更复杂的操作。
传统的 “词汇lexical” 搜索和 “语义semantic” 搜索之间的根本区别在于词汇搜索只能找到包含查询中存在的确切术语的文档。 我们所说的 “术语” 是指搜索引擎识别为具有相同含义的单词的变体。 当然像 Elasticsearch 这样的现代搜索引擎拥有复杂的工具可以将 “words” 转换为 “terms”从简单的工具如删除大写到更高级的工具如词干提取删除后缀、walking ⇒ walk、词形还原将不同的屈折形式减少为基本的worst ⇒ bad或同义词。 这些有助于扩大查询范围并找到更多相关文档。
然而即使进行了这些转换如果文档中缺少这些特定术语你也无法使用 “a domestic animal which catches mice” 之类的查询来搜索 “cat”。 另一方面大型语言模型非常有能力为这样的 “间接” 查询检索文档。 这并不是因为它以天真的拟人化的方式 “理解” 了那个特定的短语。 这是因为它理解与不同想法相对应的不同符号系统人类语言。 在这个系统中占据最接近符号 “a domestic animal which catches mice” 的位置的概念是的是猫的概念。
因此在语义搜索中搜索结果的相关性是由系统内的语义接近度决定的而不仅仅是关键字匹配无论多么复杂。 顾名思义“词汇搜索” 的行为非常类似于在字典词典中搜索单词定义如果你知道要搜索的单词那么它会非常有效。 否则你不妨读整本字典。 使用 Elasticsearch 进行语义搜索
有趣的是语义搜索的支持基础设施多年来一直是 Elasticsearch 的一部分 —— dense_vector 映射字段在 2019 年 4 月发布的 7.0 版本中引入。几个月后发布的 7.3 版本增加了对指定维度的支持 type 并将预定义函数引入到 script_score 查询中从而能够计算文档的相似度分数。
