日志分析

最近更新时间:2018-07-25 18:06:54

日志分析中分词的含义

分词是搜索引擎中重要的概念,正确使用分词能帮助您灵活使用搜索功能,同时分词的使用对搜索性能也有影响。您可以参考 概念&术语 中相关的分词概念描述,挑选最适合业务的分词器。

全文索引仓库的搜索方式

全文索引是一种特殊的索引方式:

  1. 全文索引将所有字段拼接在一起,使用标准分词器进行分词,可以直接输入关键词进行搜索。如数据中包含 /we/are/friends,直接输入 friends 即可搜索出该数据;

  2. 全文索引对每个字段选择了索引但是不分词。所以此时选择使用字段进行搜索要注意,如果字段 content 数据内容是 /we/are/friends,那么 /we/are/friends 整体被视为一个单次,我们必须输入 content:"/we/are/friends" 才能搜索出结果。如果只输入 content:"friends" 由于分词方式的选择是无法搜索出结果的。

日志分析中如何使用正则表达式搜索?

全文索引的仓库分两种方式可以使用正则表达式搜索:

  1. 直接按照单词搜索内容,比如我们要搜索形如以 w 开头 d 结尾的关键词,我们可以直接在搜索框内输入 /w.*d/ 进行匹配,这样就会找到文章内如 word, wind 等单词在日志仓库中进行搜索;

注意:该正则表达式只局限于单词的匹配,如果有如下短语 "we are friend" 或者 "we/are/friend",虽然匹配 /w.*d/,但实际上是三个独立的单词,这种情况下无法搜索命中结果。

  1. 按照字段进行搜索,比如 path:/qiniu.com\/.*\/pandora/,这个正则表达式可以在 path 这个字段中匹配所有类似 qiniu.com/a/pandoraqiniu.com/b/pandora 这种的路径。

非全文索引的仓库只支持使用字段正则表达式进行搜索(类似全文索引中的方式 2),形如 字段名:/<正则表达式>/ 进行正则表达式搜索。不过具体的效果与这个字段的分词选项有关:

  1. 如果采用不分词:可以采用完全如全文索引中的方式 2 进行搜索;

  2. 如果采用分词(标准分词或者中文分词等):content:/w.*d/ 会在 content 字段中找到 word, wind 等形式的单词,在日志仓库中搜索。但同样,注意: 该正则表达式也只局限于单词的匹配,如果 content 字段有如下短语 "we are friend" 或者 "we/are/friend",虽然匹配 /w.*d/,但实际上是三个独立的单词,这种情况下无法搜索命中结果。

删除工作流的情况

删除工作流并不会影响通过该工作流创建的日志仓库,如果删除实时工作流,通过实时工作流创建的实时仓库也会一并删除,日志仓库不受影响。

以上内容是否对您有帮助?
  • Close