Elasticsearch


Elasticsearch

1.什么是Elasticsearch

  • 一款开源的强大的搜索引擎,可以帮助我们从海量数据中快速找到需要的内容。
  • 同时Elasticsearch结合Kibana、Logstash、Beats,也就是ELK。被广泛应用在日志数据分析,实时监控等领域。

2.正向索引和倒排索引

Elasticsearch采用倒排索引:

  • 文档(document):每条数据就是一个文档(JSON)
  • 词条(term):文档按照语意分成的词语(对文档中的内容分词,得到的词语就是词条)
  • 正向索引:基于文档Id创建索引。查询词条必须先找到文档,而后判断是否包含词条。
  • 倒排索引:对文档内容分词,对词条创建索引,并记录词条所在文档的信息。查询时先根据词条查询到文档id,而后获取到文档。

正向索引与到排索引

过程

3.中文分词IK分词器

安装:下载对应ES版本的IK分词器

解压zip到ES的plugin目录中

查看ES启动日志“loaded plugin”,安装完成

查看ES启动日志

测试分词器(ik_max_word,ik_smart)

最少切分:ik_smart

ik_smart

最细切分:ik_max_word

ik_max_word

字典:扩展&停用

自定义字典配置

4.索引库操作

mapping属性

mapping是对索引库中文档的约束,常见的mapping属性包括:

  • type:字段数据类型

    • 字符串:text(可分词的文本)、keyword(精确值)
    • 数值:long、integer、short、byte、double、float
    • 布尔:boolean
    • 日期:date
    • 对象:object
  • index:是否创建索引,默认为true

  • analyzer:使用暗中分词器

  • properties:改字段的子字段

5.RestClient操作索引库

什么是RestClient:ES官方提供了各种不同语言的客户端,用来操作ES。这些客户端的本质就是组装DSL语句,通过http请求发送给ES: ES RestClient Doc.

maven依赖 :

<project>
  <dependencies>

    <dependency>
      <groupId>co.elastic.clients</groupId>
      <artifactId>elasticsearch-java</artifactId>
      <version>8.17.0</version>
    </dependency>

    <dependency>
      <groupId>com.fasterxml.jackson.core</groupId>
      <artifactId>jackson-databind</artifactId>
      <version>2.17.0</version>
    </dependency>

  </dependencies>
</project>

ES 8.X:CRUD

链接 RestClient & ElasticsearchClient

 // URL and API key
String serverUrl = "https://localhost:9200";
String apiKey = "VnVhQ2ZHY0JDZGJrU...";

// Create the low-level client
RestClient restClient = RestClient
    .builder(HttpHost.create(serverUrl))
    .setDefaultHeaders(new Header[]{
        new BasicHeader("Authorization", "ApiKey " + apiKey)
    })
    .build();

// Create the transport with a Jackson mapper
ElasticsearchTransport transport = new RestClientTransport(
    restClient, new JacksonJsonpMapper());

// And create the API client
ElasticsearchClient esClient = new ElasticsearchClient(transport);

// Use the client...

// Close the client, also closing the underlying transport object and network connections.
esClient.close();

创建倒排索引:

esClient.indices().create(c -> c
    .index("products")
);

索引文档:

Product product = new Product("bk-1", "City bike", 123.0);

IndexResponse response = esClient.index(i -> i
    .index("products")
    .id(product.getSku())
    .document(product)
);

logger.info("Indexed with version " + response.version());

获取文档:

GetResponse<Product> response = esClient.get(g -> g
    .index("products") 
    .id("bk-1"),
    Product.class      
);

if (response.found()) {
    Product product = response.source();
    logger.info("Product name " + product.getName());
} else {
    logger.info ("Product not found");
}

查询文档:

String searchText = "bike";

SearchResponse<Product> response = esClient.search(s -> s
        .index("products")
        .query(q -> q
            .match(t -> t
                .field("name")
                .query(searchText)
            )
        ),
    Product.class
);

更新文档:

Product product = new Product("bk-1", "City bike", 123.0);

esClient.update(u -> u
        .index("products")
        .id("bk-1")
        .upsert(product),
    Product.class
);

删除文档:

esClient.delete(d -> d.index("products").id("bk-1"));

删除索引:

esClient.indices().delete(d -> d
    .index("products")
);

ES7.X CRUD

操作:

Restclient client = new RestHighLevelClient(RestClient.builder(
    HttpHost.create("http://127.0.0.1:9200")
)));

// 新增
ProductionDoc productionDoc =new ProductionDoc();
IndexRequest indexRequest = new IndexRequest("index").id(productionDoc.getId().toString());
indexRequest.source(JSON.toJSONString(productionDoc), XContenType.JSON);
client.index(indexRequest, RequestOptions.DEFAULT)

// 查询 ById
GetRequest getRequest = new GetRequest("index", "id");
GetResponse getResponse = client.get(updateRequest, RequestOptions.DEFAULT)
log.info(getResponse.getSourceAsString());
// 更新
UpdateRequest updateRequest = new UpdateRequest("index", "id");
updateRequest.doc(
    "price", "101",
    "starName", "王"
)
client.update(updateRequest, RequestOptions.DEFAULT)
// 删除
DeleteRequest deleteRequest = new DeleteRequest("index", "id");
client.delete(deleteRequest, RequestOptions.DEFAULT)

//批量导入 bulk
BulkRequest bulkRequest = new BulkRequest();
bulkRequest.add(new IndexRequest("hotel").id("101").source("json str 1", XContenType.JSON));
bulkRequest.add(new IndexRequest("hotel").id("102").source("json str 2", XContenType.JSON));
client.bulk(bulkRequest, RequestOptions.DEFAULT)

6.DSL查询语法

DSL Query分类

Elasticsearch 提供了基于JSON的DSK(Domain Specific Language)来定义查询。常见的查询类型包括:

  • 查询所有:查询出所有数据,一般用于测试:
    • match_all
  • 全文检索(full text)查询:利用分词器对用户输入内容分词,然后去倒排索引库中匹配
    • match_query (根据一个字段查询)
    • multi_match_query (根据多个字段查询,参与查询字段越多,查询性能越差)
  • 精确查询:根据精确词条值查询数据,一般是查找keyword、数值、日期、boolean等类型字段
    • ids (id)
    • range (数值范围)
    • term (数据值)
  • 地理(geo)查询:根据经纬度查询:
    • geo_distance
    • geo_bounding_box
  • 复合(compound)查询:复合查询可以将上述各种查询条件苏荷起来,合并查询条件:
    • bool
    • function_score

DSL Query基本语法

# GET /索引库名/_search
{ "query": { "查询类型": { "FIELD": "TEXT" }}}

# 查询所有 GET /索引库名/_search
{ "query": { "match_all": {}}}


# 全文检索-全部字段/单个字段 GET /索引库名/_search
{ "query": { "match": { "all": "TEXT" }}}
# 全文检索-指定字段 GET /索引库名/_search
{ "query": { "multi_match": { "query": "TEXT", "fields": ["FIELD1", "FIELD2"] }}}

# 精确查询 - term
{ "query": { "term": { "FIELD": {"value": "VALUE"}}}}

# 精确查询 - range
{ "query": { "term": { "FIELD": {"gte": "10", "lte": 20}}}}

DSL 相关性算分

Elasticsearch 提供了相关性算分机制,用于计算查询结果中每个文档的得分。
相关性算分机制会根据查询条件中指定的字段,计算出每个字段的权重,然后将这些权重相加,得到最终的文档得分。

  • TF-IDF算法 是一种计算文档中词条权重的算法,它考虑了词条在文档中的出现频率和文档总数,以计算出每个词条的权重。
  • BM25算法(高版本默认)是一种计算文档中词条权重的算法,它考虑了词条在文档中的出现频率、文档总数和词条在文档中的位置,以计算出每个词条的权重,会随着词频增大而增大,但曲线趋于平缓。

BM25算法与TF-IDF算法对比

DSL Function Score Query

Function Score Query 是一种复合查询,它允许在查询条件中添加额外的函数来计算文档得分。
Function Score Query 语法

DSL Boolean Query

Boolean Query 是一种复合查询,它允许在查询条件中添加多个查询条件,并使用布尔运算符(AND、OR、NOT)来组合多个查询条件。

  • must:必须匹配每个子查询,类似‘与’
  • should:选择性匹配子查询,类似‘或’
  • must_not:必须不匹配,不参与算分,类似‘非’
  • filter:必须匹配,不参与算分
    Boolean Query 语法

文章作者: Anubis
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Anubis !
评论
  目录