【Elasticsearch】Elasticsearch 核心技术(二):映射

Elasticsearch 核心技术(二):映射

  • 1.什么是映射(Mapping)
    • 1.1 元字段(Meta-Fields)
    • 1.2 数据类型 vs 映射类型
      • 1.2.1 数据类型
      • 1.2.2 映射类型
  • 2.实际运用案例
    • 案例 1:电商产品索引映射
    • 案例 2:动态模板设置
  • 3.动态映射与静态映射详解
    • 3.1 动态映射 (Dynamic Mapping)
      • 3.1.1 动态映射的三种模式
      • 3.1.2 动态映射示例
    • 3.2 静态映射(Explicit Mapping)
      • 静态映射示例
    • 3.3 对比
    • 3.4 最佳实践建议
  • 4.映射修改详解
    • 4.1 可以修改的内容
    • 4.2 不可修改的内容
    • 4.3 修改映射的解决方案
    • 4.4 案例:将字符串字段从 text 改为 keyword
      • 4.4.1 错误方式(直接修改会失败)
      • 4.4.2 正确方式(通过重建索引)
    • 4.5 注意事项
  • 5.注意事项

1.什么是映射(Mapping)

映射是 Elasticsearch 中定义文档及其包含字段如何存储和索引的过程。它相当于关系型数据库中的表结构定义,决定了:

  • 每个字段的数据类型
  • 字段是否被索引
  • 字段的索引方式
  • 字段的分析器设置
  • 字段的格式(如日期格式)

1.1 元字段(Meta-Fields)

元字段是 Elasticsearch 为每个文档自动创建的内部字段,用于管理文档的元数据。常见的元字段包括:

  • 标识元字段
    • _index:文档所属的索引
    • _id:文档的唯一 ID
  • 文档源元字段
    • _source:存储原始 JSON 文档
  • 索引元字段
    • _field_names:包含非空值的所有字段
  • 路由元字段
    • _routing:用于将给定文档路由到指定的分片。
  • 其他元字段
    • _meta:应用特定的元数据
    • _version:文档版本号

例如 Kibana 中自带的 sample_data_ecommerce 示例数据。

在这里插入图片描述

下面框出来的就是元字段信息。

在这里插入图片描述

1.2 数据类型 vs 映射类型

1.2.1 数据类型

指字段值的具体类型,如:

  • 核心类型:textkeywordlongintegershortbytedoublefloatbooleandate
  • 复杂类型:objectnested
  • 地理类型:geo_pointgeo_shape
  • 特殊类型:ipcompletiontoken_count

1.2.2 映射类型

在 Elasticsearch 7.0 之前,索引可以包含多个类型(类似于表),但 7.0 之后已弃用,每个索引现在只有一个隐式的 _doc 类型。

2.实际运用案例

案例 1:电商产品索引映射

PUT /products
{"mappings": {"properties": {"name": { "type": "text", "analyzer": "ik_max_word" },"price": { "type": "double" },"description": { "type": "text" },"category": { "type": "keyword" },"tags": { "type": "keyword" },"created_at": { "type": "date", "format": "yyyy-MM-dd HH:mm:ss" },"specs": { "type": "object" },"location": { "type": "geo_point" }}}
}

案例 2:动态模板设置

PUT /my_index
{"mappings": {"dynamic_templates": [{"strings_as_keywords": {"match_mapping_type": "string","mapping": {"type": "keyword"}}}]}
}

3.动态映射与静态映射详解

3.1 动态映射 (Dynamic Mapping)

动态映射是 Elasticsearch 自动检测和创建字段映射的能力。当索引一个新文档时,如果包含未定义的字段,Elasticsearch 会根据字段值自动推断数据类型并创建映射。

3.1.1 动态映射的三种模式

  • true(默认):自动添加新字段
  • false:忽略新字段(不索引但会存储在 _source 中)
  • strict:拒绝包含新字段的文档(抛出异常)

3.1.2 动态映射示例

# 创建索引时不定义映射(使用默认动态映射)
PUT /dynamic_index# 插入包含新字段的文档
POST /dynamic_index/_doc/1
{"name": "John Doe",  # 自动识别为text字段"age": 30,          # 自动识别为long"birth_date": "1990-01-01",  # 自动识别为date"is_active": true,   # 自动识别为boolean"salary": 5000.50,   # 自动识别为float"tags": ["tech", "sports"],  # 自动识别为text数组"address": {         # 自动识别为object"street": "123 Main St","city": "New York"}
}

查看自动生成的映射

GET /dynamic_index/_mapping# 返回结果示例:
{"dynamic_index": {"mappings": {"properties": {"address": {"properties": {"city": { "type": "text", "fields": { "keyword": { "type": "keyword" } } },"street": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }}},"age": { "type": "long" },"birth_date": { "type": "date" },"is_active": { "type": "boolean" },"name": { "type": "text", "fields": { "keyword": { "type": "keyword" } } },"salary": { "type": "float" },"tags": { "type": "text", "fields": { "keyword": { "type": "keyword" } } }}}}
}

3.2 静态映射(Explicit Mapping)

静态映射是手动预定义索引的字段结构和数据类型,在创建索引时明确指定每个字段的类型和属性。

静态映射示例

# 创建索引时明确定义映射
PUT /static_index
{"mappings": {"dynamic": "strict",  # 严格模式,禁止未定义的字段"properties": {"name": {"type": "text","analyzer": "standard","fields": {"keyword": { "type": "keyword" }}},"age": { "type": "integer" },"birth_date": {"type": "date","format": "yyyy-MM-dd||epoch_millis"},"is_active": { "type": "boolean" },"salary": { "type": "scaled_float", "scaling_factor": 100 },"tags": {"type": "keyword"},"address": {"type": "object","properties": {"street": { "type": "keyword" },"city": { "type": "keyword" },"coordinates": { "type": "geo_point" }}},"comments": {"type": "nested","properties": {"user": { "type": "keyword" },"message": { "type": "text" },"rating": { "type": "byte" }}}}}
}

尝试插入未定义字段的文档

POST /static_index/_doc/1
{"name": "Jane Smith","age": 28,"new_field": "test"  # 将抛出异常,因为dynamic=strict
}# 错误响应:
{"error": {"root_cause": [{"type": "strict_dynamic_mapping_exception","reason": "mapping set to strict, dynamic introduction of [new_field] within [_doc] is not allowed"}]},"status": 400
}

3.3 对比

特性动态映射静态映射
字段创建方式自动推断手动预定义
灵活性
可控性
适合场景开发初期、数据结构不确定生产环境、数据结构稳定
性能影响可能产生不理想的映射可优化映射提升性能
维护成本低(初期)高(后期整理)高(前期)低(后期)
数据一致性可能不一致高度一致

3.4 最佳实践建议

  • 开发阶段:可以使用动态映射快速原型开发。

    PUT /dev_index
    {"mappings": {"dynamic": true}
    }
    
  • 过渡阶段:使用动态模板(dynamic templates)控制自动映射。

    PUT /transition_index
    {"mappings": {"dynamic_templates": [{"strings_as_keywords": {"match_mapping_type": "string","mapping": {"type": "keyword"}}}]}
    }
    
  • 生产环境:推荐使用静态映射。

    PUT /prod_index
    {"mappings": {"dynamic": "strict","properties": {// 明确定义所有字段}}
    }
    
  • 混合使用:可以结合两者优势。

    PUT /hybrid_index
    {"mappings": {"dynamic": "false",  # 不自动索引新字段,但存储在_source"properties": {// 明确定义已知字段}}
    }
    

通过合理选择映射策略,可以在灵活性和可控性之间取得平衡,为不同阶段的业务需求提供最合适的解决方案。

4.映射修改详解

在 Elasticsearch 中,映射创建后是可以修改的,但有重要的限制和注意事项。

4.1 可以修改的内容

  • 添加新字段:任何时候都可以向现有映射添加新字段。

    PUT /my_index/_mapping
    {"properties": {"new_field": { "type": "text" }}
    }
    
  • 修改某些字段属性

    • 可以更新 fields 多字段设置
    • 可以修改 analyzersearch_analyzer 等分析相关设置
    • 可以修改 ignore_above(keyword 字段)
    • 可以修改 null_value 设置
  • 动态映射规则:可以更新动态模板(dynamic templates)

4.2 不可修改的内容

  • 字段数据类型:不能更改已有字段的数据类型。
    • 例如:不能将 text 改为 keyword,不能将 long 改为 integer
  • 已索引的字段:不能更改已索引字段的基本结构。
    • 例如:不能将单字段改为多字段。
  • 字段名称:不能直接重命名字段。

4.3 修改映射的解决方案

当需要做不允许的修改时,可以考虑以下方案:

  • 重建索引(Reindex)

    • 创建新索引,定义新映射。
    • 使用 Reindex API 将数据从旧索引复制到新索引。
    • 示例:
      POST _reindex
      {"source": { "index": "old_index" },"dest": { "index": "new_index" }
      }
      
  • 使用别名(Alias)

    • 创建指向新索引的别名。
    • 无缝切换应用查询到新索引。
    • 示例:
      POST _aliases
      {"actions": [{ "remove": { "index": "old_index", "alias": "my_alias" } },{ "add": { "index": "new_index", "alias": "my_alias" } }]
      }
      
  • 多字段(Multi-fields)

    • 为字段添加不同数据类型的多字段版本。
    • 示例:
      PUT /my_index/_mapping
      {"properties": {"my_field": {"type": "text","fields": {"keyword": { "type": "keyword" }}}}
      }
      

4.4 案例:将字符串字段从 text 改为 keyword

4.4.1 错误方式(直接修改会失败)

PUT /my_index/_mapping
{"properties": {"category": { "type": "keyword" }  // 如果原先是text,这会报错}
}

4.4.2 正确方式(通过重建索引)

// 1. 创建新索引
PUT /my_index_v2
{"mappings": {"properties": {"category": { "type": "keyword" }}}
}// 2. 重新索引数据
POST _reindex
{"source": { "index": "my_index" },"dest": { "index": "my_index_v2" }
}// 3. 切换别名
POST _aliases
{"actions": [{ "remove": { "index": "my_index", "alias": "products" } },{ "add": { "index": "my_index_v2", "alias": "products" } }]
}

4.5 注意事项

  • 生产环境谨慎操作:映射更改可能影响现有查询和应用程序。
  • 停机时间考虑:重建大索引可能需要时间,规划好维护窗口。
  • 版本兼容性:Elasticsearch 不同版本对映射修改的支持可能不同。
  • 监控影响:修改后监控集群性能和查询结果。
  • 备份数据:重大映射修改前建议备份重要数据。
  • 测试环境验证:先在测试环境验证映射修改的效果。

通过合理规划映射修改策略,可以在最小化影响的情况下实现索引结构的演进。

5.注意事项

  • 提前规划映射:生产环境中应预先定义好映射,避免依赖动态映射
  • 避免映射爆炸
    • 设置 index.mapping.total_fields.limit(默认 1000)
    • 使用 dynamic: falsedynamic: strict 控制动态字段
  • 合理选择数据类型
    • 需要全文搜索用 text,需要精确匹配/聚合用 keyword
    • 数值类型选择最合适的范围(如能用 integer 就不用 long
  • 元字段使用
    • 不要修改 _source 字段,它是文档的原始 JSON
    • 使用 _routing 优化查询性能
  • 映射更新限制
    • 已有字段的映射类型不能更改
    • 只能添加新字段或修改某些参数(如增加字段的 fields
  • 性能考虑
    • 避免过多的嵌套对象
    • 对于不搜索的字段设置 "index": false
  • 版本兼容性
    • Elasticsearch 7.x 及以后版本已移除映射类型概念
    • 升级时要注意 API 变化

通过合理设计映射,可以显著提高 Elasticsearch 的查询性能和存储效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.pswp.cn/news/908741.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

serv00 ssh登录保活脚本-邮件通知版

适用于自己有服务器情况,ssh定时登录到serv00,并在登录成功后发送邮件通知 msmtp 和 mutt安装 需要安装msmtp 和 mutt这两个邮件客户端并配置,参考如下文章前几步是讲配置这俩客户端的,很简单,不再赘述 用Shell脚本实…

前端 Electron 桌面应用学习笔记

前端 Electron 桌面应用学习笔记 介绍Electron是什么?为什么选择Electron?创建你的第一个桌面应用程序启动项目运行结果截图打开调试面板方法生命周期函数常用配置配置窗口标题配置小图标隐藏菜单栏关闭调试面板是否可以使用Node.js隐藏 Electron 标题、小图标和菜单栏获取窗…

LeetCode - 94. 二叉树的中序遍历

题目 94. 二叉树的中序遍历 - 力扣(LeetCode) 什么是中序遍历 二叉树的中序遍历是按照"左-根-右"的顺序访问二叉树中的所有节点。 具体过程: 先遍历左子树(递归)然后访问根节点最后遍历右子树&#xff…

PyTorch——搭建小实战和Sequential的使用(7)

import torch from torch import nn from torch.nn import Conv2d, MaxPool2d, Flatten, Linearclass TY(nn.Module):def __init__(self):"""初始化TY卷积神经网络模型模型结构:3层卷积池化,2层全连接设计目标:处理32x32像素的…

C#、VB.net——如何设置窗体应用程序的外边框不可拉伸

以Visual studio 2015为例,具体操作如下: 1、将窗体的“FormBorderStyle”属性值修改为“FixedSingle”: 2、点击“格式”——“锁定控件”: 这样生成的程序边框即可固定住,无法拉伸。

深入了解NIO的优化实现原理

网络 I/O 模型优化 网络通信中,最底层的就是内核中的网络 I/O 模型了。随着技术的发展,操作系统内核的网络模型衍生出了五种 I/O 模型,《UNIX 网络编程》一书将这五种 I/O 模型分为阻塞式 I/O、非阻塞式 I/O、I/O 复用、信号驱动式 I/O 和异步…

【前端】vue3性能优化方案

以下是Vue 3性能优化的系统性方案,结合核心优化策略与实用技巧,覆盖渲染、响应式、加载、代码等多个维度: ⚙️ 一、渲染优化 精准控制渲染范围 v-if vs v-show: v-if:条件为假时销毁DOM,适合低频切换场景&…

在MATLAB中使用自定义的ROS2消息

简明结论: 无论ROS2节点和MATLAB运行在哪,MATLAB本机都必须拥有自定义消息源码并本地用ros2genmsg生成,才能在Simulink里订阅这些消息。只要你想让MATLAB或Simulink能识别自定义消息,必须把消息包源码(.msg等)拷到本机指定目录&a…

spring重试机制

数据库死锁处理与重试机制实现指南 1. 业务场景 1.1 问题现象 高并发批量数据处理时频繁出现数据库死锁主要发生在"先删除历史数据,再重新计算"的业务流程中原有逐条处理方式:list.forEach(item -> { delete(); calculate(); }) 1.2 死…

QEMU源码全解析 —— 块设备虚拟化(24)

接前一篇文章:QEMU源码全解析 —— 块设备虚拟化(23) 本文内容参考: 《趣谈Linux操作系统》 —— 刘超,极客时间 《QEMU/KVM源码解析与应用》 —— 李强,机械工业出版社 特此致谢! QEMU写入一个文件的完整过程 前边用了十来篇文章的篇幅,解析了QEMU启动过程中的存储…

java中static学习笔记

较重要知识点 static修饰的变量是共享的在类加载时创建可以不通过实例来访问静态方法只能访问静态的成员和方法;而非静态的可以访问静态的和非静态的。静态方法一般用在通用的方法,这样方便调用,不然一个通用的方法每一次调用都要创建实例&a…

快刀集(1): 一刀斩断视频片头广告

一刀流:用一个简单脚本,秒杀视频片头广告,还你清爽观影体验。 1. 引子 作为一个爱生活、爱学习、爱收藏高清资源的老码农,平时写代码之余看看电影、补补片,是再正常不过的事。 电影嘛,要沉浸,…

spring中的@KafkaListener 注解详解

KafkaListener 是 Spring Kafka 提供的一个核心注解,用于标记一个方法作为 Kafka 消息的消费者。下面是对该注解的详细解析: 基本用法 KafkaListener(topics "myTopic", groupId "myGroup") public void listen(String message)…

多区域协同的异地多活AI推理服务架构

🌐多区域协同的异地多活AI推理服务架构 #mermaid-svg-TTnpRKKC7k3twxhE {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-TTnpRKKC7k3twxhE .error-icon{fill:#552222;}#mermaid-svg-TTnpRKKC7k3twxhE .er…

极客时间:在 Google Colab 上尝试 Prefix Tuning

每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领…

Android设备推送traceroute命令进行网络诊断

文章目录 工作原理下载traceroute for android推送到安卓设备执行traceroutetraceroute www.baidu.com Traceroute(追踪路由) 是一个用于网络诊断的工具,主要用于追踪数据包从源主机到目标主机所经过的路由路径,以及每一跳&#x…

【Linux应用】Linux系统日志上报服务,以及thttpd的配置、发送函数

【Linux应用】Linux系统日志上报服务,以及thttpd的配置、发送函数 文章目录 thttpd服务安装thttpd配置thttpd服务thttpd函数日志效果和文件附录:开发板快速上手:镜像烧录、串口shell、外设挂载、WiFi配置、SSH连接、文件交互(RADX…

Linux 内核内存管理子系统全面解析与体系构建

一、前言: 为什么内存管理是核心知识 内存管理是 Linux 内核最核心也最复杂的子系统之一,其作用包括: 为软件提供独立的虚拟内存空间,实现安全隔离分配/回收物理内存资源,维持系统稳定支持不同类型的内存分配器,最优…

鼠标的拖动效果

1、变量的设置 let isDragging false; let startX; let startY; let endX; let endY; let box null;isDragging : 表示是否推拽startX、startY:表示起始坐标,相对于元素endX、endY:表示结束坐标,相对于元素box&…

SwaggerFuzzer:一款自动化 OpenAPI/Swagger 接口未授权访问测试工具

SwaggerFuzzer 🌐 一款自动化 OpenAPI/Swagger 接口未授权访问测试工具🚀 工具介绍:SwaggerFuzzer✨ 核心功能亮点🚀 快速使用🧰 支持参数 📌 项目结构📥 获取与下载 🌐 一款自动化 …