hashmap的底层实现
JDK1.8之前HashMap
JDK1.8之前HashMap底层是数组和链表结合在一起使用也就是链表散列.
HashMap通过key的hashcode经过扰动函数处理得到hash值,然后通过
(n-1)&hash
判断当前元素存放的位置(n指数组长度),如果当前位置存在元素的话,就判断该元素与要存入的元素的hash值以及key是否相同,如果相同的话,直接覆盖,不相同就通过拉链法解决冲突。
所谓扰动函数指的就是 HashMap 的 hash 方法。
使用 hash 方法也就是扰动函数是为了防止一些实现比较差的 hashCode() 方法 换句话说使用扰动函数之后可以减少碰撞
hash算法优化
JDK1.7的 HashMap 的 hash 方法
static int hash(int h) { // This function ensures that hashCodes that differ only by // constant multiples at each bit position have a bounded // number of collisions (approximately 8 at default load factor). h ^= (h >>> 20) ^ (h >>> 12); return h ^ (h >>> 7) ^ (h >>> 4); }
JDK 1.8 HashMap 的 hash 方法
static final int hash(Object key) { int h; // key.hashCode():返回散列值也就是hashcode // ^ :按位异或 // >>>:无符号右移,忽略符号位,空位都以0补齐 return (key == null) ? 0 : (h = key.hashCode()) ^ (h >>> 16);
对每个hash值,在他的低16位中,让高低16位进行了异或,让他的低16位同时保持了高低16位的特征,尽量避免一些hash值后续出现冲突
HashMap 的长度为什么是2的幂次方
寻址算法优化
- 为了能让 HashMap 存取高效,尽量较少碰撞,减少hash冲突,也就是要尽量把数据分配均匀。
Hash 值的范围值-2147483648到2147483647,前后加起来大概40亿的映射空间,只要哈希函数映射得比较均匀松散,一般应用是很难出现碰撞的。
但问题是一个40亿长度的数组,内存是放不下的。所以这个散列值是不能直接拿来用的。用之前还要先做对数组的长度取模运算,得到的余数才能用来要存放的位置也就是对应的数组下标。
- 与运算效率比取模运算效率高
这也就解释了 HashMap 的长度为什么是2的幂次方。这个算法应该如何设计呢?我们首先可能会想到采用%取余的操作来实现。
但是,重点来了:取余(%)操作中如果除数是2的幂次则等价于与其除数减一的与(&)操作,也就是说 hash%length==hash&(length-1)的前提是 length 是2的 n 次方。并且 采用二进制位操作 &,相对于%能够提高运算效率.
hash冲突解决方式
8之前拉链法
所谓 拉链法 就是:将链表和数组相结合。也就是说创建一个链表数组,数组中每一格就是一个链表。若遇到哈希冲突,则将冲突的值加到链表中即可。
JDK1.8之后 红黑树
相比于之前的版本, JDK1.8之后在解决哈希冲突时有了较大的变化,当链表长度大于阈值(默认为8)时,将链表转化为红黑树,以减少搜索时间TreeMap、TreeSet以及JDK1.8之后的HashMap底层都用到了红黑树。红黑树就是为了解决二叉查找树的缺陷,因为二叉查找树在某些情况下会退化成一个线性结构。
负载因子是0.75的原因
可以看到当用 0.75 作为加载因子时,桶中元素到达 8 个的时候,概率已经变得非常小,因此每个位置的链表长度超过 8 个是几乎不可能的,因此在链表节点到达 8 时才开始转化为红黑树。
加载因子是0.75,决定了桶中元素到达 8 个的时候概率很小,进而转为红黑树;而不是到达 8 个的时候概率很小所以加载因子是0.75
* rarely used. Ideally, under random hashCodes, the frequency of * nodes in bins follows a Poisson distribution * (http://en.wikipedia.org/wiki/Poisson_distribution) with a * parameter of about 0.5 on average for the default resizing * threshold of 0.75, although with a large variance because of * resizing granularity. Ignoring variance, the expected * occurrences of list size k are (exp(-0.5) * pow(0.5, k) / * factorial(k)). The first values are: * * 0: 0.60653066 * 1: 0.30326533 * 2: 0.07581633 * 3: 0.01263606 * 4: 0.00157952 * 5: 0.00015795 * 6: 0.00001316 * 7: 0.00000094 * 8: 0.00000006 * more: less than 1 in ten million
根据源码解释: 泊松分布显示当负载因子为0.75 8的时候 发生的概率比较小比7小的多和8之后每那么大数量级的区别
6是防止链表长度在8左右来回变化导致树和链表的频繁转。
HashMap 和 Hashtable 的区别
- 线程是否安全: HashMap 是非线程安全的,HashTable 是线程安全的;HashTable 内部的方法基本都经过 synchronized 修饰。(如果你要保证线程安全的话就使用 ConcurrentHashMap 吧!);
- 效率: 因为线程安全的问题,HashMap 要比 HashTable 效率高一点。另外,HashTable 基本被淘汰,不要在代码中使用它;
- 对Null key 和Null value的支持: HashMap 中,null 可以作为键,这样的键只有一个,可以有一个或多个键所对应的值为 null。。但是在 HashTable 中 put 进的键值只要有一个 null,直接抛出 NullPointerException。
- 初始容量大小和每次扩充容量大小的不同 : ①创建时如果不指定容量初始值,Hashtable 默认的初始大小为11,之后每次扩充,容量变为原来的2n+1。HashMap 默认的初始化大小为16。之后每次扩充,容量变为原来的2倍。②创建时如果给定了容量初始值,那么 Hashtable 会直接使用你给定的大小,而 HashMap 会将其扩充为2的幂次方大小(HashMap 中的tableSizeFor()方法保证,下面给出了源代码)。也就是说 HashMap 总是使用2的幂作为哈希表的大小,后面会介绍到为什么是2的幂次方。
- 底层数据结构: JDK1.8 以后的 HashMap 在解决哈希冲突时有了较大的变化,当链表长度大于阈值(默认为8)时,将链表转化为红黑树,以减少搜索时间。Hashtable 没有这样的机制。
HashMap的扩容机制
核心属性
- transient int size
记录了Map中KV对的个数
- loadFactor
装载印子,用来衡量HashMap满的程度。loadFactor的默认值为0.75f(static final float DEFAULT_LOAD_FACTOR = 0.75f;)。
- int threshold
临界值,当实际KV个数超过threshold时,HashMap会将容量扩容,threshold=容量*加载因子
- 除了以上这些重要成员变量外,HashMap中还有一个和他们紧密相关的概念:capacity
容量,如果不指定,默认容量是16(static final int DEFAULT_INITIAL_CAPACITY = 1 << 4;)
- static final int TREEIFY_THRESHOLD = 8;
这是JDK1.8在底层做的一个优化,当一个Entry(Node)挂载的节点超过8个,就会将当前Entry的链表结构转化为红黑树的数据结构
- transient Node<K,V>[] table;//hash表
- static class Node<K,V> implements Map.Entry<K,V>
是hash表中,Entry的节点,该类有四个属性
final int hash; final K key; V value; Node<K,V> next;
//指向下个节点的指针 HashMap中size表示当前共有多少个KV对,capacity表示当前HashMap的容量是多少,默认值是16,每次扩容都是成倍的。loadFactor是装载因子,当Map中元素个数超过loadFactor* capacity的值时,会触发扩容。loadFactor* capacity可以用threshold表示。
扩容时机
- hashmap的无参初始化
HashMap使用的是懒加载,构造完HashMap对象后,只要不进行put 方法插入元素之前,HashMap并不会去初始化或者扩容table:
- size>=阈值=loadFactor* capacity
且新建的Entry刚好落在一个非空的桶上,此刻触发扩容机制,将其容量扩大为2倍。当size大于等于threshold的时候,并不一定会触发扩容机制,但是会很可能就触发扩容机制,只要有一个新建的Entry出现哈希冲突,则立刻resize
扩容过程
- 新建一个长度为原来2倍的数组
- transfer()方法将原有Entry数组的元素拷贝到新的Entry数组里。
会重新计算每个元素在数组中的位置(indexFor)这个过程也叫作rehash总结:
在对 HashMap 进行扩容时,阀值会变为原来的两倍;
在对HashMap进行扩容的时候,HashMap的容量会变为原来的两倍;扩容是一个特别耗性能的操作,所以当程序员在使用HashMap的时候,估算map的大小,初始化的时候给一个大致的数值,避免map进行频繁的扩容。
负载因子是可以修改的,也可以大于1,但是建议不要轻易修改,除非情况非常特殊。
hashmap的线程安全问题
HashMap 在并发执行 put 操作时(扩容)会引起死循环,导致 CPU 利用率接近100%。
因为多线程会导致 HashMap 的 Node 链表形成环形数据结构,一旦形成环形数据结构,Node 的 next 节点永远不为空,就会在获取 Node 时产生死循环。(1.8之前)
JDK1.8之前的循环死链
JDK 7 HashMap 并发死链如何线程安全的使用HashMap
Hashtable
Hashtable源码中是使用 synchronized 来保证线程安全的,比如下面的 get 方法和 put 方法:
public synchronized V get(Object key) { // 省略实现 } public synchronized V put(K key, V value) { // 省略实现 }
所以当一个线程访问 HashTable 的同步方法时,其他线程如果也要访问同步方法,会被阻塞住。举个例子,当一个线程使用 put 方法时,另一个线程不但不可以使用 put 方法,连 get 方法都不可以,效率很低,现在基本不会选择它了。
Collections.synchronizedMap()
从源码中可以看出调用 synchronizedMap() 方法后会返回一个 SynchronizedMap 类的对象,而在 SynchronizedMap 类中使用了 synchronized 同步关键字来保证对 Map 的操作是线程安全的。
ConcurrentHashMap
JDK1.7首先将数据分为一段一段的存储,然后给每一段数据配一把锁,当一个线程占用锁访问其中一个段数据时,其他段的数据也能被其他线程访问。ConcurrentHashMap 是由 Segment 数组结构和 HashEntry 数组结构组成。Segment 实现了 ReentrantLock,所以 Segment 是一种可重入锁,扮演锁的角色。
HashEntry 用于存储键值对数据。static class Segment<K,V> extends ReentrantLock implements Serializable {}一个 ConcurrentHashMap 里包含一个 Segment 数组。Segment 的结构和HashMap类似,是一种数组和链表结构,一个 Segment 包含一个 HashEntry 数组,每个 HashEntry 是一个链表结构的元素,每个 Segment 守护着一个HashEntry数组里的元素,当对 HashEntry 数组的数据进行修改时,必须首先获得对应的 Segment的锁。
JDK1.8 ConcurrentHashMap取消了Segment分段锁,采用CAS和synchronized来保证并发安全。
数据结构跟HashMap1.8的结构类似,数组+链表/红黑二叉树。synchronized只锁定当前链表或红黑二叉树的首节点,这样只要hash不冲突,就不会产生并发,效率又提升N倍