linux/mm/page_alloc.c

13  *  Zone balancing, Kanoj Sarcar, SGI, Jan 2000
79  * shuffle the whole zone).
88 /* prevent >1 _updater_ of zone percpu pageset ->high and ->batch fields */
292 /* movable_zone is the "real" zone pages in ZONE_MOVABLE are taken from */
305 static bool cond_accept_memory(struct zone *zone, unsigned int order);
331 _deferred_grow_zone(struct zone *zone, unsigned int order)  in _deferred_grow_zone()  argument
333        return deferred_grow_zone(zone, order);  in _deferred_grow_zone()
441 static int page_outside_zone_boundaries(struct zone *zone, struct page *page)  in page_outside_zone_boundaries()  argument
449 		seq = zone_span_seqbegin(zone);  in page_outside_zone_boundaries()
450 		start_pfn = zone->zone_start_pfn;  in page_outside_zone_boundaries()
451 		sp = zone->spanned_pages;  in page_outside_zone_boundaries()
452 		ret = !zone_spans_pfn(zone, pfn);  in page_outside_zone_boundaries()
453 	} while (zone_span_seqretry(zone, seq));  in page_outside_zone_boundaries()
456 		pr_err("page 0x%lx outside node %d zone %s [ 0x%lx - 0x%lx ]\n",  in page_outside_zone_boundaries()
457 			pfn, zone_to_nid(zone), zone->name,  in page_outside_zone_boundaries()
464  * Temporary debugging check for pages not lying within a given zone.
466 static int __maybe_unused bad_range(struct zone *zone, struct page *page)  in bad_range()  argument
468 	if (page_outside_zone_boundaries(zone, page))  in bad_range()
470 	if (zone != page_zone(page))  in bad_range()
476 static inline int __maybe_unused bad_range(struct zone *zone, struct page *page)  in bad_range()  argument
615 static inline struct capture_control *task_capc(struct zone *zone)  in task_capc()  argument
622 		capc->cc->zone == zone ? capc : NULL;  in task_capc()
651 static inline struct capture_control *task_capc(struct zone *zone)  in task_capc()  argument
665 static inline void add_to_free_list(struct page *page, struct zone *zone,  in add_to_free_list()  argument
668 	struct free_area *area = &zone->free_area[order];  in add_to_free_list()
675 static inline void add_to_free_list_tail(struct page *page, struct zone *zone,  in add_to_free_list_tail()  argument
678 	struct free_area *area = &zone->free_area[order];  in add_to_free_list_tail()
689 static inline void move_to_free_list(struct page *page, struct zone *zone,  in move_to_free_list()  argument
692 	struct free_area *area = &zone->free_area[order];  in move_to_free_list()
697 static inline void del_page_from_free_list(struct page *page, struct zone *zone,  in del_page_from_free_list()  argument
707 	zone->free_area[order].nr_free--;  in del_page_from_free_list()
768 		struct zone *zone, unsigned int order,  in __free_one_page()  argument
771 	struct capture_control *capc = task_capc(zone);  in __free_one_page()
777 	VM_BUG_ON(!zone_is_initialized(zone));  in __free_one_page()
782 		__mod_zone_freepage_state(zone, 1 << order, migratetype);  in __free_one_page()
785 	VM_BUG_ON_PAGE(bad_range(zone, page), page);  in __free_one_page()
789 			__mod_zone_freepage_state(zone, -(1 << order),  in __free_one_page()
818 			clear_page_guard(zone, buddy, order, migratetype);  in __free_one_page()
820 			del_page_from_free_list(buddy, zone, order);  in __free_one_page()
838 		add_to_free_list_tail(page, zone, order, migratetype);  in __free_one_page()
840 		add_to_free_list(page, zone, order, migratetype);  in __free_one_page()
863 	struct zone *zone = page_zone(free_page);  in split_free_page()  local
874 	spin_lock_irqsave(&zone->lock, flags);  in split_free_page()
883 		__mod_zone_freepage_state(zone, -(1UL << order), mt);  in split_free_page()
885 	del_page_from_free_list(free_page, zone, order);  in split_free_page()
893 		__free_one_page(pfn_to_page(pfn), pfn, zone, free_page_order,  in split_free_page()
902 	spin_unlock_irqrestore(&zone->lock, flags);  in split_free_page()
1199  * Assumes all pages on list are in same zone.
1202 static void free_pcppages_bulk(struct zone *zone, int count,  in free_pcppages_bulk()  argument
1220 	spin_lock_irqsave(&zone->lock, flags);  in free_pcppages_bulk()
1221 	isolated_pageblocks = has_isolate_pageblock(zone);  in free_pcppages_bulk()
1253 			__free_one_page(page, page_to_pfn(page), zone, order, mt, FPI_NONE);  in free_pcppages_bulk()
1258 	spin_unlock_irqrestore(&zone->lock, flags);  in free_pcppages_bulk()
1261 static void free_one_page(struct zone *zone,  in free_one_page()  argument
1268 	spin_lock_irqsave(&zone->lock, flags);  in free_one_page()
1269 	if (unlikely(has_isolate_pageblock(zone) ||  in free_one_page()
1273 	__free_one_page(page, pfn, zone, order, migratetype, fpi_flags);  in free_one_page()
1274 	spin_unlock_irqrestore(&zone->lock, flags);  in free_one_page()
1283 	struct zone *zone = page_zone(page);  in __free_pages_ok()  local
1295 	spin_lock_irqsave(&zone->lock, flags);  in __free_pages_ok()
1296 	if (unlikely(has_isolate_pageblock(zone) ||  in __free_pages_ok()
1300 	__free_one_page(page, pfn, zone, order, migratetype, fpi_flags);  in __free_pages_ok()
1301 	spin_unlock_irqrestore(&zone->lock, flags);  in __free_pages_ok()
1344  * [start_pfn, end_pfn) is valid and within the same zone, before scanning it
1351  * belong to a single zone. We assume that a border between node0 and node1
1367 				     unsigned long end_pfn, struct zone *zone)  in __pageblock_pfn_to_page()  argument
1382 	if (page_zone(start_page) != zone)  in __pageblock_pfn_to_page()
1408 static inline void expand(struct zone *zone, struct page *page,  in expand()  argument
1416 		VM_BUG_ON_PAGE(bad_range(zone, &page[size]), &page[size]);  in expand()
1424 		if (set_page_guard(zone, &page[size], high, migratetype))  in expand()
1427 		add_to_free_list(&page[size], zone, high, migratetype);  in expand()
1584 struct page *__rmqueue_smallest(struct zone *zone, unsigned int order,  in __rmqueue_smallest()  argument
1593 		area = &(zone->free_area[current_order]);  in __rmqueue_smallest()
1597 		del_page_from_free_list(page, zone, current_order);  in __rmqueue_smallest()
1598 		expand(zone, page, order, current_order, migratetype);  in __rmqueue_smallest()
1623 static __always_inline struct page *__rmqueue_cma_fallback(struct zone *zone,  in __rmqueue_cma_fallback()  argument
1626 	return __rmqueue_smallest(zone, order, MIGRATE_CMA);  in __rmqueue_cma_fallback()
1629 static inline struct page *__rmqueue_cma_fallback(struct zone *zone,  in __rmqueue_cma_fallback()  argument
1638 static int move_freepages(struct zone *zone,  in move_freepages()  argument
1663 		VM_BUG_ON_PAGE(page_to_nid(page) != zone_to_nid(zone), page);  in move_freepages()
1664 		VM_BUG_ON_PAGE(page_zone(page) != zone, page);  in move_freepages()
1667 		move_to_free_list(page, zone, order, migratetype);  in move_freepages()
1675 int move_freepages_block(struct zone *zone, struct page *page,  in move_freepages_block()  argument
1687 	/* Do not cross zone boundaries */  in move_freepages_block()
1688 	if (!zone_spans_pfn(zone, start_pfn))  in move_freepages_block()
1690 	if (!zone_spans_pfn(zone, end_pfn))  in move_freepages_block()
1693 	return move_freepages(zone, start_pfn, end_pfn, migratetype,  in move_freepages_block()
1741 static inline bool boost_watermark(struct zone *zone)  in boost_watermark()  argument
1753 	if ((pageblock_nr_pages * 4) > zone_managed_pages(zone))  in boost_watermark()
1756 	max_boost = mult_frac(zone->_watermark[WMARK_HIGH],  in boost_watermark()
1772 	zone->watermark_boost = min(zone->watermark_boost + pageblock_nr_pages,  in boost_watermark()
1786 static void steal_suitable_fallback(struct zone *zone, struct page *page,  in steal_suitable_fallback()  argument
1813 	if (boost_watermark(zone) && (alloc_flags & ALLOC_KSWAPD))  in steal_suitable_fallback()
1814 		set_bit(ZONE_BOOSTED_WATERMARK, &zone->flags);  in steal_suitable_fallback()
1820 	free_pages = move_freepages_block(zone, page, start_type,  in steal_suitable_fallback()
1822 	/* moving whole block can fail due to zone boundary conditions */  in steal_suitable_fallback()
1858 	move_to_free_list(page, zone, current_order, start_type);  in steal_suitable_fallback()
1899 static void reserve_highatomic_pageblock(struct page *page, struct zone *zone)  in reserve_highatomic_pageblock()  argument
1905 	 * Limit the number reserved to 1 pageblock or roughly 1% of a zone.  in reserve_highatomic_pageblock()
1908 	max_managed = (zone_managed_pages(zone) / 100) + pageblock_nr_pages;  in reserve_highatomic_pageblock()
1909 	if (zone->nr_reserved_highatomic >= max_managed)  in reserve_highatomic_pageblock()
1912 	spin_lock_irqsave(&zone->lock, flags);  in reserve_highatomic_pageblock()
1915 	if (zone->nr_reserved_highatomic >= max_managed)  in reserve_highatomic_pageblock()
1922 		zone->nr_reserved_highatomic += pageblock_nr_pages;  in reserve_highatomic_pageblock()
1924 		move_freepages_block(zone, page, MIGRATE_HIGHATOMIC, NULL);  in reserve_highatomic_pageblock()
1928 	spin_unlock_irqrestore(&zone->lock, flags);  in reserve_highatomic_pageblock()
1946 	struct zone *zone;  in unreserve_highatomic_pageblock()  local
1951 	for_each_zone_zonelist_nodemask(zone, z, zonelist, ac->highest_zoneidx,  in unreserve_highatomic_pageblock()
1957 		if (!force && zone->nr_reserved_highatomic <=  in unreserve_highatomic_pageblock()
1961 		spin_lock_irqsave(&zone->lock, flags);  in unreserve_highatomic_pageblock()
1963 			struct free_area *area = &(zone->free_area[order]);  in unreserve_highatomic_pageblock()
1984 				zone->nr_reserved_highatomic -= min(  in unreserve_highatomic_pageblock()
1986 						zone->nr_reserved_highatomic);  in unreserve_highatomic_pageblock()
1999 			ret = move_freepages_block(zone, page, ac->migratetype,  in unreserve_highatomic_pageblock()
2002 				spin_unlock_irqrestore(&zone->lock, flags);  in unreserve_highatomic_pageblock()
2006 		spin_unlock_irqrestore(&zone->lock, flags);  in unreserve_highatomic_pageblock()
2023 __rmqueue_fallback(struct zone *zone, int order, int start_migratetype,  in __rmqueue_fallback()  argument
2048 		area = &(zone->free_area[current_order]);  in __rmqueue_fallback()
2073 		area = &(zone->free_area[current_order]);  in __rmqueue_fallback()
2089 	steal_suitable_fallback(zone, page, alloc_flags, start_migratetype,  in __rmqueue_fallback()
2101  * Call me with the zone->lock already held.
2104 __rmqueue(struct zone *zone, unsigned int order, int migratetype,  in __rmqueue()  argument
2112 		 * allocating from CMA when over half of the zone's free memory  in __rmqueue()
2116 		    zone_page_state(zone, NR_FREE_CMA_PAGES) >  in __rmqueue()
2117 		    zone_page_state(zone, NR_FREE_PAGES) / 2) {  in __rmqueue()
2118 			page = __rmqueue_cma_fallback(zone, order);  in __rmqueue()
2124 	page = __rmqueue_smallest(zone, order, migratetype);  in __rmqueue()
2127 			page = __rmqueue_cma_fallback(zone, order);  in __rmqueue()
2129 		if (!page && __rmqueue_fallback(zone, order, migratetype,  in __rmqueue()
2141 static int rmqueue_bulk(struct zone *zone, unsigned int order,  in rmqueue_bulk()  argument
2148 	spin_lock_irqsave(&zone->lock, flags);  in rmqueue_bulk()
2150 		struct page *page = __rmqueue(zone, order, migratetype,  in rmqueue_bulk()
2167 			__mod_zone_page_state(zone, NR_FREE_CMA_PAGES,  in rmqueue_bulk()
2171 	__mod_zone_page_state(zone, NR_FREE_PAGES, -(i << order));  in rmqueue_bulk()
2172 	spin_unlock_irqrestore(&zone->lock, flags);  in rmqueue_bulk()
2183 void drain_zone_pages(struct zone *zone, struct per_cpu_pages *pcp)  in drain_zone_pages()  argument
2191 		free_pcppages_bulk(zone, to_drain, pcp, 0);  in drain_zone_pages()
2198  * Drain pcplists of the indicated processor and zone.
2200 static void drain_pages_zone(unsigned int cpu, struct zone *zone)  in drain_pages_zone()  argument
2202 	struct per_cpu_pages *pcp = per_cpu_ptr(zone->per_cpu_pageset, cpu);  in drain_pages_zone()
2212 			free_pcppages_bulk(zone, to_drain, pcp, 0);  in drain_pages_zone()
2224 	struct zone *zone;  in drain_pages()  local
2226 	for_each_populated_zone(zone) {  in drain_pages()
2227 		drain_pages_zone(cpu, zone);  in drain_pages()
2234 void drain_local_pages(struct zone *zone)  in drain_local_pages()  argument
2238 	if (zone)  in drain_local_pages()
2239 		drain_pages_zone(cpu, zone);  in drain_local_pages()
2254 static void __drain_all_pages(struct zone *zone, bool force_all_cpus)  in __drain_all_pages()  argument
2266 	 * a zone. Such callers are primarily CMA and memory hotplug and need  in __drain_all_pages()
2270 		if (!zone)  in __drain_all_pages()
2283 		struct zone *z;  in __drain_all_pages()
2292 		} else if (zone) {  in __drain_all_pages()
2293 			pcp = per_cpu_ptr(zone->per_cpu_pageset, cpu);  in __drain_all_pages()
2313 		if (zone)  in __drain_all_pages()
2314 			drain_pages_zone(cpu, zone);  in __drain_all_pages()
2325  * When zone parameter is non-NULL, spill just the single zone's pages.
2327 void drain_all_pages(struct zone *zone)  in drain_all_pages()  argument
2329 	__drain_all_pages(zone, false);  in drain_all_pages()
2374 static int nr_pcp_high(struct per_cpu_pages *pcp, struct zone *zone,  in nr_pcp_high()  argument
2382 	if (!test_bit(ZONE_RECLAIM_ACTIVE, &zone->flags))  in nr_pcp_high()
2392 static void free_unref_page_commit(struct zone *zone, struct per_cpu_pages *pcp,  in free_unref_page_commit()  argument
2413 	high = nr_pcp_high(pcp, zone, free_high);  in free_unref_page_commit()
2415 		free_pcppages_bulk(zone, nr_pcp_free(pcp, high, free_high), pcp, pindex);  in free_unref_page_commit()
2426 	struct zone *zone;  in free_unref_page()  local
2449 	zone = page_zone(page);  in free_unref_page()
2451 	pcp = pcp_spin_trylock(zone->per_cpu_pageset);  in free_unref_page()
2453 		free_unref_page_commit(zone, pcp, page, pcpmigratetype, order);  in free_unref_page()
2456 		free_one_page(zone, page, pfn, order, migratetype, FPI_NONE);  in free_unref_page()
2469 	struct zone *locked_zone = NULL;  in free_unref_page_list()
2494 		struct zone *zone = page_zone(page);  in free_unref_page_list()  local
2500 		 * Either different zone requiring a different pcp lock or  in free_unref_page_list()
2504 		if (zone != locked_zone || batch_count == SWAP_CLUSTER_MAX) {  in free_unref_page_list()
2517 			pcp = pcp_spin_trylock(zone->per_cpu_pageset);  in free_unref_page_list()
2520 				free_one_page(zone, page, page_to_pfn(page),  in free_unref_page_list()
2525 			locked_zone = zone;  in free_unref_page_list()
2536 		free_unref_page_commit(zone, pcp, page, migratetype, 0);  in free_unref_page_list()
2570 	struct zone *zone = page_zone(page);  in __isolate_free_page()  local
2581 		watermark = zone->_watermark[WMARK_MIN] + (1UL << order);  in __isolate_free_page()
2582 		if (!zone_watermark_ok(zone, 0, watermark, 0, ALLOC_CMA))  in __isolate_free_page()
2585 		__mod_zone_freepage_state(zone, -(1UL << order), mt);  in __isolate_free_page()
2588 	del_page_from_free_list(page, zone, order);  in __isolate_free_page()
2622 	struct zone *zone = page_zone(page);  in __putback_isolated_page()  local
2624 	/* zone lock should be held when this function is called */  in __putback_isolated_page()
2625 	lockdep_assert_held(&zone->lock);  in __putback_isolated_page()
2628 	__free_one_page(page, page_to_pfn(page), zone, order, mt,  in __putback_isolated_page()
2635 static inline void zone_statistics(struct zone *preferred_zone, struct zone *z,  in zone_statistics()
2659 struct page *rmqueue_buddy(struct zone *preferred_zone, struct zone *zone,  in rmqueue_buddy()  argument
2668 		spin_lock_irqsave(&zone->lock, flags);  in rmqueue_buddy()
2670 			page = __rmqueue_smallest(zone, order, MIGRATE_HIGHATOMIC);  in rmqueue_buddy()
2672 			page = __rmqueue(zone, order, migratetype, alloc_flags);  in rmqueue_buddy()
2681 				page = __rmqueue_smallest(zone, order, MIGRATE_HIGHATOMIC);  in rmqueue_buddy()
2684 				spin_unlock_irqrestore(&zone->lock, flags);  in rmqueue_buddy()
2688 		__mod_zone_freepage_state(zone, -(1 << order),  in rmqueue_buddy()
2690 		spin_unlock_irqrestore(&zone->lock, flags);  in rmqueue_buddy()
2694 	zone_statistics(preferred_zone, zone, 1);  in rmqueue_buddy()
2701 struct page *__rmqueue_pcplist(struct zone *zone, unsigned int order,  in __rmqueue_pcplist()  argument
2723 			alloced = rmqueue_bulk(zone, order,  in __rmqueue_pcplist()
2741 static struct page *rmqueue_pcplist(struct zone *preferred_zone,  in rmqueue_pcplist()
2742 			struct zone *zone, unsigned int order,  in rmqueue_pcplist()  argument
2752 	pcp = pcp_spin_trylock(zone->per_cpu_pageset);  in rmqueue_pcplist()
2765 	page = __rmqueue_pcplist(zone, order, migratetype, alloc_flags, pcp, list);  in rmqueue_pcplist()
2770 		zone_statistics(preferred_zone, zone, 1);  in rmqueue_pcplist()
2776  * Allocate a page from the given zone.
2788 struct page *rmqueue(struct zone *preferred_zone,  in rmqueue()
2789 			struct zone *zone, unsigned int order,  in rmqueue()  argument
2802 		page = rmqueue_pcplist(preferred_zone, zone, order,  in rmqueue()
2808 	page = rmqueue_buddy(preferred_zone, zone, order, alloc_flags,  in rmqueue()
2814 	    unlikely(test_bit(ZONE_BOOSTED_WATERMARK, &zone->flags))) {  in rmqueue()
2815 		clear_bit(ZONE_BOOSTED_WATERMARK, &zone->flags);  in rmqueue()
2816 		wakeup_kswapd(zone, 0, 0, zone_idx(zone));  in rmqueue()
2819 	VM_BUG_ON_PAGE(page && bad_range(zone, page), page);  in rmqueue()
2829 static inline long __zone_watermark_unusable_free(struct zone *z,  in __zone_watermark_unusable_free()
2854  * one free page of a suitable size. Checking now avoids taking the zone lock
2857 bool __zone_watermark_ok(struct zone *z, unsigned int order, unsigned long mark,  in __zone_watermark_ok()
2935 bool zone_watermark_ok(struct zone *z, unsigned int order, unsigned long mark,  in zone_watermark_ok()
2942 static inline bool zone_watermark_fast(struct zone *z, unsigned int order,  in zone_watermark_fast()
2987 bool zone_watermark_ok_safe(struct zone *z, unsigned int order,  in zone_watermark_ok_safe()
3002 static bool zone_allows_reclaim(struct zone *local_zone, struct zone *zone)  in zone_allows_reclaim()  argument
3004 	return node_distance(zone_to_nid(local_zone), zone_to_nid(zone)) <=  in zone_allows_reclaim()
3008 static bool zone_allows_reclaim(struct zone *local_zone, struct zone *zone)  in zone_allows_reclaim()  argument
3015  * The restriction on ZONE_DMA32 as being a suitable zone to use to avoid
3016  * fragmentation is subtle. If the preferred zone was HIGHMEM then
3017  * premature use of a lower zone may cause lowmem pressure problems that
3018  * are worse than fragmentation. If the next zone is ZONE_DMA then it is
3023 alloc_flags_nofragment(struct zone *zone, gfp_t gfp_mask)  in alloc_flags_nofragment()  argument
3034 	if (!zone)  in alloc_flags_nofragment()
3037 	if (zone_idx(zone) != ZONE_NORMAL)  in alloc_flags_nofragment()
3042 	 * the pointer is within zone->zone_pgdat->node_zones[]. Also assume  in alloc_flags_nofragment()
3046 	if (nr_online_nodes > 1 && !populated_zone(--zone))  in alloc_flags_nofragment()
3074 	struct zone *zone;  in get_page_from_freelist()  local
3081 	 * Scan zonelist, looking for a zone with enough free.  in get_page_from_freelist()
3086 	for_next_zone_zonelist_nodemask(zone, z, ac->highest_zoneidx,  in get_page_from_freelist()
3093 			!__cpuset_zone_allowed(zone, gfp_mask))  in get_page_from_freelist()
3115 			if (last_pgdat != zone->zone_pgdat) {  in get_page_from_freelist()
3116 				last_pgdat = zone->zone_pgdat;  in get_page_from_freelist()
3117 				last_pgdat_dirty_ok = node_dirty_ok(zone->zone_pgdat);  in get_page_from_freelist()
3125 		    zone != ac->preferred_zoneref->zone) {  in get_page_from_freelist()
3133 			local_nid = zone_to_nid(ac->preferred_zoneref->zone);  in get_page_from_freelist()
3134 			if (zone_to_nid(zone) != local_nid) {  in get_page_from_freelist()
3140 		cond_accept_memory(zone, order);  in get_page_from_freelist()
3142 		mark = wmark_pages(zone, alloc_flags & ALLOC_WMARK_MASK);  in get_page_from_freelist()
3143 		if (!zone_watermark_fast(zone, order, mark,  in get_page_from_freelist()
3148 			if (cond_accept_memory(zone, order))  in get_page_from_freelist()
3153 			 * Watermark failed for this zone, but see if we can  in get_page_from_freelist()
3154 			 * grow this zone if it contains deferred pages.  in get_page_from_freelist()
3157 				if (_deferred_grow_zone(zone, order))  in get_page_from_freelist()
3167 			    !zone_allows_reclaim(ac->preferred_zoneref->zone, zone))  in get_page_from_freelist()
3170 			ret = node_reclaim(zone->zone_pgdat, gfp_mask, order);  in get_page_from_freelist()
3180 				if (zone_watermark_ok(zone, order, mark,  in get_page_from_freelist()
3189 		page = rmqueue(ac->preferred_zoneref->zone, zone, order,  in get_page_from_freelist()
3199 				reserve_highatomic_pageblock(page, zone);  in get_page_from_freelist()
3203 			if (cond_accept_memory(zone, order))  in get_page_from_freelist()
3207 			/* Try again if zone has deferred pages */  in get_page_from_freelist()
3209 				if (_deferred_grow_zone(zone, order))  in get_page_from_freelist()
3413 	 * At least in one zone compaction wasn't deferred or skipped, so let's  in __alloc_pages_direct_compact()
3427 		struct zone *zone = page_zone(page);  in __alloc_pages_direct_compact()  local
3429 		zone->compact_blockskip_flush = false;  in __alloc_pages_direct_compact()
3430 		compaction_defer_reset(zone, order, true);  in __alloc_pages_direct_compact()
3527 	struct zone *zone;  in should_compact_retry()  local
3539 	for_each_zone_zonelist_nodemask(zone, z, ac->zonelist,  in should_compact_retry()
3541 		if (zone_watermark_ok(zone, 0, min_wmark_pages(zone),  in should_compact_retry()
3697 	struct zone *zone;  in wake_all_kswapds()  local
3701 	for_each_zone_zonelist_nodemask(zone, z, ac->zonelist, highest_zoneidx,  in wake_all_kswapds()
3703 		if (!managed_zone(zone))  in wake_all_kswapds()
3705 		if (last_pgdat != zone->zone_pgdat) {  in wake_all_kswapds()
3706 			wakeup_kswapd(zone, gfp_mask, order, highest_zoneidx);  in wake_all_kswapds()
3707 			last_pgdat = zone->zone_pgdat;  in wake_all_kswapds()
3818 	struct zone *zone;  in should_reclaim_retry()  local
3842 	for_each_zone_zonelist_nodemask(zone, z, ac->zonelist,  in should_reclaim_retry()
3846 		unsigned long min_wmark = min_wmark_pages(zone);  in should_reclaim_retry()
3849 		available = reclaimable = zone_reclaimable_pages(zone);  in should_reclaim_retry()
3850 		available += zone_page_state_snapshot(zone, NR_FREE_PAGES);  in should_reclaim_retry()
3856 		wmark = __zone_watermark_ok(zone, order, min_wmark,  in should_reclaim_retry()
3958 	if (!ac->preferred_zoneref->zone)  in __alloc_pages_slowpath()
3963 	 * any suitable zone to satisfy the request - e.g. non-movable  in __alloc_pages_slowpath()
3970 		if (!z->zone)  in __alloc_pages_slowpath()
4226 	/* Dirty zone balancing only done in the fast path */  in prepare_alloc_pages()
4230 	 * The preferred zone is used for statistics but crucially it is  in prepare_alloc_pages()
4267 	struct zone *zone;  in __alloc_pages_bulk()  local
4318 	/* Find an allowed local zone that meets the low watermark. */  in __alloc_pages_bulk()
4320 	for_next_zone_zonelist_nodemask(zone, z, ac.highest_zoneidx, ac.nodemask) {  in __alloc_pages_bulk()
4324 		    !__cpuset_zone_allowed(zone, gfp)) {  in __alloc_pages_bulk()
4328 		if (nr_online_nodes > 1 && zone != ac.preferred_zoneref->zone &&  in __alloc_pages_bulk()
4329 		    zone_to_nid(zone) != zone_to_nid(ac.preferred_zoneref->zone)) {  in __alloc_pages_bulk()
4333 		mark = wmark_pages(zone, alloc_flags & ALLOC_WMARK_MASK) + nr_pages;  in __alloc_pages_bulk()
4334 		if (zone_watermark_fast(zone, 0,  mark,  in __alloc_pages_bulk()
4345 	if (unlikely(!zone))  in __alloc_pages_bulk()
4350 	pcp = pcp_spin_trylock(zone->per_cpu_pageset);  in __alloc_pages_bulk()
4364 		page = __rmqueue_pcplist(zone, 0, ac.migratetype, alloc_flags,  in __alloc_pages_bulk()
4387 	__count_zid_vm_events(PGALLOC, zone_idx(zone), nr_account);  in __alloc_pages_bulk()
4388 	zone_statistics(ac.preferred_zoneref->zone, zone, nr_account);  in __alloc_pages_bulk()
4446 	alloc_flags |= alloc_flags_nofragment(ac.preferred_zoneref->zone, gfp);  in __alloc_pages()
4773  * @offset: The zone index of the highest zone
4776  * high watermark within all zones at or below a given zone index.  For each
4777  * zone, the number of pages is calculated as:
4786 	struct zone *zone;  in nr_free_zone_pages()  local
4793 	for_each_zone_zonelist(zone, z, zonelist, offset) {  in nr_free_zone_pages()
4794 		unsigned long size = zone_managed_pages(zone);  in nr_free_zone_pages()
4795 		unsigned long high = high_wmark_pages(zone);  in nr_free_zone_pages()
4818 static void zoneref_set_zone(struct zone *zone, struct zoneref *zoneref)  in zoneref_set_zone()  argument
4820 	zoneref->zone = zone;  in zoneref_set_zone()
4821 	zoneref->zone_idx = zone_idx(zone);  in zoneref_set_zone()
4825  * Builds allocation fallback zone lists.
4831 	struct zone *zone;  in build_zonerefs_node()  local
4837 		zone = pgdat->node_zones + zone_type;  in build_zonerefs_node()
4838 		if (populated_zone(zone)) {  in build_zonerefs_node()
4839 			zoneref_set_zone(zone, &zonerefs[nr_zones++]);  in build_zonerefs_node()
4941  * This results in maximum locality--normal zone overflows into local
4942  * DMA zone, if any--but risks exhausting DMA zone.
4960 	zonerefs->zone = NULL;  in build_zonelists_in_node_order()
4975 	zonerefs->zone = NULL;  in build_thisnode_zonelists()
4980  * Build zonelists ordered by zone and nodes within zones.
4981  * This results in conserving DMA zone[s] until all Normal memory is
4983  * may still exist in local DMA zone.
5023  * I.e., first node id of first zone in arg node's generic zonelist.
5034 	return zone_to_nid(z->zone);  in local_memory_node()
5075 	zonerefs->zone = NULL;  in build_zonelists()
5094  * Other parts of the kernel may not check if the zone is available.
5147 		 * i.e., the node of the first zone in the generic zonelist.  in __build_all_zonelists()
5172 	 * each zone will be allocated later when the per cpu  in build_all_zonelists_init()
5210 	 * more accurate, but expensive to check per-zone. This check is  in build_all_zonelists()
5224 	pr_info("Policy zone: %s\n", zone_names[policy_zone]);  in build_all_zonelists()
5228 static int zone_batchsize(struct zone *zone)  in zone_batchsize()  argument
5235 	 * of the zone or 1MB, whichever is smaller. The batch  in zone_batchsize()
5237 	 * and zone lock contention.  in zone_batchsize()
5239 	batch = min(zone_managed_pages(zone) >> 10, SZ_1M / PAGE_SIZE);  in zone_batchsize()
5277 static int zone_highsize(struct zone *zone, int batch, int cpu_online)  in zone_highsize()  argument
5286 		 * By default, the high value of the pcp is based on the zone  in zone_highsize()
5290 		total_pages = low_wmark_pages(zone);  in zone_highsize()
5295 		 * zone.  in zone_highsize()
5297 		total_pages = zone_managed_pages(zone) / percpu_pagelist_high_fraction;  in zone_highsize()
5301 	 * Split the high value across all online CPUs local to the zone. Note  in zone_highsize()
5308 	nr_split_cpus = cpumask_weight(cpumask_of_node(zone_to_nid(zone))) + cpu_online;  in zone_highsize()
5370 static void __zone_set_pageset_high_and_batch(struct zone *zone, unsigned long high,  in __zone_set_pageset_high_and_batch()  argument
5377 		pcp = per_cpu_ptr(zone->per_cpu_pageset, cpu);  in __zone_set_pageset_high_and_batch()
5384  * zone based on the zone's size.
5386 static void zone_set_pageset_high_and_batch(struct zone *zone, int cpu_online)  in zone_set_pageset_high_and_batch()  argument
5390 	new_batch = max(1, zone_batchsize(zone));  in zone_set_pageset_high_and_batch()
5391 	new_high = zone_highsize(zone, new_batch, cpu_online);  in zone_set_pageset_high_and_batch()
5393 	if (zone->pageset_high == new_high &&  in zone_set_pageset_high_and_batch()
5394 	    zone->pageset_batch == new_batch)  in zone_set_pageset_high_and_batch()
5397 	zone->pageset_high = new_high;  in zone_set_pageset_high_and_batch()
5398 	zone->pageset_batch = new_batch;  in zone_set_pageset_high_and_batch()
5400 	__zone_set_pageset_high_and_batch(zone, new_high, new_batch);  in zone_set_pageset_high_and_batch()
5403 void __meminit setup_zone_pageset(struct zone *zone)  in setup_zone_pageset()  argument
5409 		zone->per_cpu_zonestats = alloc_percpu(struct per_cpu_zonestat);  in setup_zone_pageset()
5411 	zone->per_cpu_pageset = alloc_percpu(struct per_cpu_pages);  in setup_zone_pageset()
5416 		pcp = per_cpu_ptr(zone->per_cpu_pageset, cpu);  in setup_zone_pageset()
5417 		pzstats = per_cpu_ptr(zone->per_cpu_zonestats, cpu);  in setup_zone_pageset()
5421 	zone_set_pageset_high_and_batch(zone, 0);  in setup_zone_pageset()
5425  * The zone indicated has a new number of managed_pages; batch sizes and percpu
5428 static void zone_pcp_update(struct zone *zone, int cpu_online)  in zone_pcp_update()  argument
5431 	zone_set_pageset_high_and_batch(zone, cpu_online);  in zone_pcp_update()
5442 	struct zone *zone;  in setup_per_cpu_pageset()  local
5445 	for_each_populated_zone(zone)  in setup_per_cpu_pageset()
5446 		setup_zone_pageset(zone);  in setup_per_cpu_pageset()
5467 __meminit void zone_pcp_init(struct zone *zone)  in zone_pcp_init()  argument
5474 	zone->per_cpu_pageset = &boot_pageset;  in zone_pcp_init()
5475 	zone->per_cpu_zonestats = &boot_zonestats;  in zone_pcp_init()
5476 	zone->pageset_high = BOOT_PAGESET_HIGH;  in zone_pcp_init()
5477 	zone->pageset_batch = BOOT_PAGESET_BATCH;  in zone_pcp_init()
5479 	if (populated_zone(zone))  in zone_pcp_init()
5480 		pr_debug("  %s zone: %lu pages, LIFO batch:%u\n", zone->name,  in zone_pcp_init()
5481 			 zone->present_pages, zone_batchsize(zone));  in zone_pcp_init()
5533 	struct zone *zone;  in page_alloc_cpu_dead()  local
5556 	for_each_populated_zone(zone)  in page_alloc_cpu_dead()
5557 		zone_pcp_update(zone, 0);  in page_alloc_cpu_dead()
5564 	struct zone *zone;  in page_alloc_cpu_online()  local
5566 	for_each_populated_zone(zone)  in page_alloc_cpu_online()
5567 		zone_pcp_update(zone, 1);  in page_alloc_cpu_online()
5597 			struct zone *zone = pgdat->node_zones + i;  in calculate_totalreserve_pages()  local
5599 			unsigned long managed_pages = zone_managed_pages(zone);  in calculate_totalreserve_pages()
5601 			/* Find valid and maximum lowmem_reserve in the zone */  in calculate_totalreserve_pages()
5603 				if (zone->lowmem_reserve[j] > max)  in calculate_totalreserve_pages()
5604 					max = zone->lowmem_reserve[j];  in calculate_totalreserve_pages()
5608 			max += high_wmark_pages(zone);  in calculate_totalreserve_pages()
5623  *	sysctl_lowmem_reserve_ratio changes.  Ensures that each zone
5625  *	pages are left in the zone after a successful __alloc_pages().
5634 			struct zone *zone = &pgdat->node_zones[i];  in setup_per_zone_lowmem_reserve()  local
5636 			bool clear = !ratio || !zone_managed_pages(zone);  in setup_per_zone_lowmem_reserve()
5640 				struct zone *upper_zone = &pgdat->node_zones[j];  in setup_per_zone_lowmem_reserve()
5645 					zone->lowmem_reserve[j] = 0;  in setup_per_zone_lowmem_reserve()
5647 					zone->lowmem_reserve[j] = managed_pages / ratio;  in setup_per_zone_lowmem_reserve()
5660 	struct zone *zone;  in __setup_per_zone_wmarks()  local
5664 	for_each_zone(zone) {  in __setup_per_zone_wmarks()
5665 		if (!is_highmem(zone) && zone_idx(zone) != ZONE_MOVABLE)  in __setup_per_zone_wmarks()
5666 			lowmem_pages += zone_managed_pages(zone);  in __setup_per_zone_wmarks()
5669 	for_each_zone(zone) {  in __setup_per_zone_wmarks()
5672 		spin_lock_irqsave(&zone->lock, flags);  in __setup_per_zone_wmarks()
5673 		tmp = (u64)pages_min * zone_managed_pages(zone);  in __setup_per_zone_wmarks()
5675 		if (is_highmem(zone) || zone_idx(zone) == ZONE_MOVABLE) {  in __setup_per_zone_wmarks()
5687 			min_pages = zone_managed_pages(zone) / 1024;  in __setup_per_zone_wmarks()
5689 			zone->_watermark[WMARK_MIN] = min_pages;  in __setup_per_zone_wmarks()
5692 			 * If it's a lowmem zone, reserve a number of pages  in __setup_per_zone_wmarks()
5693 			 * proportionate to the zone's size.  in __setup_per_zone_wmarks()
5695 			zone->_watermark[WMARK_MIN] = tmp;  in __setup_per_zone_wmarks()
5704 			    mult_frac(zone_managed_pages(zone),  in __setup_per_zone_wmarks()
5707 		zone->watermark_boost = 0;  in __setup_per_zone_wmarks()
5708 		zone->_watermark[WMARK_LOW]  = min_wmark_pages(zone) + tmp;  in __setup_per_zone_wmarks()
5709 		zone->_watermark[WMARK_HIGH] = low_wmark_pages(zone) + tmp;  in __setup_per_zone_wmarks()
5710 		zone->_watermark[WMARK_PROMO] = high_wmark_pages(zone) + tmp;  in __setup_per_zone_wmarks()
5712 		spin_unlock_irqrestore(&zone->lock, flags);  in __setup_per_zone_wmarks()
5723  * Ensures that the watermark[min,low,high] values for each zone are set
5728 	struct zone *zone;  in setup_per_zone_wmarks()  local
5739 	for_each_zone(zone)  in setup_per_zone_wmarks()
5740 		zone_pcp_update(zone, 0);  in setup_per_zone_wmarks()
5841 	struct zone *zone;  in setup_min_unmapped_ratio()  local
5846 	for_each_zone(zone)  in setup_min_unmapped_ratio()
5847 		zone->zone_pgdat->min_unmapped_pages += (zone_managed_pages(zone) *  in setup_min_unmapped_ratio()
5869 	struct zone *zone;  in setup_min_slab_ratio()  local
5874 	for_each_zone(zone)  in setup_min_slab_ratio()
5875 		zone->zone_pgdat->min_slab_pages += (zone_managed_pages(zone) *  in setup_min_slab_ratio()
5901  * if in function of the boot time zone sizes.
5920  * percpu_pagelist_high_fraction - changes the pcp->high for each zone on each
5921  * cpu. It is the fraction of total pages in each zone that a hot per cpu
5927 	struct zone *zone;  in percpu_pagelist_high_fraction_sysctl_handler()  local
5950 	for_each_populated_zone(zone)  in percpu_pagelist_high_fraction_sysctl_handler()
5951 		zone_set_pageset_high_and_batch(zone, 0);  in percpu_pagelist_high_fraction_sysctl_handler()
6048 /* [start, end) must belong to a single zone. */
6058 		.nid = zone_to_nid(cc->zone),  in __alloc_contig_migrate_range()
6082 		nr_reclaimed = reclaim_clean_pages_from_list(cc->zone,  in __alloc_contig_migrate_range()
6118  * belong to a single zone.
6138 		.zone = page_zone(pfn_to_page(start)),  in alloc_contig_range()
6172 	drain_all_pages(cc.zone);  in alloc_contig_range()
6202 	 * We don't have to hold zone->lock here because the pages are  in alloc_contig_range()
6263 static bool pfn_range_valid_contig(struct zone *z, unsigned long start_pfn,  in pfn_range_valid_contig()
6286 static bool zone_spans_last_pfn(const struct zone *zone,  in zone_spans_last_pfn()  argument
6291 	return zone_spans_pfn(zone, last_pfn);  in zone_spans_last_pfn()
6320 	struct zone *zone;  in alloc_contig_pages()  local
6324 	for_each_zone_zonelist_nodemask(zone, z, zonelist,  in alloc_contig_pages()
6326 		spin_lock_irqsave(&zone->lock, flags);  in alloc_contig_pages()
6328 		pfn = ALIGN(zone->zone_start_pfn, nr_pages);  in alloc_contig_pages()
6329 		while (zone_spans_last_pfn(zone, pfn, nr_pages)) {  in alloc_contig_pages()
6330 			if (pfn_range_valid_contig(zone, pfn, nr_pages)) {  in alloc_contig_pages()
6332 				 * We release the zone lock here because  in alloc_contig_pages()
6333 				 * alloc_contig_range() will also lock the zone  in alloc_contig_pages()
6338 				spin_unlock_irqrestore(&zone->lock, flags);  in alloc_contig_pages()
6343 				spin_lock_irqsave(&zone->lock, flags);  in alloc_contig_pages()
6347 		spin_unlock_irqrestore(&zone->lock, flags);  in alloc_contig_pages()
6368  * Effectively disable pcplists for the zone by setting the high limit to 0
6375 void zone_pcp_disable(struct zone *zone)  in zone_pcp_disable()  argument
6378 	__zone_set_pageset_high_and_batch(zone, 0, 1);  in zone_pcp_disable()
6379 	__drain_all_pages(zone, true);  in zone_pcp_disable()
6382 void zone_pcp_enable(struct zone *zone)  in zone_pcp_enable()  argument
6384 	__zone_set_pageset_high_and_batch(zone, zone->pageset_high, zone->pageset_batch);  in zone_pcp_enable()
6388 void zone_pcp_reset(struct zone *zone)  in zone_pcp_reset()  argument
6393 	if (zone->per_cpu_pageset != &boot_pageset) {  in zone_pcp_reset()
6395 			pzstats = per_cpu_ptr(zone->per_cpu_zonestats, cpu);  in zone_pcp_reset()
6396 			drain_zonestat(zone, pzstats);  in zone_pcp_reset()
6398 		free_percpu(zone->per_cpu_pageset);  in zone_pcp_reset()
6399 		zone->per_cpu_pageset = &boot_pageset;  in zone_pcp_reset()
6400 		if (zone->per_cpu_zonestats != &boot_zonestats) {  in zone_pcp_reset()
6401 			free_percpu(zone->per_cpu_zonestats);  in zone_pcp_reset()
6402 			zone->per_cpu_zonestats = &boot_zonestats;  in zone_pcp_reset()
6409  * All pages in the range must be in a single zone, must not contain holes,
6416 	struct zone *zone;  in __offline_isolated_pages()  local
6421 	zone = page_zone(pfn_to_page(pfn));  in __offline_isolated_pages()
6422 	spin_lock_irqsave(&zone->lock, flags);  in __offline_isolated_pages()
6447 		del_page_from_free_list(page, zone, order);  in __offline_isolated_pages()
6450 	spin_unlock_irqrestore(&zone->lock, flags);  in __offline_isolated_pages()
6455  * This function returns a stable result only if called under zone lock.
6479 static void break_down_buddy_pages(struct zone *zone, struct page *page,  in break_down_buddy_pages()  argument
6499 		if (set_page_guard(zone, current_buddy, high, migratetype))  in break_down_buddy_pages()
6503 			add_to_free_list(current_buddy, zone, high, migratetype);  in break_down_buddy_pages()
6514 	struct zone *zone = page_zone(page);  in take_page_off_buddy()  local
6520 	spin_lock_irqsave(&zone->lock, flags);  in take_page_off_buddy()
6530 			del_page_from_free_list(page_head, zone, page_order);  in take_page_off_buddy()
6531 			break_down_buddy_pages(zone, page_head, page, 0,  in take_page_off_buddy()
6535 				__mod_zone_freepage_state(zone, -1, migratetype);  in take_page_off_buddy()
6542 	spin_unlock_irqrestore(&zone->lock, flags);  in take_page_off_buddy()
6551 	struct zone *zone = page_zone(page);  in put_page_back_buddy()  local
6557 	spin_lock_irqsave(&zone->lock, flags);  in put_page_back_buddy()
6560 		__free_one_page(page, pfn, zone, 0, migratetype, FPI_NONE);  in put_page_back_buddy()
6565 	spin_unlock_irqrestore(&zone->lock, flags);  in put_page_back_buddy()
6577 		struct zone *zone = &pgdat->node_zones[ZONE_DMA];  in has_managed_dma()  local
6579 		if (managed_zone(zone))  in has_managed_dma()
6622 static bool try_to_accept_memory_one(struct zone *zone)  in try_to_accept_memory_one()  argument
6628 	spin_lock_irqsave(&zone->lock, flags);  in try_to_accept_memory_one()
6629 	page = list_first_entry_or_null(&zone->unaccepted_pages,  in try_to_accept_memory_one()
6632 		spin_unlock_irqrestore(&zone->lock, flags);  in try_to_accept_memory_one()
6637 	last = list_empty(&zone->unaccepted_pages);  in try_to_accept_memory_one()
6639 	__mod_zone_freepage_state(zone, -MAX_ORDER_NR_PAGES, MIGRATE_MOVABLE);  in try_to_accept_memory_one()
6640 	__mod_zone_page_state(zone, NR_UNACCEPTED, -MAX_ORDER_NR_PAGES);  in try_to_accept_memory_one()
6641 	spin_unlock_irqrestore(&zone->lock, flags);  in try_to_accept_memory_one()
6653 static bool cond_accept_memory(struct zone *zone, unsigned int order)  in cond_accept_memory()  argument
6661 	if (list_empty(&zone->unaccepted_pages))  in cond_accept_memory()
6665 	to_accept = high_wmark_pages(zone) -  in cond_accept_memory()
6666 		    (zone_page_state(zone, NR_FREE_PAGES) -  in cond_accept_memory()
6667 		    __zone_watermark_unusable_free(zone, order, 0) -  in cond_accept_memory()
6668 		    zone_page_state(zone, NR_UNACCEPTED));  in cond_accept_memory()
6671 		if (!try_to_accept_memory_one(zone))  in cond_accept_memory()
6687 	struct zone *zone = page_zone(page);  in __free_unaccepted()  local
6694 	spin_lock_irqsave(&zone->lock, flags);  in __free_unaccepted()
6695 	first = list_empty(&zone->unaccepted_pages);  in __free_unaccepted()
6696 	list_add_tail(&page->lru, &zone->unaccepted_pages);  in __free_unaccepted()
6697 	__mod_zone_freepage_state(zone, MAX_ORDER_NR_PAGES, MIGRATE_MOVABLE);  in __free_unaccepted()
6698 	__mod_zone_page_state(zone, NR_UNACCEPTED, MAX_ORDER_NR_PAGES);  in __free_unaccepted()
6699 	spin_unlock_irqrestore(&zone->lock, flags);  in __free_unaccepted()
6718 static bool cond_accept_memory(struct zone *zone, unsigned int order)  in cond_accept_memory()  argument