> а также больше размер страницы,Пардон?! Стандартные 4Кб страницы никуда не делись?! Еще появились huge pages, но это весьма дополнительная опция вообще-то. И как раз снижает оверхед, если надо большой регион памяти. Весь пойнт как раз в том чтобы не работать с большим непрерывным регионом пипетками по 4Кб, вымывая буфера (TLB, etc).
> больше размер управляющих структур (бедные кэши)
Кэши у х86-64 как правило не слишком мелкие. А еще, в х86-64 появилась относительная адресация (приветы дeбильному x86). Так что совершенно не обязательно передавать 64 бита адреса всегда и везде, можно как относительную дельту vs текущее место выполнения. Еще и релокейшны на старте не придется педалить в диком количестве для трансляции программы в другие адреса (что помогает вещам типа ASLR, делая их куда более "дешевыми" по ресурсам).
> и реально выигрыша почти никакого (или никакого вообще).
А бенчи обычно иного мнения на этот счет. Конечно EPIC WIN с пятикратным разгоном может настать только в каких-то краевых случаях, когда алгоритм сильно оптимизировали под 64 бита, используя 64-битные величины в каждом закоулке (современные алгоритмы щифрования и хэширования, например). Но поскольку нынче в 32 бита не лезет даже просто смещение в файле - 64 бита в таких реалиях лишними совсем не выглядят. В конце концов, 64-битные регистры при нужде и 32-битные числа неплохо крушат. А вот наоборот - уже болт.
> а push/pop в современных процессорах совсем не такой дорогой,как кажется.
Ну да, подкостылить пришлось. Какой-то отдельный буфер IIRC даже сделали. Вот это я понимаю - костылестроение для уродца :).
> да и делают его только совсем глупенькие кодогенераторы,
Щаз. Обычный вызов функции на х86 == push + pop. ABI такое. А у х86-64 функции с небольшим числом параметров (а таких большинство) могут получить параметры и отдать результат через регистры. У х86-64, в отличие от, регистровый файл позволяет такую роскошь. Это ж не х86 с полутора РОНами.
> остальные вполне умеют регистры распределять получше.
Распределяй, не распределяй, а полутора РОНов не хватит чтобы отдать функции параметры и забрать результат. Еще и считать где-то надо...
> как будто при вызове функций регистры не замусориваются,
Посмотри на ABI. Там выделены регистры для передачи параметров на вход, на локальный счет и на отдачу результата. PUSH+POP придется только если их не хватило, т.е. какие-то навороченные функции с дофига параметров/результатов или адским счетом под который не хватило "локальных" регистров.
> никуда любимые перезагрузки не делись,
В половине случаев их может и не быть - за счет упомянутого ABI.