forum.opennet.ru

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Режим отображения отдельной подветви беседы		[ Отслеживать ]

Оглавление

Выпуск GNU grep 2.26, opennews (ok), 03-Окт-16, (0) [смотреть все]

Да уж, кодировки с переменным размером символа всё аукаются и аукаются , Michael Shigorin (ok), 20:52 , 03-Окт-16, (1) +1 //

Именно Оставили бы одну латиницу - 256 символов как раз бы хватило на все умляу, Crazy Alex (ok), 21:02 , 03-Окт-16, (2) //

Вы или крестик снимите хватить жопничать байты для UCS-4 , или трусы оденьте K, Аноним (-), 21:31 , 03-Окт-16, (3) –4 //

А UCS-4 не текст, символы с кодом 0, однако Вы предложите вариант, чтобы без уп, Stax (ok), 21:43 , 03-Окт-16, (4) +1

Я вообще предлагаю, разработать новую кодировку - машслово со времён 8битовых ко, Аноним (-), 23:15 , 03-Окт-16, (8) –2

Нет ни единой веской причины разрабатывать кодировку с 8-байтным символом Ошибк, Аноним (-), 10:21 , 04-Окт-16, (13)

Т е фортеля с сегментной памятью это хорошо и удобно, что аж перешли на модель , Аноним (-), 17:35 , 04-Окт-16, (30) –1

Помню, какая истерика была при переходе на 64-битную архитектуру, что, дескать, , Аноним (-), 21:46 , 03-Окт-16, (5) +2
Лично меня текущая ситуация - UTF-8 на диске и то, что удобнее в каждом конкретн, Crazy Alex (ok), 00:50 , 04-Окт-16, (10) +2

UTF-8 не нужно по причине непредсказуемости того, сколько символов в этой кодиро, Аноноим (?), 13:48 , 04-Окт-16, (19)

А зачем нужно ровно 1024 символа , Аноним (-), 14:09 , 04-Окт-16, (21) +2

1024 - просто для примера Ёмкость какого-нибудь буфера для сетевых файловых опе, Аноноим (?), 14:27 , 04-Окт-16, (25) –1

Аллокация с запасом, realloc, аллокация связанных структур и т д и т п Зачем вы, Stax (ok), 14:18 , 04-Окт-16, (22) +3
Проблемы сишников явистов и паскалистов не колышат , iZEN (ok), 14:21 , 04-Окт-16, (23) –2

А фортеров не колышат проблемы и явистов с паскалистами , Аноноим (?), 14:28 , 04-Окт-16, (26) +2

точно Это, iZEN (ok), 21:11 , 04-Окт-16, (37) +1

Проблемы несколько шире, в MariaDB MySQL на символ utf8 аллокируется 3 байта, дл, Аноним Аналитег (?), 20:23 , 05-Окт-16, (48)

Не-а Опечалило то, что из-за кривых данных пришлось сперва обтыкивать это всё , Michael Shigorin (ok), 14:41 , 04-Окт-16, (27) –1

Особенно мило это утверждение дикаря оттеняется разбором подавляющей части дос, Michael Shigorin (ok), 22:04 , 03-Окт-16, (6) –8 //

Ну дык - дикарское желание пробиться образование цивилизация - P S Если к, Crazy Alex (ok), 00:47 , 04-Окт-16, (9) +1

Эт как раз понятно, просто смотришь на достижения цивилизации и понимаешь, что, Michael Shigorin (ok), 14:08 , 04-Окт-16, (20)

Ахах, до сих пор 100 ватан , noko (?), 02:41 , 31-Окт-16, (51)

Михаил заработался и не смог в сарказм , Клыкастый (ok), 12:13 , 04-Окт-16, (17) –1

Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут, Vkni (ok), 01:17 , 04-Окт-16, (11) //

расскажите нам а почему китайцы до сих пор не захватили монголию , вотак (?), 11:46 , 04-Окт-16, (16)

Гуглите, что такое внутренняя монголия и где она находится , Аноним (-), 01:55 , 05-Окт-16, (45) –1

в Поднебесной уже давно так , Клыкастый (ok), 12:14 , 04-Окт-16, (18) –1

В Японии же , iZEN (ok), 14:22 , 04-Окт-16, (24) –1

почему у одичавших на острове китайцев будет поиначе , Клыкастый (ok), 14:50 , 04-Окт-16, (28) –1
Японская письменность весьма условно иероглифы - их там что-то около трёх тысяч , Crazy Alex (ok), 19:20 , 04-Окт-16, (33)

Я ж говорю - дикари, Crazy Alex (ok), 19:21 , 04-Окт-16, (34)

Я возможно, предвзято придерживаюсь мнения, что цивилизация в её современном б, Crazy Alex (ok), 19:16 , 04-Окт-16, (32)

Напомню про опиумные войны -- сдаётся мне, разница ещё и в совести либо её отсут, Michael Shigorin (ok), 19:57 , 04-Окт-16, (36)
Алекс, ну ты что, ну зачем учить 33 буквы, когда можно выучить 3 тысячи иероглиф, Vkni (ok), 21:26 , 04-Окт-16, (38)

угу, и про четыре тональности не забыть - т сказать развивать музыкальный слух, fail (?), 00:04 , 05-Окт-16, (43)

Это не однобайнтные кодировки аукаются, а однобайтные терминалы , Led (ok), 23:28 , 04-Окт-16, (40) //

О том, как терминалы аукаются, вообще вспоминать неохота , Crazy Alex (ok), 04:31 , 05-Окт-16, (46)

Web scale , KonstantinB (ok), 22:25 , 03-Окт-16, (7) +9 //

А ещё вечный цикл стал выполняться в два раза быстрее - , IZh. (?), 10:36 , 04-Окт-16, (15) +2

Когда уже добавят поддержку systemd Жду-недождусь systemd-grepd с поддержкой mul, Аноним (-), 10:24 , 04-Окт-16, (14) –2
Просто делает вид, что работает, раз вывод не нужен , XoRe (ok), 15:25 , 04-Окт-16, (29) –1 //

Вполне рабочий кейз lexa centos-test cat text txtsome text lexa centos-test, Анонимкин (?), 19:11 , 04-Окт-16, (31) //

-q не осилил , Led (ok), 23:34 , 04-Окт-16, (42) +1

Может интересовать только , например, Crazy Alex (ok), 19:21 , 04-Окт-16, (35) –1
Скорее -m1 -q ж симулирует И вообще, там http git savannah gnu org gitweb p g, Andrey Mitrofanov (?), 21:28 , 04-Окт-16, (39) +1

Мне кажется, что нефиг программе знать куда я её вывод перенаправляю и менять с, curious (?), 13:31 , 05-Окт-16, (47) –2 //

А я вот уверен, что уважающая _меня_ программа должна грепать в дев-нулл быстро,, Andrey Mitrofanov (?), 09:38 , 06-Окт-16, (49) +1
Скажи это --color auto, анон (?), 15:29 , 07-Окт-16, (50) +1

Сообщения [Сортировка по времени | RSS]

2. "Выпуск GNU grep 2.26" +/–

Сообщение от Crazy Alex (ok), 03-Окт-16, 21:02

Именно. Оставили бы одну латиницу - 256 символов как раз бы хватило на все умляуты и подобное. Всё равно дикарям с кириллицей и прочими иероглифами сложную технику давать нежелательно.

Ответить | Правка | Наверх | Cообщить модератору

3. "Выпуск GNU grep 2.26" –4 +/–

Сообщение от Аноним (-), 03-Окт-16, 21:31

Вы или крестик снимите (хватить жопничать байты для UCS-4), или трусы оденьте (KOI8-R во все стринги и чары).

Ответить | Правка | Наверх | Cообщить модератору

4. "Выпуск GNU grep 2.26" +1 +/–

Сообщение от Stax (ok), 03-Окт-16, 21:43

А UCS-4 не текст, символы с кодом 0, однако. Вы предложите вариант, чтобы без управляющих символов в тексте.

Ответить | Правка | Наверх | Cообщить модератору

8. "Выпуск GNU grep 2.26" –2 +/–

Сообщение от Аноним (-), 03-Окт-16, 23:15

Я вообще предлагаю, разработать новую кодировку - машслово со времён 8битовых кодировок выросло в 8 раз, нет ни единой веской причины, кроме legacy, цепляться за эти волшебные 2^8. И да, память в "веские причины" не входит.

Ответить | Правка | Наверх | Cообщить модератору

13. "Выпуск GNU grep 2.26" +/–

Сообщение от Аноним (-), 04-Окт-16, 10:21

Нет ни единой веской причины разрабатывать кодировку с 8-байтным символом. Ошибки в некоторых продуктах при работе с символами переменной длины в "веские причины" не входят.

Ответить | Правка | Наверх | Cообщить модератору

30. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Аноним (-), 04-Окт-16, 17:35

Т.е. фортеля с сегментной памятью это хорошо и удобно, что аж перешли на модель плоской памяти? А уж как все были в восторге от циркового фокуса под названием PAE, когда в 32битные указатели вдруг вся эта плоская память стала не помещаться.
Я и говорю, или крестик снимите, или трусы наденьте. Эти грабли с символами переменной длины будут ещё очень долго икаться.

Ответить | Правка | Наверх | Cообщить модератору

5. "Выпуск GNU grep 2.26" +2 +/–

Сообщение от Аноним (-), 03-Окт-16, 21:46

Помню, какая истерика была при переходе на 64-битную архитектуру, что, дескать, память жрёт, а тут все строки в 4 раза увеличить. Ну да, ну да.

Ответить | Правка | К родителю #3 | Наверх | Cообщить модератору

10. "Выпуск GNU grep 2.26" +2 +/–

Сообщение от Crazy Alex (ok), 04-Окт-16, 00:50

Лично меня текущая ситуация - UTF-8 на диске и то, что удобнее в каждом конкретном случае - в памяти - полностью устраивает. Это Шигорина опечалило то, что алгоритм поменяли. А ведь - слава utf-8 - поменяли не из-за того, что поломан, а только ради оптимизации.

Ответить | Правка | К родителю #3 | Наверх | Cообщить модератору

19. "Выпуск GNU grep 2.26" +/–

Сообщение от Аноноим (?), 04-Окт-16, 13:48

UTF-8 не нужно по причине непредсказуемости того, сколько символов в этой кодировке можно запихнуть в массив размером столько-то байт. Чисто для примера возьмём максимальную длину имени файла в линуксовых файловых системах, то есть 255 байт. Сколько это будет не латинских букв и цифр при UTF-8? А хз: с кириллицей один результат, с иероглифами другой, с каким-нибудь санскритом или греческим третий. Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее.

Ответить | Правка | Наверх | Cообщить модератору

21. "Выпуск GNU grep 2.26" +2 +/–

Сообщение от Аноним (-), 04-Окт-16, 14:09

А зачем нужно ровно 1024 символа?

Ответить | Правка | Наверх | Cообщить модератору

25. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Аноноим (?), 04-Окт-16, 14:27

1024 - просто для примера. Ёмкость какого-нибудь буфера для сетевых/файловых операций или ещё чего типа длины строки при использовании паскалеподобных языков, у которых она задаётся заранее вместо нулевого символа в качестве признака конца строки. Вот и думай что лучше: то ли вместо одного килобайта оперативки сразу шесть выделить и не мучиться, то ли ждать грабель из серии "последний символ в отведённой памяти целиком не поместился", либо "ой, блин, файл из архива не вынимается по причине русского и слишком длинного имени".

Ответить | Правка | Наверх | Cообщить модератору

22. "Выпуск GNU grep 2.26" +3 +/–

Сообщение от Stax (ok), 04-Окт-16, 14:18

Аллокация с запасом, realloc, аллокация связанных структур и т.д. и т.п.
Зачем вы в задаче работы с кодировками опускаетесь до нюансов, как оптимизировать аллокацию? Оставьте это другим. Тем более не могу представить задачи, когда в оперативке надо выделять память под utf-8 представление всего объема неких данных, которые есть в другом представлении юникода. Бред же какой-то. Работаете поблочно...
Проблема с длиной имен, конечно, есть, но только потому, что не придумали универсального и переносимого способа хранить метаинформацию произвольного файла, кроме имени. Вы никакой длиной и кодировкой эту проблему не решите, пока не будет стандарта на метаинформацию. Как дойдет прогресс до работы везде с object storage заместо фс, так и настанет счастье. Ну, относительно...

Ответить | Правка | К родителю #19 | Наверх | Cообщить модератору

23. "Выпуск GNU grep 2.26" –2 +/–

Сообщение от iZEN (ok), 04-Окт-16, 14:21

> Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее.
Проблемы сишников явистов и паскалистов не колышат!

Ответить | Правка | К родителю #19 | Наверх | Cообщить модератору

26. "Выпуск GNU grep 2.26" +2 +/–

Сообщение от Аноноим (?), 04-Окт-16, 14:28

>> Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее.
> Проблемы сишников явистов и паскалистов не колышат!
А фортеров не колышат проблемы и явистов с паскалистами:)

Ответить | Правка | Наверх | Cообщить модератору

37. "Выпуск GNU grep 2.26" +1 +/–

Сообщение от iZEN (ok), 04-Окт-16, 21:11

>>> Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее.
>> Проблемы сишников явистов и паскалистов не колышат!
> А фортеров не колышат проблемы и явистов с паскалистами:)
.точно Это

Ответить | Правка | Наверх | Cообщить модератору

48. "Выпуск GNU grep 2.26" +/–

Сообщение от Аноним Аналитег (?), 05-Окт-16, 20:23

Проблемы несколько шире, в MariaDB/MySQL на символ utf8 аллокируется 3 байта, для четырех байтовых символов есть отдельный characterset, для пяти уже нету.

Ответить | Правка | К родителю #23 | Наверх | Cообщить модератору

27. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Michael Shigorin (ok), 04-Окт-16, 14:41

> Это Шигорина опечалило то, что алгоритм поменяли.
Не-а. Опечалило то, что из-за кривых данных пришлось сперва обтыкивать это всё горами костылей, а потом их ещё перекладывать.
Кто помнит, сколько времени и где/как в coreutils/grep/sed делали поддержку UTF-8 -- тот поймёт.

Ответить | Правка | К родителю #10 | Наверх | Cообщить модератору

6. "Выпуск GNU grep 2.26" –8 +/–

Сообщение от Michael Shigorin (ok), 03-Окт-16, 22:04

> Именно. Оставили бы одну латиницу - 256 символов как раз бы хватило
> на все умляуты и подобное. Всё равно дикарям с кириллицей и
> прочими иероглифами сложную технику давать нежелательно.
Особенно мило это утверждение "дикаря" оттеняется разбором подавляющей части достижений "недикарей", сделанной "дикарями" в первом-втором поколении.
PS: подразумевал ИТ, по которым такой разбор на глаза и попадался.

Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

9. "Выпуск GNU grep 2.26" +1 +/–

Сообщение от Crazy Alex (ok), 04-Окт-16, 00:47

Ну дык - дикарское желание пробиться + образование/цивилизация... ;-)
P.S. Если кто-то не понял - предыдущий коммент - сарказм. Я хоть и не сторонник пихания в юникод всего, чего можно, включая клингон, но угадывать "а какая у этой хрени была кодировка" на порядок хуже.

Ответить | Правка | Наверх | Cообщить модератору

20. "Выпуск GNU grep 2.26" +/–

Сообщение от Michael Shigorin (ok), 04-Окт-16, 14:08

> P.S. Если кто-то не понял - предыдущий коммент - сарказм.
Эт как раз понятно, просто смотришь на достижения "цивилизации" и понимаешь, что лучше б её такой не было вовсе.
> Я хоть и не сторонник пихания в юникод всего, чего можно, включая клингон,
> но угадывать "а какая у этой хрени была кодировка" на порядок хуже.
UCS-4 выглядит разумнее всем, кроме... обратной совместимости с семибитной ASCII.

Ответить | Правка | Наверх | Cообщить модератору

51. "Выпуск GNU grep 2.26" +/–

Сообщение от noko (?), 31-Окт-16, 02:41

Ахах, до сих пор 100% ватан)

Ответить | Правка | Наверх | Cообщить модератору

17. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Клыкастый (ok), 04-Окт-16, 12:13

Михаил заработался и не смог в сарказм :)

Ответить | Правка | К родителю #6 | Наверх | Cообщить модератору

11. "Выпуск GNU grep 2.26" +/–

Сообщение от Vkni (ok), 04-Окт-16, 01:17

> Всё равно дикарям с кириллицей и прочими иероглифами сложную технику давать нежелательно.
Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут с алфавитами.

Ответить | Правка | К родителю #2 | Наверх | Cообщить модератору

16. "Выпуск GNU grep 2.26" +/–

Сообщение от вотак (?), 04-Окт-16, 11:46

>> Всё равно дикарям с кириллицей и прочими иероглифами сложную технику давать нежелательно.
> Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари
> у вас будут с алфавитами.
расскажите нам а почему китайцы до сих пор не захватили монголию?

Ответить | Правка | Наверх | Cообщить модератору

45. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Аноним (-), 05-Окт-16, 01:55

Гуглите, что такое "внутренняя монголия" и где она находится.

Ответить | Правка | Наверх | Cообщить модератору

18. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Клыкастый (ok), 04-Окт-16, 12:14

> Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут с алфавитами.
в Поднебесной уже давно так.

Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

24. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от iZEN (ok), 04-Окт-16, 14:22

>> Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут с алфавитами.
> в Поднебесной уже давно так.
В Японии же.

Ответить | Правка | Наверх | Cообщить модератору

28. "Выпуск GNU grep 2.26" –1 +/–

Сообщение от Клыкастый (ok), 04-Окт-16, 14:50

> В Японии же.
почему у одичавших на острове китайцев будет поиначе? :)

Ответить | Правка | Наверх | Cообщить модератору

33. "Выпуск GNU grep 2.26" +/–

Сообщение от Crazy Alex (ok), 04-Окт-16, 19:20

Японская письменность весьма условно иероглифы - их там что-то около трёх тысяч употребляется, всё остальное добирается слоговым письмом. Примерным аналогом их иероглифов в алфавитных языках можно считать корни слов.

Ответить | Правка | К родителю #24 | Наверх | Cообщить модератору

34. "Выпуск GNU grep 2.26" +/–

Сообщение от Crazy Alex (ok), 04-Окт-16, 19:21

Я ж говорю - дикари

Ответить | Правка | К родителю #18 | Наверх | Cообщить модератору

32. "Выпуск GNU grep 2.26" +/–

Сообщение от Crazy Alex (ok), 04-Окт-16, 19:16

Я (возможно, предвзято) придерживаюсь мнения, что цивилизация в её современном/будущем виде с иероглифами совместима плохо. По причинам в основном психологического толка. Пока это подтверждается - товарищи, у которых нет алфавита, всё ещё догоняют и копируют, хоть и на очень хорошем уровне. Оригинальных открытий/изобретений особо не видно.

Ответить | Правка | К родителю #11 | Наверх | Cообщить модератору

36. "Выпуск GNU grep 2.26" +/–

Сообщение от Michael Shigorin (ok), 04-Окт-16, 19:57

> товарищи, у которых нет алфавита
Напомню про опиумные войны -- сдаётся мне, разница ещё и в совести либо её отсутствии.

Ответить | Правка | Наверх | Cообщить модератору

38. "Выпуск GNU grep 2.26" +/–

Сообщение от Vkni (ok), 04-Окт-16, 21:26

> Я (возможно, предвзято) придерживаюсь мнения, что цивилизация в её современном/будущем
> виде с иероглифами совместима плохо.
Алекс, ну ты что, ну зачем учить 33 буквы, когда можно выучить 3 тысячи иероглифов!!! :-)

Ответить | Правка | К родителю #32 | Наверх | Cообщить модератору

43. "Выпуск GNU grep 2.26" +/–

Сообщение от fail (?), 05-Окт-16, 00:04

>> Я (возможно, предвзято) придерживаюсь мнения, что цивилизация в её современном/будущем
>> виде с иероглифами совместима плохо.
> Алекс, ну ты что, ну зачем учить 33 буквы, когда можно выучить
> 3 тысячи иероглифов!!! :-)
угу, и про четыре тональности не забыть - т.сказать развивать музыкальный слух

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру


	2. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Crazy Alex (ok), 03-Окт-16, 21:02
	Именно. Оставили бы одну латиницу - 256 символов как раз бы хватило на все умляуты и подобное. Всё равно дикарям с кириллицей и прочими иероглифами сложную технику давать нежелательно.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	3. "Выпуск GNU grep 2.26"	–4 +/–
	Сообщение от Аноним (-), 03-Окт-16, 21:31
	Вы или крестик снимите (хватить жопничать байты для UCS-4), или трусы оденьте (KOI8-R во все стринги и чары).
	Ответить \| Правка \| Наверх \| Cообщить модератору


	4. "Выпуск GNU grep 2.26"	+1 +/–
	Сообщение от Stax (ok), 03-Окт-16, 21:43
	А UCS-4 не текст, символы с кодом 0, однако. Вы предложите вариант, чтобы без управляющих символов в тексте.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	8. "Выпуск GNU grep 2.26"	–2 +/–
	Сообщение от Аноним (-), 03-Окт-16, 23:15
	Я вообще предлагаю, разработать новую кодировку - машслово со времён 8битовых кодировок выросло в 8 раз, нет ни единой веской причины, кроме legacy, цепляться за эти волшебные 2^8. И да, память в "веские причины" не входит.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	13. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Аноним (-), 04-Окт-16, 10:21
	Нет ни единой веской причины разрабатывать кодировку с 8-байтным символом. Ошибки в некоторых продуктах при работе с символами переменной длины в "веские причины" не входят.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	30. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Аноним (-), 04-Окт-16, 17:35
	Т.е. фортеля с сегментной памятью это хорошо и удобно, что аж перешли на модель плоской памяти? А уж как все были в восторге от циркового фокуса под названием PAE, когда в 32битные указатели вдруг вся эта плоская память стала не помещаться. Я и говорю, или крестик снимите, или трусы наденьте. Эти грабли с символами переменной длины будут ещё очень долго икаться.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	5. "Выпуск GNU grep 2.26"	+2 +/–
	Сообщение от Аноним (-), 03-Окт-16, 21:46
	Помню, какая истерика была при переходе на 64-битную архитектуру, что, дескать, память жрёт, а тут все строки в 4 раза увеличить. Ну да, ну да.
	Ответить \| Правка \| К родителю #3 \| Наверх \| Cообщить модератору


	10. "Выпуск GNU grep 2.26"	+2 +/–
	Сообщение от Crazy Alex (ok), 04-Окт-16, 00:50
	Лично меня текущая ситуация - UTF-8 на диске и то, что удобнее в каждом конкретном случае - в памяти - полностью устраивает. Это Шигорина опечалило то, что алгоритм поменяли. А ведь - слава utf-8 - поменяли не из-за того, что поломан, а только ради оптимизации.
	Ответить \| Правка \| К родителю #3 \| Наверх \| Cообщить модератору


	19. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Аноноим (?), 04-Окт-16, 13:48
	UTF-8 не нужно по причине непредсказуемости того, сколько символов в этой кодировке можно запихнуть в массив размером столько-то байт. Чисто для примера возьмём максимальную длину имени файла в линуксовых файловых системах, то есть 255 байт. Сколько это будет не латинских букв и цифр при UTF-8? А хз: с кириллицей один результат, с иероглифами другой, с каким-нибудь санскритом или греческим третий. Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	21. "Выпуск GNU grep 2.26"	+2 +/–
	Сообщение от Аноним (-), 04-Окт-16, 14:09
	А зачем нужно ровно 1024 символа?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	25. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Аноноим (?), 04-Окт-16, 14:27
	1024 - просто для примера. Ёмкость какого-нибудь буфера для сетевых/файловых операций или ещё чего типа длины строки при использовании паскалеподобных языков, у которых она задаётся заранее вместо нулевого символа в качестве признака конца строки. Вот и думай что лучше: то ли вместо одного килобайта оперативки сразу шесть выделить и не мучиться, то ли ждать грабель из серии "последний символ в отведённой памяти целиком не поместился", либо "ой, блин, файл из архива не вынимается по причине русского и слишком длинного имени".
	Ответить \| Правка \| Наверх \| Cообщить модератору


	22. "Выпуск GNU grep 2.26"	+3 +/–
	Сообщение от Stax (ok), 04-Окт-16, 14:18
	Аллокация с запасом, realloc, аллокация связанных структур и т.д. и т.п. Зачем вы в задаче работы с кодировками опускаетесь до нюансов, как оптимизировать аллокацию? Оставьте это другим. Тем более не могу представить задачи, когда в оперативке надо выделять память под utf-8 представление всего объема неких данных, которые есть в другом представлении юникода. Бред же какой-то. Работаете поблочно... Проблема с длиной имен, конечно, есть, но только потому, что не придумали универсального и переносимого способа хранить метаинформацию произвольного файла, кроме имени. Вы никакой длиной и кодировкой эту проблему не решите, пока не будет стандарта на метаинформацию. Как дойдет прогресс до работы везде с object storage заместо фс, так и настанет счастье. Ну, относительно...
	Ответить \| Правка \| К родителю #19 \| Наверх \| Cообщить модератору


	23. "Выпуск GNU grep 2.26"	–2 +/–
	Сообщение от iZEN (ok), 04-Окт-16, 14:21
	> Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее. Проблемы сишников явистов и паскалистов не колышат!
	Ответить \| Правка \| К родителю #19 \| Наверх \| Cообщить модератору


	26. "Выпуск GNU grep 2.26"	+2 +/–
	Сообщение от Аноноим (?), 04-Окт-16, 14:28
	>> Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее. > Проблемы сишников явистов и паскалистов не колышат! А фортеров не колышат проблемы и явистов с паскалистами:)
	Ответить \| Правка \| Наверх \| Cообщить модератору


	37. "Выпуск GNU grep 2.26"	+1 +/–
	Сообщение от iZEN (ok), 04-Окт-16, 21:11
	>>> Как выделить в оперативке буфер для текста размером, например, в 1024 символа? Умножай это дело на 6, поскольку в теории символ utf-8 может весить до 6 байт и выделяй, ага:) И прочее и прочее. >> Проблемы сишников явистов и паскалистов не колышат! > А фортеров не колышат проблемы и явистов с паскалистами:) .точно Это
	Ответить \| Правка \| Наверх \| Cообщить модератору


	48. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Аноним Аналитег (?), 05-Окт-16, 20:23
	Проблемы несколько шире, в MariaDB/MySQL на символ utf8 аллокируется 3 байта, для четырех байтовых символов есть отдельный characterset, для пяти уже нету.
	Ответить \| Правка \| К родителю #23 \| Наверх \| Cообщить модератору


	27. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Michael Shigorin (ok), 04-Окт-16, 14:41
	> Это Шигорина опечалило то, что алгоритм поменяли. Не-а. Опечалило то, что из-за кривых данных пришлось сперва обтыкивать это всё горами костылей, а потом их ещё перекладывать. Кто помнит, сколько времени и где/как в coreutils/grep/sed делали поддержку UTF-8 -- тот поймёт.
	Ответить \| Правка \| К родителю #10 \| Наверх \| Cообщить модератору


	6. "Выпуск GNU grep 2.26"	–8 +/–
	Сообщение от Michael Shigorin (ok), 03-Окт-16, 22:04
	> Именно. Оставили бы одну латиницу - 256 символов как раз бы хватило > на все умляуты и подобное. Всё равно дикарям с кириллицей и > прочими иероглифами сложную технику давать нежелательно. Особенно мило это утверждение "дикаря" оттеняется разбором подавляющей части достижений "недикарей", сделанной "дикарями" в первом-втором поколении. PS: подразумевал ИТ, по которым такой разбор на глаза и попадался.
	Ответить \| Правка \| К родителю #2 \| Наверх \| Cообщить модератору


	9. "Выпуск GNU grep 2.26"	+1 +/–
	Сообщение от Crazy Alex (ok), 04-Окт-16, 00:47
	Ну дык - дикарское желание пробиться + образование/цивилизация... ;-) P.S. Если кто-то не понял - предыдущий коммент - сарказм. Я хоть и не сторонник пихания в юникод всего, чего можно, включая клингон, но угадывать "а какая у этой хрени была кодировка" на порядок хуже.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	20. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Michael Shigorin (ok), 04-Окт-16, 14:08
	> P.S. Если кто-то не понял - предыдущий коммент - сарказм. Эт как раз понятно, просто смотришь на достижения "цивилизации" и понимаешь, что лучше б её такой не было вовсе. > Я хоть и не сторонник пихания в юникод всего, чего можно, включая клингон, > но угадывать "а какая у этой хрени была кодировка" на порядок хуже. UCS-4 выглядит разумнее всем, кроме... обратной совместимости с семибитной ASCII.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	51. "Выпуск GNU grep 2.26"	+/–
	Сообщение от noko (?), 31-Окт-16, 02:41
	Ахах, до сих пор 100% ватан)
	Ответить \| Правка \| Наверх \| Cообщить модератору


	17. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Клыкастый (ok), 04-Окт-16, 12:13
	Михаил заработался и не смог в сарказм :)
	Ответить \| Правка \| К родителю #6 \| Наверх \| Cообщить модератору


	11. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Vkni (ok), 04-Окт-16, 01:17
	> Всё равно дикарям с кириллицей и прочими иероглифами сложную технику давать нежелательно. Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут с алфавитами.
	Ответить \| Правка \| К родителю #2 \| Наверх \| Cообщить модератору


	16. "Выпуск GNU grep 2.26"	+/–
	Сообщение от вотак (?), 04-Окт-16, 11:46
	>> Всё равно дикарям с кириллицей и прочими иероглифами сложную технику давать нежелательно. > Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари > у вас будут с алфавитами. расскажите нам а почему китайцы до сих пор не захватили монголию?
	Ответить \| Правка \| Наверх \| Cообщить модератору


	45. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Аноним (-), 05-Окт-16, 01:55
	Гуглите, что такое "внутренняя монголия" и где она находится.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	18. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Клыкастый (ok), 04-Окт-16, 12:14
	> Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут с алфавитами. в Поднебесной уже давно так.
	Ответить \| Правка \| К родителю #11 \| Наверх \| Cообщить модератору


	24. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от iZEN (ok), 04-Окт-16, 14:22
	>> Алекс, через 30 лет вы на первое место поставите иероглифы, а дикари у вас будут с алфавитами. > в Поднебесной уже давно так. В Японии же.
	Ответить \| Правка \| Наверх \| Cообщить модератору


	28. "Выпуск GNU grep 2.26"	–1 +/–
	Сообщение от Клыкастый (ok), 04-Окт-16, 14:50
	> В Японии же. почему у одичавших на острове китайцев будет поиначе? :)
	Ответить \| Правка \| Наверх \| Cообщить модератору


	33. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Crazy Alex (ok), 04-Окт-16, 19:20
	Японская письменность весьма условно иероглифы - их там что-то около трёх тысяч употребляется, всё остальное добирается слоговым письмом. Примерным аналогом их иероглифов в алфавитных языках можно считать корни слов.
	Ответить \| Правка \| К родителю #24 \| Наверх \| Cообщить модератору


	34. "Выпуск GNU grep 2.26"	+/–
	Сообщение от Crazy Alex (ok), 04-Окт-16, 19:21
	Я ж говорю - дикари
	Ответить \| Правка \| К родителю #18 \| Наверх \| Cообщить модератору