Волович михаил. Как это пишется в Интернете

Волович михаил. Как это пишется в Интернете

Управляющий партнер компании

Один из самых известных менеджеров в Рунете, специалист в области искусственного интеллекта, разработки программного обеспечения, управления проектами. Управляющий партнер компании «Ашманов и партнеры». Закончил механико-математический факультет МГУ, кандидат технических наук.

Игорь Ашманов занимается информационными технологиями с 1983 года. Он руководил разработкой программы проверки правописания Орфо в «Информатике», был совладельцем и генеральным директором компании «МедиаЛингва», выпускавшей словари МультиЛекс, исполнительным директором интернет-холдинга «Рамблер». За это время он выпустил несколько десятков проектов, среди которых:

  • Лингвистический модуль ОРФО (программа проверки правописания и стиля, тезаурус, модуль переносов) в русской версии Microsoft Office, которым пользуются миллионы людей по всей России;
  • Электронные словари «МультиЛекс», до сих пор остающиеся лучшим профессиональным инструментом переводчика в России;
  • Версия поисковой машины «Рамблера», выпущенная в 2001 г., и большинство сайтов и сервисов портала «Рамблер» до их обновления в 2012 году.
  • Спам-фильтр «Спамтест», защищающий десятки миллионов пользователей (сейчас продается под маркой «Антиспам Касперского»).
  • Новостной поисковик «Новотека», агрегирующий и кластеризующий новости из сотен источников.
  • Народный поиск «Флексум» - сервис для создания тематических поисковиков.

Игорь Ашманов - участник Международного союза интернет-деятелей «ЕЖЕ», два раза побеждал в номинации «Человек года» в сетевом конкурсе РОТОР (в РОТОР 2004 и в РОТОР-2006), в рамках движения «ЕЖЕ» существует Галерея видных сетевых деятелей, в которой есть ФРИ Игоря Ашманова.

Партнер компании

Известный специалист в области управления производством программного обеспечения. Сейчас занимается разработкой и развитием технологии «Семантическое зеркало» и рядом других. Окончил физический факультет МГУ. Преподаёт программирование на физфаке.

В 1999–2001 годах Алексей работал руководителем поискового проекта в «Рамблере», где под его руководством была разработана и запущена в эксплуатацию новая версия поисковой машины.

В 1995–1999 годах Алексей Иванов был техническим директором компании «МедиаЛингва», где руководил разработкой семейства компьютерных словарей «МультиЛекс» и многими другими проектами.

В 2001–2005 годах участвовал в разработке спам-фильтра «Спамтест» в компании «Ашманов и партнеры».

В 2004–2007 - руководитель проекта «Семантическое зеркало» и проекта поисковой машины «Ашманов и партнеры».

В 2006–2012 - руководитель разработки проекта «Анализаторы поисковых машин».

В 2010–2011 - руководитель проекта «социального поиска» Flexum.ru.

В 2011–2016 - руководитель проекта Wada.vn, поисковой машины по вьетнамскому сегменту Интернета.

В 2015–2016 - руководитель разработки WadaMarket.com, товарного агрегатора для вьетнамских онлайн- и офлайн-магазинов).

Партнер компании

Специалист в России по интернет-технологиям, разработке сложных сайтов, высоким нагрузкам, большим объемам данных. В «Ашманов и партнеры» занимается разработкой поисковой машины.

Наибольшую известность принесли собственные проекты Russian Internet Survey и веб-сервер «Русский Apache», под управлением которого работает больше половины всех сайтов Рунета.

Один из лучших в России специалистов по интернет-технологиям, разработке сложных сайтов и интернет-сервисов, высоким нагрузкам, большим объемам данных. Закончил геологический факультет МГУ.

Наибольшую известность Алексею принесли собственные проекты Russian Internet Survey и веб-сервер «Русский Apache» .

В 1999-2001 годах Алексей — руководитель проекта Rambler’s Top100 в интернет-холдинге «Рамблер».

С 2001 года — сотрудник и совладелец компании «Ашманов и партнеры».

В 2004-2006 годах — технический директор компании «Поисковые технологии», автор новостного поисковика «Новотека» и новостной обменной сети.

С 2008 года — технический директор компании LibRaw LLC, которая разрабатывает программное обеспечение и средства разработки для цифровой фотографии.

В настоящее время проектов в компании не ведет.

Алексей Тутубалин — участник Международного союза интернет-деятелей «ЕЖЕ» , трижды побеждал в номинации «Исследователь года»: в сетевом конкурсе РОТОР 2006 , в конкурсе РОТОР++ 2007 и в конкурсе РОТОР 2008 , в рамках движения «ЕЖЕ» существует Галерея видных сетевых деятелей, в которой есть .

Партнер компании

Специалист по выпуску IT-приложений, сочетающий знания и умения менеджера, программиста и лингвиста. В компании «Ашманов и Партнеры» отвечает за технологии искусственного интеллекта.

Окончил филологический факультет МГУ, отделение прикладной лингвистики.

В 1996–1999 годах Кирилл Зоркий работал начальником отдела лингвистики в «МедиаЛингве», выпускал словари МультиЛекс. Руководил подготовкой данных для электронных словарей, разработал компьютерные морфологии нескольких языков.

В 1999–2001 года Кирилл работал руководителем департамента контентных проектов в «Рамблере», за это время он выпустил несколько десятков контентных проектов «Рамблера».

С 2001 года Кирилл Зоркий - сотрудник и совладелец «Ашманов и Партнеры».

В 2001–2005 годах - руководитель проекта «Спамтест».

В 2005–2007 годах - начальник антиспам-отдела в «Лаборатории Касперского», руководитель проекта «Антиспам Касперского».

В настоящее время - технический директор компании «Наносемантика».

Партнер компании

Кандидат физико-математических наук, один из лучших экспертов в России по разработке технически сложного программного обеспечения, техническому аудиту, управлению IT-проектами.

Закончил физический факультет МГУ, кандидат физико-математических наук.

В 1996–1999 годах Дмитрий - сотрудник компании «МедиаЛингва», участвовал в разработке большинства проектов «МедиаЛингвы»: электронные словари, поисковые сервисы, серверные приложения, интернет-проекты и др.

В 2000–2001 годах Дмитрий Пашко работал в интернет-холдинге «Рамблер» - сначала начальником отдела эксплуатации, а затем техническим директором. За это время под его руководством было разработано, протестировано и опубликовано более 30 проектов. В частности, в 2000 году Дмитрий руководил уникальным проектом интернет-игр «Что? Где? Когда?», в котором команды знатоков соревновались со «всемирным разумом».

С 2001 года сотрудник и совладелец «Ашманов и партнеры», участвовал в проектах «Спамтест», SeoRate, «Семантическое зеркало, а также в разработке веб-сервисов компании.

С 2013 года руководит технологической разработкой «Ашманов и партнеры». Участвует в дочерних проектах компании, связанных с анализом Интернета и защитой пользователей от нежелательной информации.

Партнер компании

Лингвист, лексикограф, специалист по интеллектуальным технологиям и юзабилити сайтов. Работает в компании «Ашманов и партнеры» со дня ее создания. В настоящее время руководит Лабораторией поисковой аналитики.

Работал выпускающим редактором «Коммерсанта» (тогда еще еженедельника). Разработал лучший на сегодняшний день алгоритм расстановки переносов для русского языка. Написал англо-русский словарь «Христианство». Готовил данные для словарей «МультиЛекс». Был главным редактором портала «Рамблер». Участвовал (и продолжает участвовать) в создании прекрасного научно-популярного сайта Elementy.ru.

С 2007 года работает над проектом AnalyzeThis.ru — это более 70 автоматических анализаторов, оценивающих качество поиска на русском, английском, китайском и вьетнамском языках. Изучал феномен поискового спама и разрабатывал методы борьбы с ним. Руководил подготовкой данных и работой лингвистов для вьетнамской поисковой машины Wada.vn и Wada-маркета.

В 2014-2015 годах работала директором по маркетингу и внешним коммуникациям в компании Kribrum, где отвечала за развитие сервиса.

С 2015 года руководит коммуникационным агентством Ça Va Agency.

С 2017 года является генеральным директором «Ашманов и партнеры Санкт-Петербург».

На первый взгляд, для коммерческих запросов совершенно не важны. Корреляции с позицией в Яндексе есть только для небольшой части текстовых параметров, да и то слабые. В первой тройке и в третьей десятке результатов поиска количество вхождений запроса в текст страницы примерно одинаковое - и то же самое можно сказать про title, про заголовки h1- h4 и т. п.

Но на самом деле, несмотря на все это, текстовые факторы критически важны. Если сравнить ТОП 30 Яндекса по коммерческим запросам и не менее релевантные страницы, которые в него не попали (из ТОП 30 Google и Mail.ru), окажется, что значения почти всех текстовых параметров в ТОПе Яндекса статистически достоверно - и очень заметно - выше.

Это скорее всего означает, что текстовые факторы работают на предварительных этапах ранжирования - когда отбирается примерно тысяча результатов, которые в дальнейшем проходят подробное ранжирование.

То есть если у вас на странице недостаточно вхождений запроса (или отдельных слов из запроса), то ваши шансы попасть в ТОП Яндекса резко падают.

Так, по запросу «люстры» в ТОП 30 Яндекса есть только два результата, где слово «люстра» встречается менее 40 раз, - lustron.ru с 23 вхождениями и люстра.рф с четырьмя (плюс еще одно в доменном имени). Тогда как в ТОП 30 Google есть 5 страниц, где «люстра» встречается менее 10 раз. Среднее количество вхождений «люстры» в текст страницы для ТОП 30 Яндекса - 64, против 48 для Google и 30 - для страниц из топов Google и Mail.ru, не попавших в ТОП Яндекса.

Насколько ситуация с текстовыми факторами в Google отличается от Яндекса?

В Google, наоборот, есть заметные корреляции между текстовыми факторами и позицией - чем ближе к ТОП 1, тем выше значения. Но зато не видно «входного фильтра», как в Яндексе, и средние значения текстовых параметров обычно несколько ниже.

Но много и общего. Так, в обоих поисковиках факторы ранжирования тем сильнее, чем дальше мы уходим от «буквы» запроса. Точная форма запроса, похоже, уже не выделяется поисковиками среди всех прочих. Количество отдельных слов запроса, разбросанных по тексту, важнее, чем то, сколько раз они встретились вместе. Важны также синонимы слов запроса и в еще большей степени «дополнения» - те слова, которые сами поисковики выделяют в снипетах.

Подробнее читайте об этом в нашем большом аналитическом отчете по факторам ранжирования, подготовленном к конференции Optimization 2017.

Вернемся непосредственно к Яндексу. В блоге поисковика сказано, что «Баден-Баден» ориентирован на переоптимизированные тексты. Вы анализируете сайты под «Баденом». По результатам ваших наблюдений, на какие именно признаки ориентируется алгоритм Яндекса? За что сайты попадают под «Баден-Баден»?

В принципе, в блоге Яндекса все сформулировано достаточно четко: «В них много повторяющихся ключевых слов и неестественных речевых оборотов, но мало полезной информации. Мы называем такие тексты переоптимизированными...».

Легко видеть, что Яндекс понимает переоптимизацию расширительно - включая в нее не только «переспам ключевиками», но и низкую естественность, бесполезность для пользователя.

Иначе говоря, Яндекс не любит SEO-тексты. Причем он их не любит давно (см. мантры про сайты, «сделанные для людей»), но вот сейчас научился их распознавать и решился за них наказывать.

Как именно он их распознает - это отдельный и значительно менее важный вопрос. Факторов может быть множество, причем относящихся ко всем трем составляющим SEO-текста - обилию ключевиков, неестественности и малой полезности. Различные частотные параметры (как связанные с запросами, так и не связанные); лексика, характерная для SEO-текстов; длина и позиция текстового блока; наличие скрытого текста; структурированность текста. И это далеко не полный список.

Скорее всего, задача решалась в сугубо практическом ключе. Были по максимуму использованы факторы, которые уже применяются Яндексом для других задач (например, при ранжировании); к ним было добавлено какое-то количество новых факторов, разработанных специально под эту задачу. Машинное обучение запускалось столько раз, сколько потребовалось, чтобы достигнуть нужной полноты и точности. Дальше провели А/В-тестирование - и в бой.

Мы не пытались выяснить, что именно учитывает Яндекс - для этого явно недостаточно данных, и это в конечном счете не так важно. Мы пытались научиться выявлять и оценивать SEO-тексты. И, мне кажется, у нас это неплохо получилось. Причем важно, что мы не просто даем суммарную оценку, а раскладываем все по полочкам и тем самым показываем, что было бы полезно исправить.

Какой процент некачественного контента допустим на странице? Сколько его должно быть, чтобы опасаться постраничного фильтра? И сколько – чтобы под фильтр попал весь сайт?

Проценты особой роли не играют. Для того, чтобы начать бороться с SEO-текстами, Яндекс должен был сначала научиться хорошо понимать структуру веб-страницы - выделять на ней навигационные области, «витрину», отзывы, объявления, разные другие блоки - и SEO-текст. Размер «бочки меда» (содержательной части страницы) не имеет значения. Важен размер «ложки дегтя». Чем она больше, тем хуже. Но она может быть и относительно небольшой. Скажем, двух тысяч знаков определенно хватает. Может, по-видимому, хватить и пары абзацев среднего размера - меньше тысячи знаков, сотня с чем-то слов. Точнее сказать трудно. Дело в том, что есть три типа страниц, важных для «Б.-Б.»:

1) попавшие под страничный фильтр;

2) попавшие под сайтовый фильтр;

3) те, на которые указывает техподдержка Яндекса.

И ни одни из них не дают полной ясности.

Про страничный фильтр мы, к сожалению, знаем довольно мало: среди клиентов «Ашманов и партнеры» таких не было; пользователи «Тургенева» чаще сообщают о сайтовом фильтре, публикаций «в открытых источниках» и т. п. находится немного. Известные нам случаи распадаются на две категории - вопиющие (большие «махровые» SEO-тексты, «дегтя» много) и сомнительные (трафик упал незадолго до анонса нового алгоритма, поэтому хозяин сайта считает, что это «Баден-Баден», но мы очень в этом сомневаемся).

Про сайтовый фильтр известно гораздо больше. Но точно определить, какие именно страницы учитывались при наложении санкций, практически невозможно, поэтому для определения порогов они тоже не подходят. На пострадавших сайтах есть страницы с большими SEO-текстами, явно заслуживающими «Баден-Бадена», - и в их число часто попадает главная страница сайта и страницы основных разделов. А есть и страницы с совсем короткими текстовыми блоками, и вообще без них. За что сайт наказан, по этим данным понять легко, а вот где Яндекс проводит границу - трудно.

Наконец, третий тип страниц - те, на которые указывает сам Яндекс, отвечая на запросы вебмастеров. Эти страницы вроде бы конкретные, и их сколько-то известно, но беда в том, что они часто не слишком показательны. Грубо говоря, если бы все такие (и худшие) страницы оказались под санкциями, Яндексу просто нечего было бы находить. Можно себе представить, что такие страницы вызывают у роботов некоторые претензии, но во всех известных нам случаях на тех же сайтах находились гораздо худшие страницы (включая часто голову сайта). Эти сайты действительно заслужили «Б.-Б.» - но страницы, которые считает нужным показать Яндекс, сыграли в этом далеко не первую роль.

Если говорить о рынке, по вашим наблюдениям, многие ли вебмастера «одумались» после запуска «Баден-Бадена»?

На удивление многие, несмотря на очень точечное пока применение санкций.

Сейчас четко видны две основные конкурирующие стратегии - перестраховаться или ждать, когда клюнет жареный петух. Вторую из них мы очень не рекомендуем.

Чтобы не попасть под санкции, достаточно убрать или отредактировать откровенно неестественные тексты. Они обычно видны невооруженным глазом - но можете проверить у «Тургенева». Чтобы избавиться от уже выписанных вам санкций, нужно пройти квест - догадаться, чем Платону не понравилась та страница, которую он прислал, и сколько еще таких. Профилактика дешевле лечения.

В декабре вы анонсировали текстовый анализатор «Тургенев» . Расскажите, как, на каких данных вы обучали анализатор? Какая была выборка?

Никакого машинного обучения там на самом деле нет. Есть алгоритмы и словари. Они разрабатывались и отлаживались на материале нескольких сот страниц, попавших под «Баден-Баден», примерно с пяти десятков разных сайтов, - а также многих тысяч других текстов, качество которых мы оценивали самостоятельно.

Строго говоря, мы видели свою задачу в том, чтобы научиться эффективно автоматически выявлять переоптимизированные тексты - и, что не менее важно, объяснять, что именно с ними не так. Машинное обучение не позволило бы это сделать.

Кстати, даже в тех случаях, когда прямой угрозы «Б.-Б.» нет, «Тургенев» полезен для вебмастеров и копирайтеров, т. к. помогает заметить и исправить неестественные повторы, стилистические ошибки и другие подобные проблемы.

Как «Тургенев» определяет, что тот или иной контент нужно добавить/удалить? С какими материалами сервис сравнивает текст при анализе? Например, с аналогичными, которые уже есть в базе; взятыми из выдачи в режиме реального времени; основывается на средних показателях всего контента и т.д.?

Мы сначала разработали параметры, отвечающие за риск «Баден-Бадена», в рамках Лаборатории поисковой аналитики , и только потом появилась идея сделать общедоступный сервис. Поэтому у нас есть две разных версии «Тургенева»: тот, который опубликован на turgenev.ashmanov.com , для всех, - и «внутренний Тургенев», для наших клиентов. Внутренняя версия алгоритма работает с веб-страницами и учитывает контекст запросов, по которым они должны находиться. Она, например, оценивает размер текстового блока и «водность», исходя из показателей страниц в ТОПе Яндекса по конкретным запросам.

Общедоступная версия работает только с текстами (это ограничение позволило сделать сервис бесплатным) и поэтому ей не с чем сравнивать проверяемый материал. Он просто оценивается по нескольким параметрам, набирает штрафные баллы, если есть за что, и в итоге по сумме баллов за разные параметры оценивается риск. Мы не рекомендуем добавить или удалить контент - мы просто выявляем проблемы, а что с этим делать, решать уже автору текста или хозяину сайта.

На вкладке «Повторы» считаются частоты слов и словосочетаний, строится простая модель, по которой оценивается наличие «сверхчастых» слов. Обычно в SEO-тексте это слова, по которым он (пере)оптимизирован. Также оценивается общее количество повторов в тексте - для этого используется любимый сеошниками параметр со странным названием «академическая тошнота», который нам пришлось переизобрести, поскольку его рецепт, как оказалось, держится в секрете. Пороги по нему выставлены довольно высокие - штрафные баллы идут начиная с академической тошноты 10,5, т. е. «наказываются» только тексты с действительно высоким количеством повторов. И еще текст может получить балл за очень большую частоту союза «и» - это уже скорее про стилистику, чтобы ловить тексты, в которых «опытные и знающие врачи гарантируют кодирование и избавление от пагубной привычки».

На вкладке «Стилистика» просто считаются вхождения в текст слов и словосочетаний нескольких типов. Это прежде всего обороты речи, характерные для плохих SEO-текстов. Например, фрагменты чтобы убедиться в данном выборе, предлагаем вам просмотреть ключевые особенности изделия или всем известно, что стиральная машина является важным атрибутом ванной комнаты были разобраны нами на цитаты почти без остатка, и теперь любой текст, в котором встретится «убедиться в данном выборе», получит за это некоторое количество «стилистических квантов», которые после некоторого порога превращаются в штрафные баллы. Кроме того, отмечаются разнообразные стилистические ошибки, канцеляризмы, излишне разговорные обороты и многое другое. Они тоже взяты из SEO-текстов, и хотя многие из них сами по себе не делают текст неестественным, если их много, это становится проблемой, серьезность которой выражается в штрафных баллах.

На вкладке «Запросы» отмечаются встретившиеся в тексте запросы из среднего по размеру «коммерческого» списка (около двух с половиной миллионов). Если покрытие запросами большое, это может свидетельствовать о переоптимизированности.

Оставшиеся две вкладки дают баллы реже и совсем понемногу. «Водность» - за низкую долю содержательного текста. «Удобочитаемость» - за текст, в котором много длинных предложений и длинных слов.

Насколько данные по одному и тому же тексту могут разниться изо дня в день?

Обычно совсем немного. Мы продолжаем совершенствовать алгоритмы и пополнять словари, но вероятность, что для вашего текста что-то заметно поменяется, очень мала. Редкое исключение - если именно ваш текст мы сегодня использовали для пополнения словарей.

Насколько точно «Тургенев» определяет риск попадания сайта под «Баден-Баден»?

Каждый раз, как мы узнаем о новом примере сайта или страниц, попавших под фильтр, мы проверяем на них работу «Тургенева». В 95% случаев он справляется - показывает критический или высокий риск. В этом смысле все хорошо - только мы рекомендуем проверять по несколько текстов с сайта (и обязательно именно SEO-тексты, а не страницы целиком).

Но это, естественно, не означает, что любой текст, для которого «Тургенев» показал высокий риск, завтра попадет под фильтр. Высокие баллы всего лишь показывают, что текст неестественный, переоптимизированный и нуждается в редактировании. Таких в ТОПе Яндекса до сих пор очень много - в том числе и на первых позициях, особенно по информационным запросам. Почему - это вопрос не к нам.

Представители Яндекса, когда их обступают сеошники и наперебой спрашивают, почему мой сайт под фильтром, а такой-то, еще гораздо хуже, на свободе, обычно отвечают: «Еще не вечер, всему свое время».

Нам остается только присоединиться к этому ответу.

Правда, ложные срабатывания возможны, если проверяются тексты, на которые «Тургенев» не рассчитан. Например, многие законы и другие юридические документы получают много баллов за повторы и еще некоторое количество - за стилистику и удобочитаемость. Да, законы - тоже не самые естественные тексты, написанные далеко не лучшим стилем, хотя и не переоптимизированные.

«Тургенев» заточен только под коммерческие сайты? Или для информационных порталов он тоже подойдет? Ведь, казалось бы, SEO-текст – он и там, и там SEO-текст.

SEO-тексты бывают разные, и характер проблем, прежде всего стилистических, в переоптимизированном информационном тексте несколько иной, чем в коммерческом. Из текстов вроде прежде чем ответить на вопрос: "«Доксициклин» - от чего эти таблетки?", следует поведать, какой состав имеет данный медикамент нужно собирать характерные именно для них маркеры.

Мы этим понемногу занимаемся, и такие тексты тоже ловятся, хотя и несколько хуже, чем коммерческие. Например, страница, с которой взята приведенная в предыдущем абзаце цитата, получила всего 5 баллов, хотя заслуживает, конечно, большего. Но с другой стороны, этот текст красуется в ТОПе Яндекса на самой первой позиции (по запросу «доксициклин таблетки» на момент написания). Когда Яндекс начнет применять «Баден-Баден» к «текстовым помойкам», мы уделим им то внимание, которого они заслуживают, и они будут хорошо ловиться.

Мы по-прежнему не знаем ни одного подтвержденного примера применения «Б.-Б.» к информационным сайтам. Будем очень признательны, если кто-то из читателей нам их пришлет - как, впрочем, и любые примеры «Баден-Бадена». Интерес тут взаимный - мы с удовольствием обсудим с вами ваш случай, и он поможет нам улучшить сервис для всех.

Как вы планируете развивать «Тургенев», в каком направлении?

Над глобальными планами мы пока всерьез не задумывались, а локально работаем сразу над несколькими вкладками. Например, собираемся кардинально улучшить вкладку «Запросы» - и заодно ускорить выдачу ответов (факторы, связанные с запросами, сейчас считаются дольше всех остальных).

Как это пишется в Интернете

Михаил Волович . Как это пишется в Интернете


Посвящается «Рамблеру»

Во многих редакциях действуют «внутренние стандарты» — писаные или неписаные дополнения к обычным правилам орфографии и пунктуации. Они регламентируют написание новых слов, расстановку прописных букв и кавычек, другие трудные случаи, предостерегают от частых ошибок.

В 2001 году мне самому пришлось устанавливать и проводить в жизнь такие внутренние стандарты в интернет-холдинге «Рамблер». Но тогда, увы, правила так и остались неписаными. Эта небольшая статья — попытка суммировать накопленный опыт (лучше поздно, чем никогда). Надеюсь, она окажется для кого-то полезной — в том числе, может быть, и в «Рамблере».

И личное посвящение, тоже связанное с «Рамблером», — памяти Сергея Бровцына, одного из самых благодарных слушателей моих рекомендаций.

Не всё ли равно как

Популярность и коммерческий успех интернет-ресурса зависят от «редакторских» качеств — как и вообще от качества — далеко не в первую очередь. Мало кто, прийдя на сайт, обращает внимание на такие мелочи, как орфографические ошибки (особенно если они не слишком грубые), непоследовательности, плохое оформление.

И все же сайт солидной фирмы, на котором в середине слов встре- чаются лишние дефисы (следы вручную поставленных переносов), выглядит уже не так солидно. Доказывать не возьмусь, но лично я уверен, что редакторский труд и просто хороший вкус окупаются везде, в том числе и в Интернете.

Интернет, интернет, Internet

Начнем с самого животрепещущего: все-таки Интернет или интернет ?

В Русском орфографическом словаре 1999 года зафиксирован Интернет ; языковая практика пока тоже скорее на его стороне, но тенденция — явно в сторону «понижения» буквы. Например, газета «Ведомости» (пока?) последовательно пишет Интернет — но издательский дом «Коммерсантъ» во всеуслышание объявил о переходе на интернет ; еще раньше это сделали некоторые интернет-ресурсы.

Основные аргументы в пользу строчной («маленькой») буквы:

русскому языку свойственно превращать собственные имена в нарицательные, и с интернетом это уже произошло (как раньше произошло с ксероксом и памперсом ); интернет — не более чем коммуникационная среда (варианты: «способ трансляции», «информационная культура»), такая же, как телефон , телевидение или пресса .

Основные аргументы в пользу прописной («большой») буквы:

Интернет по-прежнему остается названием уникального объекта, именем собственным — таким же, например, как Марс , Интерпол или Талибан . Интернет — не просто «среда» и тем более не «способ трансляции» (мое ухо отказывается воспринимать выражения типа *сообщить по интернету ). Это конкретная компьютерная сеть; за последние 10 лет она сильно выросла, но сохранила свою индивидуальность, у нее есть свои законодательные органы, инфраструктура и т. п.; нетрудно представить себе другую глобальную компьютерную сеть, параллельную или альтернативную Интернету.

(Кстати, по-английски Интернет — почти всегда the Internet , с определенным артиклем, и по поводу прописной буквы, кажется, никаких дискуссий не ведется.)

Если доводы сторонников интернета кажутся вам убедительными, или вы просто боитесь отстать от жизни — пишите интернет . Но я по-прежнему считаю, что Интернет — имя собственное. Итак, я рекомендовал бы:

  • Интернет , нежелательно *интернет ;
  • Сеть (когда речь идет об Интернете), Всемирная паутина ; но всемирная сеть Интернет ;
  • Рунет , неправильно *рунет (уж его-то точно нельзя считать «способом трансляции»).

Однако в составных словах типа интернет-провайдер , интернет-библиотека слово интернет выступает в роли определения. Писать его в таких случаях с прописной буквы — довольно грубая ошибка. Другая очень распространенная ошибка — писать такие образования в два слова, без дефиса.

  • интернет-кафе , интернет-ресурс , интернет-общественность и т. п.; неправильно *Интернет-ресурс , *интернет ресурс .

Слово Интернет — как и Интерпол с Талибаном — должно склоняться, если стоит изолированно. Записанные латинскими буквами, Internet , Interpol , Taliban , разумеется, не склоняются; но все эти слова давно усвоены русским языком, и писать их латиницей нет никаких оснований.

  • в Интернете , пользователи Интернета , пользователи сети Интернет ; неправильно *в Интернет , *пользователи Интернет ; нежелательно *в Internet .

Браузер, тег, офлайн

Есть немало слов, которые в Интернете встречаешь на каждом шагу в самых разнообразных написаниях, но которых до самого последнего времени не было в словарях.

Многие из них — как и сам Интернет — вошли в Русский орфографический словарь 1999 года под редакцией В. В. Лопатина. Многие другие попали в те полторы с лишним тысячи слов, которые с 1999 года были добавлены в электронную версию этого словаря.

  • браузер , веб-браузер (неправильно *броузер , *вэб- );
  • тег , HTML-тег (неправильно *тэг ), бренд , бр"ендовый (неправильно *брэнд ); кеш , кешем (неправильно *кэш ); хеш-таблица ;
  • онлайн , в онлайне и в режиме онлайн , онлайновый ; офлайн , офлайновый ; офшор , офшорный (нежелательно *он-лайн , *офф-лайн , *оффлайн , *оффшор );
  • трафик (неправильно *траффик );
  • плеер , интернет-плеер (нежелательно *плейер , хотя такой вариант и зафиксирован в некоторых словарях);
  • пиар (неправильно *пи-ар ), пиар-агентство (или PR-агентство ), пиаровский , пиарщик ;
  • риелтор (неправильно *риэлтор , *риелтер ; десять лет назад я пытался править его на специалиста по недвижимости , но он победил); дистрибьютор (тогда же я боролся за дистрибутора , но тоже неудачно);
  • роуминг ; Хеллоуин ; уикенд ; саундтрек ;
  • прайс-лист (хотя лучше употреблять тоже заимствованное, но раньше укоренившееся в русском языке слово прейскурант ; неправильно *прайслист ); прайм-тайм .

Словарь кое в чем «обгоняет» сложившуюся литературную норму, заранее ориентируясь на те изменения, которые намерена внести в русскую орфографию возглавляемая В. В. Лопатиным Орфографическая комиссия. Кроме того, от ныне существующей электронной версии к новому изданию словаря что-то может измениться. Строго говоря, подчиняться его рекомендациям не обязательно; например, в «Коммерсанте» последовательно пишут дистрибутор и риэлтер , а плейер встречается не реже, чем плеер .

Тем не менее, при наличии «разночтений», мне кажется, разумно прислушиваться к рекомендациям наиболее авторитетного на сегодняшний день орфографического справочника.

CD-ROM, e-mail, Java

  • e-mail , e-mail"у , e-mail"ом ; русского эквивалента, лучшего, чем электронная почта или электронный адрес , пока нет (но если уж очень хочется чего-нибудь разговорного, то лучше по «мылу» или по мейлу , чем *по имейлу или *по и-мэйлу );
  • CD-ROM , CD-ROM"а ; CD , а если «по-русски», то компакт-диск ;
  • Word , в Word"е (написание *в Ворде просторечно и потому в приличных текстах недопустимо); Excel , об Excel"е , ...;
  • Java-аплет (название языка Java на русском не устоялось, поэтому лучше писать его латиницей).

Главное быть последовательным

В конце концов, важно, не как мы пишем, а насколько последовательно . Слово Интернет можно писать с большой буквы, а можно с маленькой (см. выше). Но это не значит, что можно и так и так. Надо принять решение и следовать ему.

Когда на одной экранной странице (на печатной, слава богу, не приходилось) я вижу две новости — одну про бен Ладена и Аль-Каиду , а другую про Бин-Ладена и Аль-Кайед (причем в одной упоминается палестинский город Рамалла , а в другой Рамаллах ), — я лезу на стену.

Плохо, когда в конце заголовков стоят точки (см. ниже) — но еще хуже, когда точки то есть, то нет.

Можно включать в состав ссылок следующие за ними знаки препинания, можно не включать — но лучше не делать то так, то так.

Оформление текста

  • Нет! — большим неструктурированным объемам текста.

Наибольшая длина абзаца, который я (пользователь) готов прочесть с экрана, — 6-8, ну 10 строк. Дальше я все равно перепрыгну: в лучшем случае к следующему абзацу, в худшем — к следующему сайту.

Очень желательно также делить текст на небольшие фрагменты (главы), имеющие отдельные заголовки.

  • Нет! — переводам строки (
    ). Да! — полноценным абзацам (

    Или

    ).

Стандартный HTML оставляет создателю сайта очень небольшой выбор: либо абзацы следуют подряд и слипаются, либо пропускается целая строка, и текст раздувается. Из двух зол первое много хуже. Границы абзацев, следующих друг за другом без просветов, очень плохо видны, текст выглядит как нерасчлененный. А если последняя строка абзаца достаточно длинная, граница может вообще потеряться.

  • Да! — пронумерованным и непронумерованным спискам (bulleted lists)

Необходимо только следить, чтобы было хорошо видно, где начинается и кончается каждый элемент. В этом случае список легко пробежать глазами, что при чтении с экрана очень важно.

  • Да! — выделению важных мест «жирным» шрифтом или курсивом (но не в чрезмерных количествах). Нет! — подчеркиваниям вне ссылок.

Удобно, когда глазу есть за что зацепиться; это помогает быстро просмотреть текст и понять, что в нем нужно читать, а что нет — качество для Интернета весьма ценное. Однако выделять подчеркиванием неправильно: оно зарезервировано для ссылок и иное его употребление дезориентирует посетителей сайта.

Прописные Буквы и Точки в Заголовках.

В этом заголовке специально допущена ошибка, очень часто встречающаяся в Интернете и весьма обидная в стране со столь богатыми культурными традициями. В нем (вы, наверное, заметили) все слова начинаются с прописных букв.

Так принято оформлять заголовки не по-русски, а по-английски. (А еще в английском языке принято писать с больших букв дни недели и месяцы, названия народов и прилагательные от них. И запятые по-английски расставляются совсем не так, как по-русски. И слова другие. И даже буквы... А в немецком вообще все существительные пишутся с больших букв.)

Русская традиция оформления печатных текстов требует ставить в заголовках только одну прописную букву — в начале (плюс имена собственные и т. п.). Заголовки отличаются от обычных предложений лишь одним: в конце заголовков (а также подписей под фотографиями) не принято ставить точку.

Ё

Интернет — наследник печатного, а не письменного текста. Хорошо это или плохо, но в печатном тексте ставить точки над ё не принято (за исключением словарей, учебной литературы и т. п.). Книга по химии, в которой проставлены ё , смотрелась бы несолидно — и так же несолидно выглядят сайты, на которых на месте ё не стоит е . (Поэтому перед публикацией документа в книге или в Интернете часто приходится делать, казалось бы, лишнюю и абсурдную работу: находить проставленные ё и заменять их на е .)

Разумеется, книги и сайты, где ё то проставлено, то нет, выглядят еще более несолидно.

Впрочем, если точки над ё помогают прояснить смысл, разрешить омонимию (сделали все — сделали всё ), их все-таки рекомендуется ставить. Я обычно оставляю ё в слове всё , даже когда спутать его с все достаточно трудно.

Кавычки и тире

Работая в Word"е, я всегда ставлю «длинное» тире и почти всегда — кавычки-елочки, а в английском тексте — кавычки-лапки. (Функция автоматической замены AutoCorrect у меня отключена, так что я целенаправленно делаю это «руками»). Компьютер приучил меня оформлять создаваемые мной документы в соответствии с «книжными» стандартами, а правильные тире и кавычки — неотъемлемая их часть.

Тем не менее, мне приходится следить, чтобы в моих и чужих документах перед их публикацией в Сети кавычки были заменены на простые («, "), а тире — на обычный дефис (-). Это тот случай, когда соображения безопасности (совместимости с другими кодировками и операционными системами) важнее, чем красота.

Дело в том, что тире - , кавычки-елочки « » и лапки (двойные “ ” и одинарные ‘ ’ ) и некоторые другие символы (например, номер Э , абзац § , многоточие , промилле , срединная точка , плюс-минус ± ), которые есть в «виндовой» кодировке (Windows-1251), в koi8-r и других русских кодировках, в которых их вполне может получить пользователь, отсутствуют или стоят не на тех местах. При выдаче текста в кодировке, отличной от Windows-1251, эти знаки могут быть искажены (в тексте начинают «бегать чебурашки»). Не исключено, что вы видите в этом абзаце не те знаки, которые я назвал выше, а какие-то непонятные значки; если нет, вы несомненно видели такие значки на других сайтах.

Спецсимволы типа — (тире) и ‰ (промилле) положения не спасают, так как в koi8 соответствующих знаков просто нет. Наиболее красивый выход из положения — публиковать тексты в Windows-1251 и настроить программы таким образом, чтобы при переходе в koi тире автоматически заменялось на дефис, знак номера — на букву N, и так далее. Это однако, требует специального программирования и не всегда возможно. Поэтому приходится, скрепя сердце, давать следующую рекомендацию.

  • Перед публикацией текста в Интернете, если только на вашем сервере не предусмотрены специальные меры для правильного показа «спецсимволов», необходимо заменять все виды кавычек на простые кавычки, тире — на дефис, знак номера — на букву N или слово «номер», и так далее.

И еще раз о «Рамблере»

  • «Рамблер» , на «Рамблере» ; нежелательно *Рэмблер .

Rambler выбрал себе русское имя в начале 2000 года, оно закреплено в его официальном названии (ОАО «Рамблер Интернет Холдинг»). Рэмблером продолжают называть Rambler те, кто помнит его с очень давних времен, еще стековских .

  • с интернет-холдингом «Рамблер» , крайне нежелательно *с Рамблер Интернет Холдингом !

Так уж получилось, что юридически закреплено не вполне грамотное название (с кем не бывает — вон Ашманов и Партнеры тоже на английский манер пишется с двух прописных). Это официальное наименование «Рамблера» можно и нужно использовать как цитату, например: в ОАО (в компании) «Рамблер Интернет Холдинг» . Но *в Рамблер Интернет Холдинге звучит чудовищно!

  • Rambler"s Top100 должно писаться именно так. Неправильно *Rambler Top100 , *Рамблер Top100 , *Top 100 , *Топ100 и т. п.

Примечания

Цитирую Артемия Лебедева с сайта redactor.ru : «Примечательно, что большинство людей, пишущих интернет с большой буквы, часто не склоняют это слово и прибавляют к нему конструкцию «международная глобальная компьютерная сеть», что является образцом вопиющего старперства». (

просмотров