Исследование: «одноклассники» победили» «порно»

Этот материал рассказывает только о том, что и как люди ищут в интернете – о формулировках поисковых запросов, ошибках и опечатках, появлении новых слов и новых запросов. Все выводы основаны на данных поиска Яндекса.

   
   

В 1997 году, когда поисковая система Яндекс только появилась, в Рунете было около 18 тысяч сайтов и около 3 миллионов страниц. Объем всех текстов Рунета составлял 7,5 Гб — то есть все существовавшие на тот момент сайты легко бы поместились сейчас на одну хорошую флешку.

Количество пользователей Рунета не превышало 200 тысяч, и в день они задавали около тысячи запросов к Яндексу. Теперь в Рунете как минимум 13 миллио­нов сайтов, а полугодовая аудитория, по данным ФОМ, — более 32 миллионов человек.

По оценке Яндекса, сегодня пользователи русскоязычного интернета просма­тривают страницы результатов поиска всех поисковых машин более 1,9 миллиарда раз в месяц. Именно этот показатель — число показов страниц результатов поиска — часто считают числом поисковых запросов. Реальных запросов мень­ше. К поисковым системам Рунета задают, по оценке Яндекса, около 48 миллионов запросов в день (при ежедневном просмотре страниц результатов поиска более 63 мил­лионов раз).

За поиском нужного ответа средний пользователь проводит меньше пяти минут. В день — тот день, когда среднему пользовате­лю нужно что-то найти — он об­ращается к поиску один или два раза и делает в среднем пять за­просов.

По данным TNS на август 2008, ежемесячно поиском на Яндексе пользуются 66,7% российских пользо­вателей интернета, поиском на Mail.ru — 27,2%, поиском на Рамблере — 28,3% (не­которые пользователи регулярно ищут с помощью не­скольких поисковых систем). Поисковая система Google в исследованиях TNS не участвует.

Аудитория поиска Яндекса на 53,6% состоит из мужчин и на 46,4% — из женщин, аудитория поиска на Mail.ru — больше женская (44,2% мужчин и 55,8% женщин), а поис­ком Рамблера мужчины и женщины пользуются практиче­ски поровну — 48,1% мужчин и 51,9% женщин.

   
   

Распределение пользователей поиска по возрас­там похоже у всех трех порталов — больше всего ищут люди в возрасте от 25 до 34 лет (29-30%).

«Внешний вид» поисковых запросов

Типичный поисковый запрос состоит из двух или трех существительных, написанных кириллицей. Например, «реферат психология»

Средняя длина поискового запроса — 2,5 слова. За одиннадцать лет работы поиска Яндекса пользователи стали многословнее — в 1997 году, когда поиск на www.yandex.ru только появился, средний запрос состоял всего из 1,2 слова. Теперь количество информации в интернете во много раз увеличилось, и для того чтобы найти ответ на свой вопрос, бывает нужно сформулировать запрос точнее.

Рейтинг вопросительных слов

1 как 4597176  
      как правильно 141926
      как целоваться 9576
      как заработать в интернете 8672
      как завязать галстук 8541
2 что 1504560  
      что делать 61748
      чем открыть 27178
      что будет 1707780
      чем закончится сериал 4646
3 где 949088  
      где можно покупаться 12210
      где скачать песни 2161
      где купить платье 1498
4 какой 434165  
      какие документы 4500
      какие вопросы задать 738
      какой антивирус лучше 721
5 кто 420373  
      кто с кем 418109
      кто виноват 1767
      кто такие готы 1483
6 сколько 406462  
      сколько времени 7748
      сколько стоит билет 3053
      сколько варят кукурузу 253
7 когда 209951  
      когда стричься 1451
      когда запустят коллайдер 116
      когда будет солнечное затмение 134
8 куда 150074  
      куда вложить деньги 3951
      куда поступать 1655
      куда обращаться 990
9 почему 130550  
      почему нельзя 2154
      почему началась война 39
      почему желтеют листья 50
10 зачем 55130  
      зачем жить 191
      зачем учиться 308
11 откуда 27314  
      откуда берутся дети 1380
      откуда пошла фамилия 373
      откуда происходит слово 416
12 чей 15240  
      чей номер 1802
      чей туфля 50

Около 2,5% запросов сформулированы как вопрос. То есть это обычные вопросы, и пользователи, которые их задают, общаются с поисковой системой так, будто это живой человек. У Яндекса даже спрашивают «как пройти в библиотеку?» — в среднем 41 раз в месяц, «зачем герасим утопил муму?» — 53 раза и «кто убил лору палмер?» — 107 раз.

Самый популярный вопрос, с которым пользователи обращаются к Яндексу, — как. Вопросов, начинающихся с как, задают больше, чем вопросов, начинающихся со всех остальных вопросительных слов вместе взятых.

Интересно, что вопрос что значительно популярнее вопроса кто, и в частности вопрос «что делать» интересует пользователей больше вопроса «кто виноват».

Самые короткие составляющие запросов к Яндексу — отдельные буквы и цифры. Пользователей интересуют все буквы русского алфавита, больше всего — предлоги и однобуквенные союзы (например, «и» в августе 2008 искали 4385966 раз), а меньше всего — «ъ» (меньше 9 тысяч запросов в месяц).

Наиболее длинные осмысленные слова — как правило, сложные существительные, состоящие из нескольких корней. Самое длинное слово, заданное в качестве запроса к Яндексу в августе 2008 года, состоит из 37 символов — «гиппопотомомонстросесквиппедалиофобия». По этому запросу находится 4583 страницы (на сентябрь 2008 года). Среди самых длинных запросов, на которые существуют ответы в интернете, преобладают различные химические соединения этилоксиэтилпарафенилендиаминсульфат — 35 символов), названия компаний («средневолжсксельэлектросетьстрой» — 32 символа) и разного рода фобии (например, «гексакосиойгексеконтагексофобия» — 31 символ).

«Гиппопотомомонстросесквиппедалиофобия», как ясно из названия, — боязнь произнесения новых слов. «Гексакосиойгексеконтагексофобия» — боязнь числа 666. В интернете еще встречается слово «гексакосиойгексеконтагексапараскаведекатриафобия» (48 символов)

— боязнь числа 666 в пятницу, 13 числа. Однако эту фобию в Яндексе пока не искали.

В запросах на поиск картинок самые длинные запросы — это «электростеклоподъемник» и «электроводонагреватель» — по 22 символа

Для общения с поисковой машиной чаще всего используют существительные — эту часть речи содержат 75% запросов к поиску. Вторая по распространенности часть речи — прилагательные, они присутствуют в 16% запросов к веб-поиску. Глаголы используют только в 5% случаев, а наречия есть менее чем в 1% запросов.

Большинство пользователей не позволяют себе грубостей с поисковой системой — матерную лексику содержит сравнительно небольшое количество запросов — полтора процента. Тем не менее матерных слов больше, чем, например, наречий или числительных (количественных и порядковых вместе взятых). Числительные присутствуют всего в 0,2% запросов.

Свои запросы к поиску русскоязычные пользователи в основном пишут на кириллице (более 72% запросов). Латиницей написаны около 15% запросов, а около 11% содержат и кириллические, и латинские символы. Чуть более 1% — это запросы из одних чисел, пустые или бессмысленные.

Приблизительно в каждом десятом поисковом запросе присутствует название организации или сайта. В этом случае пользователь часто хочет найти вполне определенный сайт, и все остальные результаты поиска его не интересуют.

Иногда при формулировке поисковых запросов пользователи явно указывают желание получить (купить, скачать) или продать что-то. Запросов с такими уточняющими словами около 4%.

скачать 3,3% игры скачать 848600
бесплатно 1% фильмы бесплатно 298679
купить, куплю 0,6% купить Москва 83377
цена, цены 0,4% цена билета 49175
продам, продать,

продаю
0,1% продаю квартиру 32474

Интересно, что глагол купить в запросах встречается в три раза чаще, чем продать, а существительное продажа — в восемь раз чаще существительного покупка. Запросы «купить» и «продажа» синонимичны: и в том, и в другом случае пользователь хочет купить что-то и ищет предложение товара. Так что спрос в интернете существенно превышает

предложение.

Ошибки и опечатки

14-15% всех запросов содержат различные ошибки и искажения. Ошибки в поисковых запросах возникают по разным причинам — не только из-за неграмотности, но и из-за стремления найти ответ как можно быстрее, неверной раскладки клавиатуры и т.п.

Две трети всех ошибок — орфографические (пропущенные буквы, неправильное написание слов и т.п.).

Самая распространенная ошибка сейчас — «однокласники» (с одной с). Запрос «однокласники» встречается в 8 раз реже грамотного запроса «одноклассники», но входит в топ-10 запросов к Яндексу в августе 2008. Это единственный запрос с ошибкой среди ста самых частотных поисковых запросов.

Бывают слова, для которых нет устоявшейся нормы написания. Например, Яндекс знает 12 вариантов написания слова риэлтор — ораспространенного «риэлтор» до экзотических «риэлтар» и «реелтр» . Также бывают слова, которые чаще пишут неправильно. Одно из таких сложных слов — «трансъевропейский». В поисковых запросах вариант «трансевропейский» встречается в полтора раза чаще словарного, и сайтов по нему находится почти в два раза больше.

По поисковым запросам можно понять, какой способ написания слов, недавно появившихся в русском языке, выбирают пользователи.

Варианты «тег» 26425, «бренд» 51333 и «тренд» 7986 победили варианты «тэг» 7986, «брэнд» 7704 и «трэнд» 361.

Большинство пишет «браузер», а не «броузер» и «фитнес», а не «фитнесс»

32989.

Варианты написания слова «риэлтор»

риэлтор 22125

риелтор 4331

риэлтер 3046

риелтер 643

реэлтор 527

реелтор 309

риэлтр 132

реэлтер 71

реелтер 56

риелтр 40

реелтр 14

риэлтар 13

Четверть ошибок в поисковых запросах пользователей связана с лишними и пропущенными пробелами или со смысловыми ошибками — когда ошибка или опечатка в одном слове меняет смысл запроса. Например, «скачатьбесплатно» вместо «скачать бесплатно» или «дипломные роботы» вместо «дипломные работы».

И ещё около 5% ошибок возникают из-за неверной раскладки клавиатуры.

Для некоторых пользователей не существует адресной строки браузера, поэтому они вводят адреса сайтов в строку поиска. Таких запросов достаточно — около 4%, из них 1,3% содержат www, например, «www.mail.ru» и 2,6% — не содержат, например, «yandex.ru». Адреса

электронной почты есть в 0,2% запросов.

Популярные запросы

Самые популярные запросы — только очень небольшая часть всех запросов к поиску. По данным на август 2008, общее количество запросов из первой сотни составляет около семи процентов от всех поисковых запросов (около 1,8 миллиона запросов к Яндексу в день). Большинство запросов достаточно редки — каждый из них задается реже ста раз в день. Именно такие, низкочастотные, запросы составляют три четверти поисковых запросов (более 20 миллионов в день).

На рисунке: столько процентов составляют запросы различной частотности от общего ежедневного количества поисковых запросов

Список самых популярных поисковых запросов в целом изменяется крайне медленно.

На топ-10 не влияют ни новости, ни сезонность — речь идет о десятках тысяч одинаковых запросов в день. Однако за последние полтора года самые часто задаваемые запросы к Яндексу изменились достаточно сильно (см. таблицу 4). Это первое серьезное изменение первой десятки за несколько лет. Основная причина этих изменений — появление и огромная популярность социальных сетей. Первый раз за несколько лет запрос «порно» перестал быть самым популярным, уступив запроса «одноклассники» и «в контакте». В топ-50 самых частых запросов в августе 2008 года входит двенадцать запросов, связанных с социальными сетями.

Топ поисковых запросов
2.7% запроса Январь

2007
Август

2008
порно одноклассники
погода в контакте
знакомства порно
mail.ru погода
скачать mail.ru
работа вконтакте
сонник контакт
ваз однокласники
из рук в руки mail
гороскоп зайцев нет

Из десяти запросов, наиболее распространенных в январе 2007, сильно опустились только два — «скачать» и «ваз», на 108 и 533 место соответственно. Остальные находятся в первой или второй десятке рейтинга.

Рейтинг запросов с мобильных телефонов, выглядит несколько иначе — там социальная тематика пока не победила сексуальную.

Региональные запросы

Обычно пользователи из разных регионов ищут в интернете похожие вещи. Но, конечно, в каждом регионе существуют специфические, «местные» запросы — например, названия аэропортов или магазинов. Чтобы выделить такие запросы, можно использовать специальный показатель — региональность.

Региональность запроса — это отношение частоты, с которой задавали этот запрос пользователи определенного региона, к количеству всех запросов из этого региона. Чем больше это отношение (то есть доля того или иного запроса среди всех запросов), тем более этот запрос «местный», то есть наиболее популярный в определенном регионе.

Сравнение показателей региональности в разных регионах позволяет увидеть, какие запросы характерны для того или иного региона.

Как правило, доли самых распространенных запросов оказываются больше там, где не так много пользователей — в небольших городах или в других странах. Так, например, запросы «в контакте» и «вконтакте» наиболее свойственны Гатчине — конечно, здесь не самое большое количество пользователей этой социальной сети, но самая большая концентрация

интереса к ней. Запрос «зайцев нет» свойственен Люберцам, «порно» — Нидерландам, а «работа» и «секс» — Индии.

Для крупных городов локальные запросы часто содержат указание города или региона («новосибирский зоопарк», «знакомства в ростове») или местных брендов. Например, один из кировских запросов — «квадрат» — означает не геометрическую фигуру, а сеть магазинов техники.

Среди локальных часто оказываются запросы со спортивными клубами («фк урал», «рубин»), университетами («двгу», «пгту»), названиями аэропортов («толмачево», «аэропорт курумоч») и т.п.

Уточнить поисковый запрос можно не только непосредственно его формулировкой, но и при помощи дополнительных интерфейсных возможностей поисковой системы. Например, в Яндексе можно ограничить поиск по тому или иному месту, поставив галочку «искать только в определенном регионе». Этой возможностью пользуются в среднем около 5% посетителей Яндекса. В большинстве крупных городов этой опцией пользуются чаще, чем в среднем. Интересно также, что пользователи из Санкт-Петербурга достаточно редко указывают свой город непосредственно в запросе, но при этом ежедневно около 15% петербургских

запросов ограничены по этому региону. Вообще самый популярный регион при ограничении поиска — Северо-Запад.

Всплески интереса

При помощи поисковых запросов можно увидеть, как меняется интерес пользователей к различным понятиям и событиям. Для этого в январе 1999 года был придуман НИНИ-индекс — индекс Непостоянства Интересов Населения Интернета. Он показывает, к каким запросам интерес пользователей внезапно вырос, а к каким — упал.

Резкое появление интереса со стороны пользователей связано с различными новостями — общественно-политическими или светскими.

В июле 2008 года никаких политических событий не происходило, и наибольший всплеск интереса вызвала радиопередача с участием Кати Гордон и Ксении Собчак (запросы «ксения собчак», «собчак», «собчак гордон», «гордон» и т.п.) Другие июльские всплески интереса были вызваны смертями Нонны Мордюковой и Михаила Пуговкина.

В августе 2008 года пользователей интересовали уже совсем другие вещи — российско-грузинский конфликт («война в осетии», «война в южной осетии», «война грузия») и олимпиада («дневник олимпиады», «медали олимпиады», «итоги олимпиады»). На третьем месте — свадьба Ксении Бородиной.

Кроме новостей и важных событий резкие всплески интереса вызывают мемы — практически любая информация, которая неожиданно становится популярной и мгновенно распространяется среди пользователей интернета. Например, слово «превед», вопрос «как вы относитесь к пробуждению Ктулху?» и т.п. Одно из последних таких явлений — запуск большого адронного коллайдера в Швейцарии, который готовился летом 2008 года. Еще год назад адронными коллайдерами никто, кроме нескольких специалистов, не интересовался — ежемесячное количество запросов не превышало нескольких десятков. Этим летом пользователи задавали десятки тысяч запросов «адронный коллайдер» и «большой адронный коллайдер».

Кроме того, пользователи искали «андронный коллайдер»20132 и «андроидный коллайдер»1823 (количество запросов за август 2008).

Среди связанных запросов — то есть таких, которые пользователи искали

в рамках одной поисковой сессии с запросом «коллайдер», — были запросы «черная дыра» и «конец света».

Кроме того, многие из тех, кто искал «большой адронный коллайдер», искали также различные водонагреватели — видимо, потому что слово «бак», кроме всего прочего, — сокращение от большого адронного коллайдера. Увидев это словосочетание в результатах поиска, некоторые пользователи решили узнать, что оно значит. Люди, искавшие просто «адронный коллайдер», нагревателями не интересовались.

Появление новых слов

Поисковые запросы также показывают, как появляются новые предметы и явления, а вместе с ними — новые слова в языке. До 2006 года, пока не появилась социальная сеть Вконтакте.ру, запроса «вконтакте» без пробела не существовало, а теперь он — один из самых часто задаваемых.

Сезонные колебания

Очевидно, что интересы пользователей (и как следствие — поисковые запросы) зависят от времени года — так, например, зимой больше ищут катки, а летом — водоемы. Для наблюдения за сезонными

колебаниями подходит, например, школьная программа

по литературе. По поисковым запросам, содержащим названия произведений, хорошо видно, когда люди начинают

искать эти произведения в интернете.

Оказывается, почти никто, кроме школьников или их родителей, книгами из школьной программы не интересуется.

Запросы к поиску на тему различных книг в течение всего

года распределяются равномерно, и их количество относительно

невелико — кроме одного месяца, когда наблюдается

значительный всплеск интереса.

Видимо, как раз в этом месяце книгу проходят в школе. Разница между максимальными средним числом запросов достаточно большая. В таблице для всех произведений указано количество запросов за тот месяц, когда интерес к ним максимальный, и разница по сравнению со среднемесячным количеством запросов.

Поиск литературных произведений из школьной программы для 7-8 классов

Месяц Произведение Запрос Количество

запросов
По

сравнению

со средним
Сентябрь Гомер, «Одиссея» «одиссея гомер»

другие запросы: «поэма гомера одиссея», «гомер илиада одиссея», «гомер одиссея краткое»
2408 +126%
Октябрь Д. Фонвизин, «Недоросль» «недоросль»

другие запросы: «фонвизин недоросль», «комедия недоросль», «сочинения недоросль»
44555 +408%
Ноябрь А. Пушкин, «Капитанская дочка» «капитанская дочка»

другие запросы: «сочинение капитанская дочка», «пушкин капитанская дочка»
28436 +227%
Декабрь М. Лермонтов, «Мцыри» «мцыри»

другие запросы: «лермонтов мцыри», «поэма мцыри»
23855 +315%
Декабрь Н. Гоголь, «Ревизор» «ревизор»

другие запросы: «гоголь ревизор», «ревизор хлестаков», «ревизор характеристики»
32500 +170%
Январь М. Салтыков-Щедрин, сказки «салтыков щедрин сказки»

другие запросы: «анализ сказок салтыкова щедрина», «салтыков щедрин сказка премудрый», «салтыков щедрин сказка пескарь»
5754 +255%
Февраль А. Толстой, «Князь Серебряный» «князь серебряный»

другие запросы: «толстой князь серебряный»
2227 +138%
Март М. Горький, «Детство» «горький детство»

другие запросы: «м горький детство», «горький детство скачать»
5646 +233%
Апрель А. Твардовский, «Василий Теркин» «василий теркин»

другие запросы: «твардовский василий теркин», «василий теркин кратко»
10878 +316%

Основные факты и цифры

- По оценке Яндекса, сегодня пользователи русскоязычного интернета просматривают страницы результатов поиска всех поисковых машин более 1,9 миллиарда раз в месяц.

- За поиском нужного ответа средний пользователь проводит меньше пяти минут за один раз. В день — тот день, когда среднему пользователю нужно что-то найти — он обращается к поиску один или два раза и делает пять запросов.

- Типичный поисковый запрос состоит из двух или трех существительных, написанных кириллицей. Например, «реферат психология».

- Средняя длина поискового запроса — 2,5 слова. По сравнению с 1997 годом запросы стали вдвое длиннее — тогда средний запрос состоял всего из 1,2 слова.

- Около 2,5% поисковых запросов сформулированы как вопрос. Самый популярный вопрос, с которым пользователи обращаются к Яндексу — как. Вопросов, начинающихся с как, задают больше, чем вопросов, начинающихся со всех остальных вопросительных слов вместе взятых. Вопрос что значительно популярнее вопроса кто, и в частности вопрос «что делать» интересует пользователей больше вопроса «кто виноват».

- Самое длинное слово, заданное в качестве запроса к Яндексу в августе 2008 года, состоит из 37 символов -гиппопотомомонстросесквиппедалиофобия.

- Для общения с поисковой машиной чаще всего используют существительные — эту часть речи содержат 75% запросов к «большому» поиску и 96% запросов к поиску по картинкам.

- Большинство пользователей не позволяют себе грубостей с поисковой системой — матерную лексику содержит сравнительно небольшое количество запросов — полтора процента.

- 14-15% всех запросов содержат различные ошибки и искажения. Две трети всех ошибок — орфографические (пропущенные буквы, неправильное написание слов и т.п.).

- Самая распространенная ошибка сейчас — однокласники (с одной с). Этот запрос входит в топ-10 запросов к Яндексу в августе 2008.

- Для некоторых пользователей не существует адресной строки браузера, поэтому они вводят адреса сайтов в строку поиска. Таких запросов достаточно — около 4%.

- По поисковым запросам можно понять, какой способ написания слов, недавно появившихся в русском языке, выбирают пользователи.

- Варианты «тег», «бренд» и «тренд» победили варианты «тэг», «брэнд» и «трэнд».

Смотрите также: