Этот материал рассказывает только о том, что и как люди ищут в интернете – о формулировках поисковых запросов, ошибках и опечатках, появлении новых слов и новых запросов. Все выводы основаны на данных поиска Яндекса.
В 1997 году, когда поисковая система Яндекс только появилась, в Рунете было около 18 тысяч сайтов и около 3 миллионов страниц. Объем всех текстов Рунета составлял 7,5 Гб — то есть все существовавшие на тот момент сайты легко бы поместились сейчас на одну хорошую флешку.
Количество пользователей Рунета не превышало 200 тысяч, и в день они задавали около тысячи запросов к Яндексу. Теперь в Рунете как минимум 13 миллионов сайтов, а полугодовая аудитория, по данным ФОМ, — более 32 миллионов человек.
По оценке Яндекса, сегодня пользователи русскоязычного интернета просматривают страницы результатов поиска всех поисковых машин более 1,9 миллиарда раз в месяц. Именно этот показатель — число показов страниц результатов поиска — часто считают числом поисковых запросов. Реальных запросов меньше. К поисковым системам Рунета задают, по оценке Яндекса, около 48 миллионов запросов в день (при ежедневном просмотре страниц результатов поиска более 63 миллионов раз).
За поиском нужного ответа средний пользователь проводит меньше пяти минут. В день — тот день, когда среднему пользователю нужно что-то найти — он обращается к поиску один или два раза и делает в среднем пять запросов.
По данным TNS на август 2008, ежемесячно поиском на Яндексе пользуются 66,7% российских пользователей интернета, поиском на Mail.ru — 27,2%, поиском на Рамблере — 28,3% (некоторые пользователи регулярно ищут с помощью нескольких поисковых систем). Поисковая система Google в исследованиях TNS не участвует.
Аудитория поиска Яндекса на 53,6% состоит из мужчин и на 46,4% — из женщин, аудитория поиска на Mail.ru — больше женская (44,2% мужчин и 55,8% женщин), а поиском Рамблера мужчины и женщины пользуются практически поровну — 48,1% мужчин и 51,9% женщин.
Распределение пользователей поиска по возрастам похоже у всех трех порталов — больше всего ищут люди в возрасте от 25 до 34 лет (29-30%).
«Внешний вид» поисковых запросов
Типичный поисковый запрос состоит из двух или трех существительных, написанных кириллицей. Например, «реферат психология»
Средняя длина поискового запроса — 2,5 слова. За одиннадцать лет работы поиска Яндекса пользователи стали многословнее — в 1997 году, когда поиск на www.yandex.ru только появился, средний запрос состоял всего из 1,2 слова. Теперь количество информации в интернете во много раз увеличилось, и для того чтобы найти ответ на свой вопрос, бывает нужно сформулировать запрос точнее.
Рейтинг вопросительных слов
№ | Вопрос | Количество за месяц |
Примеры (количество запросов указано в среднем за месяц) |
1 | как | 4597176 | |
как правильно 141926 | |||
как целоваться 9576 | |||
как заработать в интернете 8672 | |||
как завязать галстук 8541 | |||
2 | что | 1504560 | |
что делать 61748 | |||
чем открыть 27178 | |||
что будет 1707780 | |||
чем закончится сериал 4646 | |||
3 | где | 949088 | |
где можно покупаться 12210 | |||
где скачать песни 2161 | |||
где купить платье 1498 | |||
4 | какой | 434165 | |
какие документы 4500 | |||
какие вопросы задать 738 | |||
какой антивирус лучше 721 | |||
5 | кто | 420373 | |
кто с кем 418109 | |||
кто виноват 1767 | |||
кто такие готы 1483 | |||
6 | сколько | 406462 | |
сколько времени 7748 | |||
сколько стоит билет 3053 | |||
сколько варят кукурузу 253 | |||
7 | когда | 209951 | |
когда стричься 1451 | |||
когда запустят коллайдер 116 | |||
когда будет солнечное затмение 134 | |||
8 | куда | 150074 | |
куда вложить деньги 3951 | |||
куда поступать 1655 | |||
куда обращаться 990 | |||
9 | почему | 130550 | |
почему нельзя 2154 | |||
почему началась война 39 | |||
почему желтеют листья 50 | |||
10 | зачем | 55130 | |
зачем жить 191 | |||
зачем учиться 308 | |||
11 | откуда | 27314 | |
откуда берутся дети 1380 | |||
откуда пошла фамилия 373 | |||
откуда происходит слово 416 | |||
12 | чей | 15240 | |
чей номер 1802 | |||
чей туфля 50 |
Около 2,5% запросов сформулированы как вопрос. То есть это обычные вопросы, и пользователи, которые их задают, общаются с поисковой системой так, будто это живой человек. У Яндекса даже спрашивают «как пройти в библиотеку?» — в среднем 41 раз в месяц, «зачем герасим утопил муму?» — 53 раза и «кто убил лору палмер?» — 107 раз.
Самый популярный вопрос, с которым пользователи обращаются к Яндексу, — как. Вопросов, начинающихся с как, задают больше, чем вопросов, начинающихся со всех остальных вопросительных слов вместе взятых.
Интересно, что вопрос что значительно популярнее вопроса кто, и в частности вопрос «что делать» интересует пользователей больше вопроса «кто виноват».
Самые короткие составляющие запросов к Яндексу — отдельные буквы и цифры. Пользователей интересуют все буквы русского алфавита, больше всего — предлоги и однобуквенные союзы (например, «и» в августе 2008 искали 4385966 раз), а меньше всего — «ъ» (меньше 9 тысяч запросов в месяц).
Наиболее длинные осмысленные слова — как правило, сложные существительные, состоящие из нескольких корней. Самое длинное слово, заданное в качестве запроса к Яндексу в августе 2008 года, состоит из 37 символов — «гиппопотомомонстросесквиппедалиофобия». По этому запросу находится 4583 страницы (на сентябрь 2008 года). Среди самых длинных запросов, на которые существуют ответы в интернете, преобладают различные химические соединения этилоксиэтилпарафенилендиаминсульфат — 35 символов), названия компаний («средневолжсксельэлектросетьстрой» — 32 символа) и разного рода фобии (например, «гексакосиойгексеконтагексофобия» — 31 символ).
«Гиппопотомомонстросесквиппедалиофобия», как ясно из названия, — боязнь произнесения новых слов. «Гексакосиойгексеконтагексофобия» — боязнь числа 666. В интернете еще встречается слово «гексакосиойгексеконтагексапараскаведекатриафобия» (48 символов)
— боязнь числа 666 в пятницу, 13 числа. Однако эту фобию в Яндексе пока не искали.
В запросах на поиск картинок самые длинные запросы — это «электростеклоподъемник» и «электроводонагреватель» — по 22 символа
Для общения с поисковой машиной чаще всего используют существительные — эту часть речи содержат 75% запросов к поиску. Вторая по распространенности часть речи — прилагательные, они присутствуют в 16% запросов к веб-поиску. Глаголы используют только в 5% случаев, а наречия есть менее чем в 1% запросов.
Большинство пользователей не позволяют себе грубостей с поисковой системой — матерную лексику содержит сравнительно небольшое количество запросов — полтора процента. Тем не менее матерных слов больше, чем, например, наречий или числительных (количественных и порядковых вместе взятых). Числительные присутствуют всего в 0,2% запросов.
Свои запросы к поиску русскоязычные пользователи в основном пишут на кириллице (более 72% запросов). Латиницей написаны около 15% запросов, а около 11% содержат и кириллические, и латинские символы. Чуть более 1% — это запросы из одних чисел, пустые или бессмысленные.
Приблизительно в каждом десятом поисковом запросе присутствует название организации или сайта. В этом случае пользователь часто хочет найти вполне определенный сайт, и все остальные результаты поиска его не интересуют.
Иногда при формулировке поисковых запросов пользователи явно указывают желание получить (купить, скачать) или продать что-то. Запросов с такими уточняющими словами около 4%.
Уточнение | Доля запросов | Примеры распространенных запросов (количество на август 2008) |
скачать | 3,3% | игры скачать 848600 |
бесплатно | 1% | фильмы бесплатно 298679 |
купить, куплю | 0,6% | купить Москва 83377 |
цена, цены | 0,4% | цена билета 49175 |
продам, продать, продаю |
0,1% | продаю квартиру 32474 |
Интересно, что глагол купить в запросах встречается в три раза чаще, чем продать, а существительное продажа — в восемь раз чаще существительного покупка. Запросы «купить» и «продажа» синонимичны: и в том, и в другом случае пользователь хочет купить что-то и ищет предложение товара. Так что спрос в интернете существенно превышает
предложение.
Ошибки и опечатки
14-15% всех запросов содержат различные ошибки и искажения. Ошибки в поисковых запросах возникают по разным причинам — не только из-за неграмотности, но и из-за стремления найти ответ как можно быстрее, неверной раскладки клавиатуры и т.п.
Две трети всех ошибок — орфографические (пропущенные буквы, неправильное написание слов и т.п.).
Самая распространенная ошибка сейчас — «однокласники» (с одной с). Запрос «однокласники» встречается в 8 раз реже грамотного запроса «одноклассники», но входит в топ-10 запросов к Яндексу в августе 2008. Это единственный запрос с ошибкой среди ста самых частотных поисковых запросов.
Бывают слова, для которых нет устоявшейся нормы написания. Например, Яндекс знает 12 вариантов написания слова риэлтор — ораспространенного «риэлтор» до экзотических «риэлтар» и «реелтр» . Также бывают слова, которые чаще пишут неправильно. Одно из таких сложных слов — «трансъевропейский». В поисковых запросах вариант «трансевропейский» встречается в полтора раза чаще словарного, и сайтов по нему находится почти в два раза больше.
По поисковым запросам можно понять, какой способ написания слов, недавно появившихся в русском языке, выбирают пользователи.
Варианты «тег» 26425, «бренд» 51333 и «тренд» 7986 победили варианты «тэг» 7986, «брэнд» 7704 и «трэнд» 361.
Большинство пишет «браузер», а не «броузер» и «фитнес», а не «фитнесс»
32989.
Варианты написания слова «риэлтор»
риэлтор 22125
риелтор 4331
риэлтер 3046
риелтер 643
реэлтор 527
реелтор 309
риэлтр 132
реэлтер 71
реелтер 56
риелтр 40
реелтр 14
риэлтар 13
Четверть ошибок в поисковых запросах пользователей связана с лишними и пропущенными пробелами или со смысловыми ошибками — когда ошибка или опечатка в одном слове меняет смысл запроса. Например, «скачатьбесплатно» вместо «скачать бесплатно» или «дипломные роботы» вместо «дипломные работы».
И ещё около 5% ошибок возникают из-за неверной раскладки клавиатуры.
Для некоторых пользователей не существует адресной строки браузера, поэтому они вводят адреса сайтов в строку поиска. Таких запросов достаточно — около 4%, из них 1,3% содержат www, например, «www.mail.ru» и 2,6% — не содержат, например, «yandex.ru». Адреса
электронной почты есть в 0,2% запросов.
Популярные запросы
Самые популярные запросы — только очень небольшая часть всех запросов к поиску. По данным на август 2008, общее количество запросов из первой сотни составляет около семи процентов от всех поисковых запросов (около 1,8 миллиона запросов к Яндексу в день). Большинство запросов достаточно редки — каждый из них задается реже ста раз в день. Именно такие, низкочастотные, запросы составляют три четверти поисковых запросов (более 20 миллионов в день).
На рисунке: столько процентов составляют запросы различной частотности от общего ежедневного количества поисковых запросов
Список самых популярных поисковых запросов в целом изменяется крайне медленно.
На топ-10 не влияют ни новости, ни сезонность — речь идет о десятках тысяч одинаковых запросов в день. Однако за последние полтора года самые часто задаваемые запросы к Яндексу изменились достаточно сильно (см. таблицу 4). Это первое серьезное изменение первой десятки за несколько лет. Основная причина этих изменений — появление и огромная популярность социальных сетей. Первый раз за несколько лет запрос «порно» перестал быть самым популярным, уступив запроса «одноклассники» и «в контакте». В топ-50 самых частых запросов в августе 2008 года входит двенадцать запросов, связанных с социальными сетями.
Топ поисковых запросов | ||
2.7% запроса | Январь 2007 |
Август 2008 |
порно | одноклассники | |
погода | в контакте | |
знакомства | порно | |
mail.ru | погода | |
скачать | mail.ru | |
работа | вконтакте | |
сонник | контакт | |
ваз | однокласники | |
из рук в руки | ||
гороскоп | зайцев нет |
Из десяти запросов, наиболее распространенных в январе 2007, сильно опустились только два — «скачать» и «ваз», на 108 и 533 место соответственно. Остальные находятся в первой или второй десятке рейтинга.
Рейтинг запросов с мобильных телефонов, выглядит несколько иначе — там социальная тематика пока не победила сексуальную.
Региональные запросы
Обычно пользователи из разных регионов ищут в интернете похожие вещи. Но, конечно, в каждом регионе существуют специфические, «местные» запросы — например, названия аэропортов или магазинов. Чтобы выделить такие запросы, можно использовать специальный показатель — региональность.
Региональность запроса — это отношение частоты, с которой задавали этот запрос пользователи определенного региона, к количеству всех запросов из этого региона. Чем больше это отношение (то есть доля того или иного запроса среди всех запросов), тем более этот запрос «местный», то есть наиболее популярный в определенном регионе.
Сравнение показателей региональности в разных регионах позволяет увидеть, какие запросы характерны для того или иного региона.
Как правило, доли самых распространенных запросов оказываются больше там, где не так много пользователей — в небольших городах или в других странах. Так, например, запросы «в контакте» и «вконтакте» наиболее свойственны Гатчине — конечно, здесь не самое большое количество пользователей этой социальной сети, но самая большая концентрация
интереса к ней. Запрос «зайцев нет» свойственен Люберцам, «порно» — Нидерландам, а «работа» и «секс» — Индии.
Для крупных городов локальные запросы часто содержат указание города или региона («новосибирский зоопарк», «знакомства в ростове») или местных брендов. Например, один из кировских запросов — «квадрат» — означает не геометрическую фигуру, а сеть магазинов техники.
Среди локальных часто оказываются запросы со спортивными клубами («фк урал», «рубин»), университетами («двгу», «пгту»), названиями аэропортов («толмачево», «аэропорт курумоч») и т.п.
Уточнить поисковый запрос можно не только непосредственно его формулировкой, но и при помощи дополнительных интерфейсных возможностей поисковой системы. Например, в Яндексе можно ограничить поиск по тому или иному месту, поставив галочку «искать только в определенном регионе». Этой возможностью пользуются в среднем около 5% посетителей Яндекса. В большинстве крупных городов этой опцией пользуются чаще, чем в среднем. Интересно также, что пользователи из Санкт-Петербурга достаточно редко указывают свой город непосредственно в запросе, но при этом ежедневно около 15% петербургских
запросов ограничены по этому региону. Вообще самый популярный регион при ограничении поиска — Северо-Запад.
Всплески интереса
При помощи поисковых запросов можно увидеть, как меняется интерес пользователей к различным понятиям и событиям. Для этого в январе 1999 года был придуман НИНИ-индекс — индекс Непостоянства Интересов Населения Интернета. Он показывает, к каким запросам интерес пользователей внезапно вырос, а к каким — упал.
Резкое появление интереса со стороны пользователей связано с различными новостями — общественно-политическими или светскими.
В июле 2008 года никаких политических событий не происходило, и наибольший всплеск интереса вызвала радиопередача с участием Кати Гордон и Ксении Собчак (запросы «ксения собчак», «собчак», «собчак гордон», «гордон» и т.п.) Другие июльские всплески интереса были вызваны смертями Нонны Мордюковой и Михаила Пуговкина.
В августе 2008 года пользователей интересовали уже совсем другие вещи — российско-грузинский конфликт («война в осетии», «война в южной осетии», «война грузия») и олимпиада («дневник олимпиады», «медали олимпиады», «итоги олимпиады»). На третьем месте — свадьба Ксении Бородиной.
Кроме новостей и важных событий резкие всплески интереса вызывают мемы — практически любая информация, которая неожиданно становится популярной и мгновенно распространяется среди пользователей интернета. Например, слово «превед», вопрос «как вы относитесь к пробуждению Ктулху?» и т.п. Одно из последних таких явлений — запуск большого адронного коллайдера в Швейцарии, который готовился летом 2008 года. Еще год назад адронными коллайдерами никто, кроме нескольких специалистов, не интересовался — ежемесячное количество запросов не превышало нескольких десятков. Этим летом пользователи задавали десятки тысяч запросов «адронный коллайдер» и «большой адронный коллайдер».
Кроме того, пользователи искали «андронный коллайдер»20132 и «андроидный коллайдер»1823 (количество запросов за август 2008).
Среди связанных запросов — то есть таких, которые пользователи искали
в рамках одной поисковой сессии с запросом «коллайдер», — были запросы «черная дыра» и «конец света».
Кроме того, многие из тех, кто искал «большой адронный коллайдер», искали также различные водонагреватели — видимо, потому что слово «бак», кроме всего прочего, — сокращение от большого адронного коллайдера. Увидев это словосочетание в результатах поиска, некоторые пользователи решили узнать, что оно значит. Люди, искавшие просто «адронный коллайдер», нагревателями не интересовались.
Появление новых слов
Поисковые запросы также показывают, как появляются новые предметы и явления, а вместе с ними — новые слова в языке. До 2006 года, пока не появилась социальная сеть Вконтакте.ру, запроса «вконтакте» без пробела не существовало, а теперь он — один из самых часто задаваемых.
Сезонные колебания
Очевидно, что интересы пользователей (и как следствие — поисковые запросы) зависят от времени года — так, например, зимой больше ищут катки, а летом — водоемы. Для наблюдения за сезонными
колебаниями подходит, например, школьная программа
по литературе. По поисковым запросам, содержащим названия произведений, хорошо видно, когда люди начинают
искать эти произведения в интернете.
Оказывается, почти никто, кроме школьников или их родителей, книгами из школьной программы не интересуется.
Запросы к поиску на тему различных книг в течение всего
года распределяются равномерно, и их количество относительно
невелико — кроме одного месяца, когда наблюдается
значительный всплеск интереса.
Видимо, как раз в этом месяце книгу проходят в школе. Разница между максимальными средним числом запросов достаточно большая. В таблице для всех произведений указано количество запросов за тот месяц, когда интерес к ним максимальный, и разница по сравнению со среднемесячным количеством запросов.
Поиск литературных произведений из школьной программы для 7-8 классов
Месяц | Произведение | Запрос | Количество запросов |
По сравнению со средним |
Сентябрь | Гомер, «Одиссея» | «одиссея гомер» другие запросы: «поэма гомера одиссея», «гомер илиада одиссея», «гомер одиссея краткое» |
2408 | +126% |
Октябрь | Д. Фонвизин, «Недоросль» | «недоросль» другие запросы: «фонвизин недоросль», «комедия недоросль», «сочинения недоросль» |
44555 | +408% |
Ноябрь | А. Пушкин, «Капитанская дочка» | «капитанская дочка» другие запросы: «сочинение капитанская дочка», «пушкин капитанская дочка» |
28436 | +227% |
Декабрь | М. Лермонтов, «Мцыри» | «мцыри» другие запросы: «лермонтов мцыри», «поэма мцыри» |
23855 | +315% |
Декабрь | Н. Гоголь, «Ревизор» | «ревизор» другие запросы: «гоголь ревизор», «ревизор хлестаков», «ревизор характеристики» |
32500 | +170% |
Январь | М. Салтыков-Щедрин, сказки | «салтыков щедрин сказки» другие запросы: «анализ сказок салтыкова щедрина», «салтыков щедрин сказка премудрый», «салтыков щедрин сказка пескарь» |
5754 | +255% |
Февраль | А. Толстой, «Князь Серебряный» | «князь серебряный» другие запросы: «толстой князь серебряный» |
2227 | +138% |
Март | М. Горький, «Детство» | «горький детство» другие запросы: «м горький детство», «горький детство скачать» |
5646 | +233% |
Апрель | А. Твардовский, «Василий Теркин» | «василий теркин» другие запросы: «твардовский василий теркин», «василий теркин кратко» |
10878 | +316% |
Основные факты и цифры
- По оценке Яндекса, сегодня пользователи русскоязычного интернета просматривают страницы результатов поиска всех поисковых машин более 1,9 миллиарда раз в месяц.
- За поиском нужного ответа средний пользователь проводит меньше пяти минут за один раз. В день — тот день, когда среднему пользователю нужно что-то найти — он обращается к поиску один или два раза и делает пять запросов.
- Типичный поисковый запрос состоит из двух или трех существительных, написанных кириллицей. Например, «реферат психология».
- Средняя длина поискового запроса — 2,5 слова. По сравнению с 1997 годом запросы стали вдвое длиннее — тогда средний запрос состоял всего из 1,2 слова.
- Около 2,5% поисковых запросов сформулированы как вопрос. Самый популярный вопрос, с которым пользователи обращаются к Яндексу — как. Вопросов, начинающихся с как, задают больше, чем вопросов, начинающихся со всех остальных вопросительных слов вместе взятых. Вопрос что значительно популярнее вопроса кто, и в частности вопрос «что делать» интересует пользователей больше вопроса «кто виноват».
- Самое длинное слово, заданное в качестве запроса к Яндексу в августе 2008 года, состоит из 37 символов -гиппопотомомонстросесквиппедалиофобия.
- Для общения с поисковой машиной чаще всего используют существительные — эту часть речи содержат 75% запросов к «большому» поиску и 96% запросов к поиску по картинкам.
- Большинство пользователей не позволяют себе грубостей с поисковой системой — матерную лексику содержит сравнительно небольшое количество запросов — полтора процента.
- 14-15% всех запросов содержат различные ошибки и искажения. Две трети всех ошибок — орфографические (пропущенные буквы, неправильное написание слов и т.п.).
- Самая распространенная ошибка сейчас — однокласники (с одной с). Этот запрос входит в топ-10 запросов к Яндексу в августе 2008.
- Для некоторых пользователей не существует адресной строки браузера, поэтому они вводят адреса сайтов в строку поиска. Таких запросов достаточно — около 4%.
- По поисковым запросам можно понять, какой способ написания слов, недавно появившихся в русском языке, выбирают пользователи.
- Варианты «тег», «бренд» и «тренд» победили варианты «тэг», «брэнд» и «трэнд».