Розширений пошук і мова запитів. Мова запитів пошукової системи

Розширений пошук і мова запитів. Мова запитів пошукової системи

Мова запитів - це штучно створена мова програмування, яка використовується для того, щоб робити запити в базах даних та інформаційних системах.

В цілому, такі способи запитів можна класифікувати залежно від того, служать вони для бази даних або для пошуку інформації. Різниця в тому, що запити до подібних сервісів здійснюються для отримання фактичних відповідей на поставлені питання, в той час як пошукова система намагається знайти документи, що містять відомості, що відносяться до цікавої користувача області.


Бази даних

Мови запитів за базами даних включають в себе такі приклади:

  • QL - об 'єктно-орієнтований, відноситься до реляційних баз даних; наступник Datalog.
  • Контекстна (CQL) - формальна мова представлення запитів для інформаційно-пошукових систем (таких, як веб-індекси або бібліографічні каталоги).
  • CQLF (CODYASYL) - для CODASYL-TYPE баз даних.
  • Концепт-орієнтована мова запитів (COQL) - використовується у відповідних моделях (com). Він заснований на принципах моделювання даних construpt і використовує такі операції, як проекція і де-проекція багатовимірного аналізу, аналітичні операції та висновки.
  • DMX - використовується до моделей інтелектуального аналізу даних.
  • Datalog - це мова запитів до дідуктивних баз даних.
  • Gellish English - це мова, яка може використовуватися для запитів у бази даних Gellish English і дозволяє вести діалоги (запити і відповіді), а також служить для інформаційного моделювання знань.
  • HTSQL - перекладає http-запити на SQL.
  • ISBL - використовується для PRTV (однією з перших реляційних систем управління базами даних).
  • LDAP - це протокол для запитів і служб каталогів, що працює за протоколом TCP/IP.
  • MDX є необхідним для баз даних OLAP.

Пошукові системи

Мова пошукових запитів, у свою чергу, спрямована на знаходження даних у пошукових системах. Він відрізняється тим, що часто запити містять звичайний текст або гіпертекст з додатковим синтаксисом (наприклад, "і "/" або"). Він значно відрізняється від стандартних подібних мов, які регулюються суворими правилами синтаксису команд або містять позиційні параметри.

Як класифікуються пошукові запити?

Існує три широкі категорії, які охоплюють більшість пошукових запитів: інформаційна, навігаційна і транзакційна. Хоча ця класифікація не була закріплена теоретично, емпірично вона підтверджена наявністю фактичних запитів у пошукових системах.

Інформаційні запити - це ті, які охоплюють широкі теми (наприклад, якесь певне місто або модель вантажівок), щодо яких може бути отримано тисячі релевантних результатів.

Навігаційні - це запити, які шукають один сайт або веб-сторінку на певну тему (наприклад, YouTube).

Транзакційні - відображають намір користувача виконати певну дію, наприклад, здійснити купівлю автомобіля або забронювати квиток.


Пошукові системи часто підтримують четвертий тип запиту, який використовується набагато рідше. Це так звані запити з 'єднання, що містять звіт про зв' язність проіндексованого веб-графіка (кількість посилань на певний URL, або скільки сторінок проіндексовано з певного домену).

Як відбувається пошук інформації?

Більшість пошукових ресурсів не розкриває свої журнали пошуку, тому інформація про те, що користувачі шукають в Мережі, дуже важко знайти. Проте перші наукові дослідження з "явилися 1998 року. Пізніше було проведено повторне дослідження в 2001 році, яке проаналізувало запити, що відображаються як високорелевантні. Також стало зрозуміло, як використовується пошуковими роботами мова запитів.

Стали відомі цікаві характеристики, що стосуються веб-пошуку:

Середня довжина пошукового запиту становила 2,4 слів.

  • Близько половини користувачів направляли один запит, а трохи менше третини користувачів робили три або більше унікальних запитів один за одним.
  • Майже половина користувачів переглядала тільки перші одну-дві сторінки отриманих результатів.
  • Менше 5% користувачів використовують додаткові можливості пошуку (наприклад, вибір певних категорій або пошуку в пошуку).

Особливості дій користувача

Дослідження також показало, що 19% запитів містили географічний термін (наприклад, назви, поштові індекси, географічні об 'єкти тощо). Ще варто зазначити, що крім коротких запитів (тобто з кількома умовами), часто були присутні і передбачувані схеми, за якими користувачі змінювали свої пошукові фрази.

Також було встановлено, що 33% запитів від одного користувача повторюються, і в 87% випадків юзер буде натискати на той же результат. Це говорить про те, що багато користувачів використовують повторні запити, щоб переглянути або заново знайти інформацію.

Частотні розподілу запитів

Крім того, фахівцями було підтверджено, що частотні розподілу запитів відповідають степеному закону. Тобто невелика частина ключових слів спостерігається в найбільшому списку запитів (наприклад, понад 100 млн), і вони найбільш часто використовуються. Інші ж фрази в рамках тих же тематик застосовуються рідше і більш індивідуально. Це явище отримало назву принципу Парето (або "правило 80-20"), і воно дозволило пошуковикам використовувати такі методи оптимізації, як індексування або розбиття бази даних, кешування і попереджувальне завантаження, а також дало можливість удосконалювати мову запитів пошукової системи.


В останні роки було виявлено, що середня довжина запитів неухильно зростає з плином часу. Так, середньостатистичний запит англійською мовою став довшим. У зв 'язку з цим компанія Google впровадила оновлення під назвою "Колібрі" (в серпні 2013 року), яке здатне обробляти довгі пошукові фрази з непротокольною, "розмовною" мовою запиту (на зразок "де найближча кав' ярня?").

Для більш довгих запитів використовується їх обробка - вони розбиваються на фрази, сформульовані стандартною мовою, і виводяться відповіді на різні частини окремо.

Структуровані запити

Пошукові системи, що підтримують логічні операції та синтаксис, використовують більш розширені мови запиту. Користувач, який шукає документи, що охоплюють кілька тем або граней, може описувати кожну з них за логічною характеристикою слова. По своїй суті, логічна мова запитів являє собою сукупність певних фраз і знаків перепинання.

Що таке розширений пошук?

Мова запитів "Яндекса" і "Гугла" здатна здійснювати більш вузькоспрямований пошук при дотриманні певних умов. Розширений пошук може шукати за частиною назви сторінки або префіксом заголовка, а також у певних категоріях та переліках імен. Він також може обмежити пошук сторінок, що містять певні слова в назві або знаходяться в певних тематичних групах. При правильному використанні мови запитів він може обробляти параметри на порядок більш складні, ніж поверхневі результати видачі більшості пошукових систем, у тому числі за заданими користувачем словами зі змінним закінченням і схожим написанням. Під час представлення результатів розширеного пошуку буде відображено посилання на відповідні розділи сторінки.

Також це можливість пошуку всіх сторінок, що містять певну фразу, в той час як при стандартному запиті пошукові системи не можуть зупинитися на будь-якій сторінці обговорення. У багатьох випадках мова запитів може привести на будь-яку сторінку, розташовану в тегах noindex.


У деяких випадках правильно сформований запит дозволяє знайти інформацію, що містить ряд спеціальних символів і букв інших алфавітів (китайські ієрогліфи наприклад).

Як читаються символи мови запитів?

Верхній і нижній регістр, а також деякі діакритичні знаки (помляті та акценти) не враховуються в пошуках. Наприклад, пошук за ключовим словом Citroen не знайде сторінки, що містять слово "Цитроєн". Але деякі лігатури відповідають окремим літерам. Наприклад, пошук за словом "аэроскобінг" легко знайде сторінки, що містять "Ерескебінг" ( = ^).

Багато не алфавітно-цифрових символів постійно ігноруються. Наприклад, неможливо знайти інформацію за запитом, що містить рядок |L| (літера між двома вертикальними смугами), незважаючи на те, що цей символ використовується в деяких шаблонах конвертування. У результатах будуть тільки дані з "ЛТ". Деякі символи та фрази обробляються по-різному: запит "кредит (Фінанси)" відобразить статті зі словами "кредит" і "фінанси", ігноруючи дужки, навіть якщо і існує стаття з точною назвою "кредит (Фінанси)".

Існує безліч функцій, які можна використовувати із застосуванням мови запитів.

Синтаксис

Мова запитів "Яндекса" і "Гугла" може використовувати деякі знаки перепинання для уточнення пошуку. Як приклад можна навести фігурні дужки - {{пошук}}}. Фраза, укладена в них, буде піддаватися пошуку цілком, без змін.


Фраза в подвійних лапках дозволяє визначитися з об 'єктом пошуку. Наприклад, слово в лапках буде розпізнаватися як використовуване в переносному сенсі або як вигаданий персонаж, без лапок - як інформація більш документального характеру.

Крім того, всі основні пошукові системи підтримують символ "-" для логічного "не", а також і/або. Виняток - терміни, які не можуть бути розділені за допомогою префікса дефісом або тире.

Неточна відповідність пошукової фрази відзначається символом ауд. Наприклад, якщо ви не пам 'ятаєте точного формулювання терміну або назви, ви можете вказати його в рядку пошуку з вказаним символом, і зможете отримати результати, що мають максимальну схожість.

Параметри спеціалізованого пошуку

Існують і такі параметри пошуку, як intitle, і incategory. Вони представляють собою фільтри, що відображаються через двокрапки, у вигляді "фільтр: рядок запиту ". Рядок запиту може містити термін або фразу, або частину або повну назву сторінки.

Функція "intitle: запит "віддає пріоритет у пошуковій видачі за назвою, але також показує і звичайні результати за змістом заголовка. Декілька таких фільтрів можна використовувати одночасно. Як же використовувати цю можливість?


Запит вигляду "intitle: назва аеропорту "видасть всі статті, що містять у заголовку назву аеропорту. Якщо ж сформулювати його як "парковка intitle: назва аеропорту ", то ви отримаєте статті з назвою аеропорту в заголовку і зі згадкою парковки в тексті.

Пошук за фільтром "incategory: Категорія "працює за принципом початкової видачі статей, що належать до певної групи або списку сторінок. Наприклад, пошуковий запит за типом "Храми incategory: Історія "видаватиме результати на тему історії храмів. Цю функцію також можна використовувати як розширену, задаючи різні параметри.