Google, ШІ та датасети
Раніше в матеріалі про статичні та темпоральні канали, я вже розказувала про «цифровий слід» та важливість використання ЗМІ для його формування
Коротко нагадаю – ЗМІ зберігають контент та тримають його відкритим до індексації. Просунуті редактори навіть використовують SEO-підходи для покращення текстів своїх новин та статей. Таким чином, цей контент легко шукається через пошукові системи та пасивно доготривало «працює» на зацікавлену (а значить – теплу) аудиторію, що здійснює пошук за релевантними запитами.
Іншими словами, ваш пост у стрічці FB аудиторія зможе бачити кілька днів, далі відкритий доступ до нього буде ускладнений. Але вашу новину в ЗМІ зможуть бачити роками в пошуковій видачі Google, якщо зроблять релевантний запит.
Таким чином, за посередництва Google, ми маємо змогу формувати в Інтернеті (а значить – у відкритому доступі) певний архів/профайл/бекграунд нашої компанії і її діяльності.
Та часи змінюються.
З появою LLM (великі мовні моделі – GPT, Claude та багато інших) люди почали використовувати їх як альтернативу пошуковим системам. В першу чергу, це стосується просунутих користувачів LLM та, звісно, мόлоді. GPT як гуглом чи вікіпедією користуються навіть при тому, що існує спеціальний пошуковий ШІ Perplexity, до якого можна «підключити» той же GPT чи Claude. І щось мені підказує, що така практика буде ширитись. Особливо з появою голосових інтерфейсів взаємодії з ШІ, як в новому GPT.
Але як LLM знають про масу речей на світі, якщо в них відсутній доступ до Інтернету? Відразу скажу – штучний інтелект НЕ гуглить відповідь на ваше питання. Він її «знає». Винятки становлять деякі версії ШІ, що можуть, за потреби, погуглити інфу, якщо вона відсутня в їх базі знань, що буває вкрай рідко.
Отже, як формуються знання ШІ. Інженери готують пошуковий алгоритм. Цей алгоритм збирає великий об’єм різноманітної інформації з усіх доступних джерел – так званий датасет. Ці датасети завантажуються в ШІ для процесу навчання. ШІ навчається і отримує певні знання. Далі ці дані він використовує в своїй роботі. Зрозуміло що ці знання постійно «застарівають», тому датасети регулярно оновлюються. Дату актуального датасету можна дізнатись ввівши в ШІ такий промпт – замість AI MODEL вставте версію ШІ яким ви користуєтесь:
# Fetch latest AI MODEL version details
INFO: version, update_date [day/month/year], knowledge_cutoff_date [day/month/year]
LANG: uk-UA
Тобто, якщо датасет зібраний до січня 2022 року, як в GPT 3.5, то на запит «Що сталось в Україні в Лютому 2022 року?» ШІ не дасть відповідь про повномасштабне вторгнення росії. А от GPT 4 вже дасть, тому що його датасет обмежується груднем 2023 року.
Таким чином ми отримали ще один головний біль одну можливість формувати профайл для аудиторії, яка користується іншим інструментом для пошуку інформації.
Це потрібно враховувати в своїй роботі, адже ми знаємо – якщо дурень ШІ щось не дочув знає, то допридумує. Про це я писала раніше коли розповідала про «галюцинування» та «критичні забування» ШІ.
При цьому тримаємо в голові, що алгоритм, який збирає датасети, бере приблизно 60% інформації зі ЗМІ і 40% інформації з соцмереж. Що саме він бере з соцмереж важко дослідити, адже вони значно менш дружні до індексації, крім цього існує маса внутрішніх обмежень ШІ щодо збору та використання даних з соцмереж з причин порушення приватності.
Я не стверджую, що Google став менш корисним і що існує якась відчутна міграція запитів з пошуковиків до LLM, проте, ми, комунікаційники, повинні постійно дивитись вперед і враховувати нові тенденції в своїй роботі. Адже наша професія знаходиться на грані інформаційних технологій. В будь-яку епоху.
- П’ять бізнес-змін, що визначають успіх українських компаній сьогодні Максим Ваганов вчора о 17:16
- Психологічний чекап: як ментальний стан впливає на ефективність лікування Максим Рабінович вчора о 13:18
- Кадровий голод. Як українському бізнесу побудувати стійку стратегію управління персоналом Максим Ваганов 06.11.2025 17:10
- Нова корпоративна культура: людяність, довіра, свобода Тетяна Кравченюк 06.11.2025 16:44
- Українці інвестують у житло за кордоном: від запасного аеродрому до бізнес-активу Антон Мирончук 06.11.2025 13:42
- Майно подружжя: що залишається особистою власністю після розірвання шлюбу Юлія Кабриль 06.11.2025 12:34
- Як подолати прокрастинацію: 5 психологічних прийомів, що справді працюють Олександр Скнар 06.11.2025 10:32
- Фондовий ринок як інструмент післявоєнної відбудови України Дмитро Олексієнко 05.11.2025 20:15
- Проблемні аспекти "єВідновлення": що мають знати власники пошкодженого житла Олексій Каплунов 05.11.2025 14:33
- Квіти з ароматом тіньового імпорту: про кейс троянд, контрабанду та втрати бюджету Галина Янченко 05.11.2025 13:40
- Трибунал для Росії зараз не на часі? Михайло Стрельніков 05.11.2025 11:50
- Земля під багатоквартирним будинком: чому співвласники досі без права власності Сергій Комнатний 05.11.2025 08:24
- Від гіпотез до передбачень: як AI змінив логіку гемблінг-бізнесу Андрій Добровольський 04.11.2025 17:17
- Зростання страхових тарифів у судноплавстві після обстрілів портів України Володимир Гузь 04.11.2025 15:56
- Як вийти на міжнародний ринок без податкових ризиків: поради для експортерів Соломія Марчук 04.11.2025 15:28
- Несподіваний "Орєшнік". Геополітичний аспект 381
- Зима на деокупованих територіях: допомога дровами стає питанням виживання 180
- Земля під багатоквартирним будинком: чому співвласники досі без права власності 179
- Автоматичні податки: зручно, але небезпечно. Як повернути фінансову усвідомленість 169
- Форензик 2025: тренди фінансових розслідувань як інструмент захисту бізнесу 117
-
Французькі аналітики: Росія стає схожою на Іран, економіка входить у фазу стагфляції
Фінанси 11570
-
Кабмін змінив механізм підтримки встановлення домашніх СЕС: буде компенсація тіла кредиту
Бізнес 10875
-
Трамп проти "наркотерориста" Мадуро. Чи стане Венесуела новою гарячою точкою
7970
-
Німеччина виділила майже 490 млн євро на розробку протидронових ракет DefendAir
Технології 7463
-
Фільтр доступу до грошей. Якими будуть нові правила кредитних історій
Фінанси 4727
