Строительство »

Мнение: Вольфрам Альфа: Как это работает?

Доктор Пит Моррис является экспертом в области разработки программного обеспечения, компьютерной лингвистики и статистики. Здесь он объясняет, как работает Wolfram Alpha.

Как было много разговоров связывание Wolfram Alpha с Google В последнее время давайте начнем эту гипотезу «как это работает» с простого сравнения.

В некотором смысле вы можете думать о Wolfram Alpha как о «супер» версии Google Calculator.

Если вы не знаете о калькуляторе Google, перейдите на домашнюю страницу Google и введите «8 морских миль в цепях» - вы увидите, что ответ - 736,498847 (а если «цепочка» вам неизвестна - ну, вы есть как минимум два места, чтобы искать его сейчас).

Итак, теперь давайте введем тот же запрос в Wolfram Alpha.

Итак, теперь давайте введем тот же запрос в Wolfram Alpha

Вы также заметите, что Wolfram Alpha «округлилась» и предположила, что мы не слишком озабочены отсутствующим дюймом!

Как и Google, Вольфрам Альфа провел своего рода поиск, чтобы выяснить, что общего между «морской милей» и «цепью»; и обнаружено, что они являются единицами измерения (вероятное ключевое слово здесь - «миля»).

Затем Вольфрам Альфа провел некоторый синтаксический и семантический анализ предложения в целом и пришел к выводу, что нам хотелось бы узнать одно (раз восемь) преобразованное в другое. Помимо предоставления нам дополнительных полезных данных, Google сделал более или менее то же самое.

Теперь давайте возьмем другой пример.

Если мы войдем; «расстояние между urbana и champaign» (здесь специально пропущен собственный регистр - никаких подсказок не дано и не оценено), мы обнаруживаем, что калькулятор Google не может помочь.

Google, и, как вы можете ожидать, дает нам кучу результатов, извлеченных из веб-текста. Первый результат, который я получил, когда фактически сделал это, был взят из WikiAnswers, где кто-то спросил: «Каково расстояние в пути между Чикаго, Иллинойс и Шампейном, Урбана, Иллинойс?» - это не то, что нас интересует. Результат: нет немедленного очевидного и удовлетворительного ответа в поиске Google по этому запросу.

Хорошо, теперь давайте попробуем Wolfram Alpha.

Хорошо, теперь давайте попробуем Wolfram Alpha

Из результатов видно, что Вольфрам Альфа предположил, что, может быть, потому что они довольно близко друг к другу, мы спрашиваем о пригороде Иллинойса (которым я был). И, учитывая высокую вероятность, с небольшим семантическим анализом, он предположил, что мы хотели бы знать расстояние между этими двумя местами (что я и сделал); и вы можете увидеть результат.

Итак, как Wolfram Alpha сделал это?

Вот где нам нужно вернуться к неопределенному термину, который я использовал ранее - поиск.

Google, насколько нам известно, получает свои данные из открытого домена, то есть из того, что находится в общедоступной сети.

С другой стороны, Wolfram Alpha получает данные из «Deep Web» , Это источники данных, которые либо требуют подписку, либо, по крайней мере, какую-то точку входа (возможно, учетную запись). Проще говоря, некоторые являются бесплатными, а некоторые - платными (угадайте, что является более надежным, структурированным и надежным).

Учитывая наш последний запрос, вот неполный список источников данных, которые могли быть использованы / проанализированы, чтобы ответить на наш запрос «расстояние между урбаной и шампанским».

Wolfram Alpha использует источники данных для определения связей (отношения, вероятно, более точное слово) между поисковыми терминами и, что более важно, как вероятные важные термины (могут) связаны друг с другом.

Слова, используемые в запросе, могут дать Wolfram Alpha (больше в Wolfram Alpha, чем в Google, скажем,) несколько полезных подсказок - например, предлог «между», безусловно, более интересен, чем глагол «вождение»; и это часть Alpha-движка Wolfram, где я подозреваю Mathematica ( язык, на котором написана вся платформа ) действительно зарабатывает свою кукурузу (почему и почему находятся за пределами предоставленного здесь пространства).

Теперь к сути: о том, как все это работает (Google / Wolfram Alpha) в деталях - ну, мы действительно не знаем (секреты и все). Тем не менее, я подозреваю, что в Wolfram Alpha работает довольно умная онтологическая база данных. Действительно, тот, который будет учиться и развиваться по мере того, как в него будет поступать больше данных, и, учитывая, что у него есть правильные правила, чтобы связать все это.

Итак, вы идете - не совсем детальный взгляд на Wolfram Alpha и то, что вы можете с ним сделать, но, надеюсь, кое-что, по крайней мере, каким-то образом покажет, что Wolfram Alpha не то, что мы обычно называем «поисковой системой» , В следующий раз я приведу вам подробный пример того, как Wolfram Alpha может собрать действительно полезную статистику.

Кстати, я расскажу вам, почему я использовал эти два пригорода (Урбана и Шампейн). Один из них - это то, где HAL (вы знаете, 2001 и все такое) был активирован, а другой - то, где Wolfram Alpha сделала то же самое.

Доктор Пит Моррис изучал программную инженерию, компьютерную лингвистику и статистику в Оксфордском университете. В настоящее время он является научным сотрудником факультета экспериментальной психологии и преподавателем статистики в колледже Св. Хильды.

Первый результат, который я получил, когда фактически сделал это, был взят из WikiAnswers, где кто-то спросил: «Каково расстояние в пути между Чикаго, Иллинойс и Шампейном, Урбана, Иллинойс?
Итак, как Wolfram Alpha сделал это?