Топографический анализ. Поиск центров смысла.

Здесь центры смысла: 1654, 1649, 1651, 1656. Как будем их определять? Да все просто - по количеству входящих связей больше 1.

Это, по сути, агрегаторы. Они могут быть связаны друг с другом и не связаны.

  • Если мы хотим дать комплексный ответ то нужно отработать все связанные агрегаторы последовательно.
  • Если мы хотим логический вывод то нужно связать несвязанные агрегаторы друг с другом.

Саммари построилось

  • Distance from the moon [detail level=0.6]

This article is about the average distance from the Earth to the Moon.
In astronomy, a lunar distance (LD) is a measurement of the distance from the Earth to the Moon.
The average distance from Earth to the Moon is 384,400 kilometers (238,855 miles).[1] The actual distance varies over the course of the orbit of the moon, from 356,700 kilometres (221,600 mi) at the perigee and 406,300 kilometres (252,500 mi) at apogee.
High-precision measurements of the lunar distance are made by measuring the time taken for light to travel between LIDAR stations on Earth and retroreflectors placed on the Moon.
The Moon orbiting Earth, sizes and distances to scale.

 

  • Starting Your Car in Cold Weather [detail level=0.4]

When starting a car in cold weather, let the engine run for two to five minutes before putting the vehicle in gear to get the engine properly lubed with oil.

 

  • Internet [detail level=0.4]

The Internet or the Net is a global computer network that allows people to easily exchange information over short and long distances.

 

  • DNA [detail level=0.4]

Deoxyribonucleic acid (DNA) is a nucleic acid containing the genetic instructions used in the development and functioning of all known living organisms (with the exception of RNA viruses).

 

  • DNA [detail level=0.6]

Deoxyribonucleic acid  (DNA) is a nucleic acid containing the genetic instructions used in the development and functioning of all known living organisms (with the exception of RNA viruses).
The DNA segments carrying this genetic information are called genes.
Likewise, other DNA sequences have structural purposes, or are involved in regulating the use of this genetic information.
This information is read using the genetic code, which specifies the sequence of the amino acids within proteins.

 

  • DNA [detail level=0.8]

The structure of part of a DNA double helix .
Deoxyribonucleic acid (DNA) is a nucleic acid containing the genetic instructions used in the development and functioning of all known living organisms (with the exception of RNA viruses).
The DNA segments carrying this genetic information are called genes.
Likewise, other DNA sequences have structural purposes, or are involved in regulating the use of this genetic information.
Along with RNA and proteins, DNA is one of the three major macromolecules that are essential for all known forms of life.
DNA consists of two long polymers of simple units called nucleotides, with backbones made of sugars and phosphate groups joined by ester bonds.
This information is read using the genetic code, which specifies the sequence of the amino acids within proteins.

Понимая Гугл

  • Internet capitalization conventions are the practices of various publishers regarding the capitalization of "Internet" or "internet", when referring to the Internet/internet, as distinct from generic internets (or internetworks)
  • According to APWKomitel[9] (Association of Community Internet Center) there are 5,000 Internet Cafes in urban Indonesian cities in 2006 providing computer/printer/scanner rental, training, PC gaming and Internet Access/Rental to the people who do not have PC or Internet access at home
  • IPv4 address exhaustion is the decreasing supply of unallocated Internet Protocol Version 4 (IPv4) addresses available at the Internet Assigned Numbers Authority (IANA) and the regional Internet registries (RIRs) for assignment to end users and local Internet registries, such as Internet service providers
  • In general, a domain name represents an Internet Protocol (IP) resource, such as a personal computer used to access the Internet, a server computer hosting a web site, or the web site itself or any other service communicated via the Internet
  • RFC 760, DOD Standard Internet Protocol (January 1980) ^ a b RFC 791, Internet Protocol - DARPA Internet Program Protocol Specification (September 1981) ^ a b RFC 1883, Internet Protocol, Version 6 (IPv6) Specification, S
  • Internet2 operates the Internet2 Network,[6] a next-generation Internet Protocol and optical network that delivers production network services to meet the high-performance demands of research and education, and provides a secure network testing and research environment

 

Результат не совсем релевантный - алгоритм построения кривоват.

Что мы делаем - берем результаты гугла по запросу, и "понимаем" их. Т.е. мы понимаем результаты понимания гуглом пользователя. Предлагаю убрать лишнее звено - Гугл, и понимать непосредственно пользователя, без посредников.

  1. Запрашиваем Гугл для пополнения банка информации
  2. Понимаем запрос - находим кластер с максимальной релевантностью запросу пользователя (а не результатам Гугла)
  3. Определяем предложение, максимально релевантное кластеру

Первый результат работы алгоритма понимания

Вот как система структурирует информацию, отдаваемую по запросу Internet поисковиком bing (гугл прикрыл лавочку по отдаче результатов поиска):

internet network computer protocol communications
    interconnected tcp system
        suite applications
        world ters
    web development including
            connectivity information group
                sending
                history guides cover topics usenet
                preceded vast commercial worldwide
            arpanet defense department
            sites search online run
            points mainframe
        websites directory distributed ezine articlesbase
    satellite services speed dial high area
    modem access cable price
    gateways specification
    users experiments period social virtually
population world country region users

 

Тоже самое в картинках:

Работает долго, с базой знаний взаимодействует медленно, обучается неторопливо… но зато приводит к результату, что для старта уже неплохо :)

А теперь давайте представим что вместо результатов поиска мы на вход подали Войну и Мир. Как Вам освоить это произведение за 5 минут? С разбиением по темам (а не по главам) и возможностью провалиться в любую тему для более подробного изучения.

Другие Вселенные

Непонятно, а что такого сложного в нескольких Вселенных?

Давайте вместо “Вселенная – это все что нас окружает” будем говорить что Вселенная – это материя, неважно (непонятно) откуда взявшаяся в момент Большого Взрыва, и под его действием разлетающаяся в разные стороны. Соответственно, размер Вселенной – расстояние между двумя максимально удаленными ее объектами. И будем считать что Пространство за пределами Вселенной существует.

А теперь взорвем в нашей модели несколько Вселенных, т.е. устроим несколько отдаленных друг от друга Больших Взрывов. Мы получим несколько расширяющихся на встречу друг другу Вселенных. А еще разнесем их по времени и применим сценарий пульсирующих Вселенных – мы будем иметь Вселенные на различных стадиях эволюции, как расширяющиеся так и сжимающиеся.

Далее, придадим Вселенным движения относительно друг-друга. Совершенно точно рано или поздно две Вселенных столкнуться, т.е. мы получим сталкивающиеся Вселенные. Интересно, а когда сталкиваются расширяющаяся и сжимающаяся Вселенные, что происходит?

Являются ли Вселенные единственными объектами данного Пространства? Нет, иначе слишком просто. Добавим еще туда…

А называться все вместе это будет Мультиверсум какой-нибудь, содержащий такое вот многообразие форм и поведений. Также решаются вопросы возникновения Времени и Пространства, и что было до начала Большого Взрыва – точнее они выносятся на новый уровень.

Любая история астрономии повествует о том что сначала в центре мира была Земля, потом Солнце, потом Вселенная. Давайте экстраполировать ситуацию и выходить на новый уровень теории – давайте уберем из центра мироздания нашу Вселенную, пусть ей не будет так одиноко.

Скорость понимания и его определение

Аксиома, не нуждающаяся в доказательстве - на скорость восприятия информации влияет скорость ее понимания:

  • повторное чтение книги проходит быстрее чем в первый раз
  • детские книги читать быстрее чем взрослые
  • квантовую механику читать медленее чем “Код да Винчи”
  • и т.д.

Идея понятна – чем проще для понимания текст, тем он быстрее читается.

Значит чтобы повысить скорость восприятия информации не нужно осваивать скорочтение, нужно повысить скорость понимания. Перейти на детские книги?

Два рабочих варианта по повышению скорости понимания:

  1. Спецификация контекста – вынос контекста за скобки. Тема, заголовок, название – это все определяет контекст содержимого и повышает скорость понимания. За счет? Во первых, нет необходимости указывать контекст каждого слова и читать его соответственно, во-вторых – нет нужды подбирать контекст под каждое слово – этот общий знаменатель мы вынесли в заголовок. По такому пути мы идем, как правило, добавляя книгам обложку с названием и саммари.
  2. Однозначные указатели. Пронумеровать анекдоты. Рассказывать друг-другу анекдоты называя его номер. На самом деле речь про то как если бы для каждого контекста каждого слова был бы свой символ. Например, мальчик#1 клеит#1 модель#1 в клубе#1. А клуб#1 однозначно указывает на клуб юных авиалюбителей. Это путь гипертекста, когда в статье вики мы ставим внутреннюю ссылку со слова на статью, определяющую ее контекст.

Ок, скорость понимания мы повысили, настала пора определить, а что же такое, понимание?

А здесь все просто:

Понимание это процесс присоединения входящей информации к существующей базе знаний.

Все!

Здесь вам и прогнозирование Хокинса, и китайская комната Сирла и многие другие определения. Спецификация контекста, однозначные указатели – это все упрощает стыковку поступающей информации к имеющейся, упрощает понимание. И подтверждает сам процесс. Неоднозначное понимание – возможность присоединится несколькими способами. Непонимание – нестыковка. Повторное чтение – уже знаем куда чего цеплять. Чем больше стыковок – тем выше понимание.

Код, укладывающий введенные значения формы в базу данных, не является понимателем ибо данные укладываются последовательно и нет стыковки.

Код, классифицирующий письма на спам и не спам понимает письма присваивая им категорию.

Если данное определение процесса понимания понятно то оно пристыковалось к вашей базе знаний. А если понятно как понимание реализовать в коде…

Процесс понимания на примере тетриса

Чем дальше в лес тем меньше согласия с моделью Хокинса про понимание как процесс предсказания. Все больше убеждаюсь что это всего лишь частный случай более общей модели.

Рассмотрим игру в тетрис, где в стакан падают фигуры разной формы. За счет разности форм фигура может  присоединится к остальным с разной степень контакта – от 1 до максимального, по всей длине. Отсюда аналогия – когда новая фигура ложится в стакан без пустот, то она максимально подошла к остальной группе фигур.

Когда новое слово/фраза оставляет слишком много пустот – ни о каком понимании речь быть идти не может.

Пример – уложим в стакан безшовно фразу “Бесцветные зелёные мысли спят яростно” - не стыкуется, как фигуры не вертеть – к друг другу они никоим боком.

А вот в следующем примере фигуры нормально стыкуются: “Глокая куздра штеко будланула бокра и курдячит бокрёнка”. Не смотря на то что про бокренка мы впервые слышим, мы успешно его закудрячили.

Семантический веб

Представьте, вы наняли ассистента, который анализирует/подготавливает для вас информацию. Вы просите его:
- расскажи вкратце что происходит в мире
- а теперь подробнее про рынок ИТ технологий
- дай резюме по моим непрочитанным rss лентам
- краткое содержание "Война и мир" на 10 минут. А если на 15? А если сцены сражений детальнее?
- бриф по запросу на Гугл

а теперь давайте его автоматизируем. Получим инструмент, позволяющий агрегировать любой источник информации, и выдать результат с заданной степень детальности.

Алгоритм:
1. Подготовка:
- получить источник
- закачать тексты
- прочитать с пониманием
- построить модель

2. Использование
- получить стартовую степень детализации
- построить поток
- отрабатывать zoom-in/zoom-out меняя детализацию (хороший аналог - Google Earth)

А если говорить что модель строится не обособленная, а в рамках некоторой общей базы знаний, то можно сделать переходы от текущего потока. Например, встретился незнакомый термин, нажатием вписываем объяснение данного термина в текущий контекст. Пример, из математики:
читаем формулу x2+y2=z2. При этом [y] нам не понятен. Подтягиваем из базы знаний что y=a*b*c, при условии что a,b,c разрешаются в рамках текущего контекста.

Едем дальше - получаем что есть некоторая база знаний, и есть интерфейс по работе с ней, с возможностями:

1. Воспроизведения с заданной детализацией
2. Онлайн зумирования (абстрагирования, изменения детализации) в процессе чтения
3. Разрешения отдельных термов в рамках текущего контекста
4. Ассоциативного перехода - смены контекста для текущего термина

Архитектура системы:

1. База знаний - информация в специальном формате
2. Писатель - непрерывно сканирует веб, строит базу знаний
3. Читатель - интерфейс к базе знаний с перечисленными возможностями

Что нам дает - получаем подготовленные (переваренные) легкоусвояемые знания, возможность сосредоточится на нужном и пробежаться по ненужному.

Как вам такой семантический веб 3.0?