Cyc - Cyc

Cyc
Cyc Projekty Logos.png
Zgodnie z ruchem wskazówek zegara: loga do bazy wiedzy Cyc, silniki wnioskowania, dane wyjściowe, inteligentny wybór danych
Pierwotny autor (autorzy) Douglas Lenat
Deweloper(zy) Cycorp, Inc.
Pierwsze wydanie 1984 ; 37 lat temu ( 1984 )
Wersja stabilna
6.1 / 27 listopada 2017 ; 3 lata temu ( 27.11.2017 )
Napisane w Lisp , CycL , SubL
Rodzaj Ontologia i baza wiedzy i reprezentacja wiedzy język i silnik wnioskowanie
Strona internetowa www .cyc .com

Cyc (wymawiane / s k / SYKE ) jest długoterminowy sztuczna inteligencja projekt, który ma na celu zgromadzić kompleksowe ontologii i wiedzy Knowledge Base , który obejmuje podstawowe pojęcia i zasady dotyczące sposobu prac światowych. Mając nadzieję na uchwycenie wiedzy zdroworozsądkowej , Cyc koncentruje się na wiedzy ukrytej, którą inne platformy AI mogą uznać za oczywiste. Kontrastuje to z faktami, które można znaleźć gdzieś w Internecie lub znaleźć za pomocą wyszukiwarki lub Wikipedii. Cyc umożliwia semantycznym rozumującym wykonywanie rozumowania podobnego do ludzkiego i jest mniej „kruche” w konfrontacji z nowymi sytuacjami.

Douglas Lenat rozpoczął projekt w lipcu 1984 r. w MCC , gdzie był głównym naukowcem 1984-1994, a następnie od stycznia 1995 r. jest aktywnie rozwijany przez firmę Cycorp , której jest prezesem .

Przegląd

Potrzeba wielkiego symbolicznego projektu sztucznej inteligencji tego rodzaju zrodziła się na początku lat 80. XX wieku. Pierwsi badacze sztucznej inteligencji mieli w ciągu ostatnich 25 lat duże doświadczenie w programach sztucznej inteligencji, które generowały zachęcające wczesne wyniki, ale potem nie były w stanie „skalować” – wyjdź poza „zestaw szkoleniowy”, aby poradzić sobie z szerszym zakresem przypadków. Douglas Lenat i Alan Kay nagłośnili tę potrzebę i zorganizowali spotkanie w Stanford w 1983 roku, aby rozwiązać ten problem. Ostatnie obliczenia wykonane przez Lenata, Kay i ich współpracowników (m.in. Marvina Minsky'ego , Allena Newella , Edwarda Feigenbauma i Johna McCarthy'ego ) wskazywały, że wysiłek ten wymagałby od 1000 do 3000 osobolat, znacznie więcej standardowy model projektu akademickiego. Jednak wydarzenia w ciągu roku od tego spotkania umożliwiły podjęcie wysiłku na taką skalę.

Projekt rozpoczął się w lipcu 1984 roku jako flagowy projekt 400-osobowej korporacji Microelectronics and Computer Technology Corporation (MCC), konsorcjum badawczego założonego przez dwa tuziny dużych amerykańskich korporacji „w celu przeciwdziałania złowrogiemu wówczas japońskiemu wysiłkowi w zakresie sztucznej inteligencji, o nazwie „ projekt piątej generacji ”. Rząd Stanów Zjednoczonych zareagował na zagrożenie piątej generacji, uchwalając ustawę National Cooperative Research Act z 1984 r., która po raz pierwszy pozwoliła amerykańskim firmom na „zmowę” w długoterminowych badaniach o wysokim ryzyku i wysokich zyskach , a MCC i Sematech wyrosły na skorzystaj z tej dziesięcioletniej szansy. Pierwszym prezesem i dyrektorem generalnym MCC był Bobby Ray Inman , były dyrektor NSA i zastępca dyrektora Centralnej Agencji Wywiadowczej.

Celem projektu Cyc było skodyfikowanie, w formie nadającej się do użytku maszynowego, milionów fragmentów wiedzy, które składają się na zdrowy rozsądek człowieka. Wiązało się to, po drodze, z (1) opracowaniem odpowiednio ekspresyjnego języka reprezentacji, CycL , (2) opracowaniem ontologii obejmującej wszystkie ludzkie koncepcje do pewnego odpowiedniego poziomu szczegółowości, (3) opracowaniem bazy wiedzy na tej ontologicznej ramie, obejmującej cała ludzka wiedza na temat tych pojęć aż do odpowiedniego poziomu szczegółowości, oraz (4) rozwijanie silnika wnioskowania wykładniczo szybciej niż te używane w konwencjonalnych wówczas systemach eksperckich, aby móc wywnioskować te same typy i głębię wniosków, które ludzie są w stanie biorąc pod uwagę ich wiedzę o świecie.

Nieco bardziej szczegółowo:

  • Język reprezentacji CycL rozpoczął się jako rozszerzenie RLL (tzw. Representation Language Language, opracowany w latach 1979-1980 przez Lenata i jego absolwenta Russella Greinera na Uniwersytecie Stanforda), ale w ciągu kilku lat od uruchomienia projektu Cyc stało się jasne, że nawet przedstawienie typowej wiadomości, powieści lub reklamy wymagałoby więcej niż siły wyrazu pełnej logiki pierwszego rzędu , a mianowicie rachunku predykatów drugiego rzędu („Jaki jest związek między deszczem a wodą?”), a nawet rzędy logiki wyższego poziomu, w tym logikę modalną , refleksję (umożliwiającą systemowi wnioskowanie o swoim dotychczasowym postępie nad problemem, nad którym pracuje) i logikę kontekstu (umożliwiającą systemowi jawne wnioskowanie o kontekstach, w których jego różne przesłanki i wnioski mogą się utrzymać), logika niemonotoniczna , i zawężenie . Do 1989 r. CycL rozszerzył swoją ekspresyjną moc do logiki wyższego rzędu (HOL).
    • Reprezentacje Triplestore (podobne do języków reprezentacji ramek i gniazd z lat 70., z których wywodzi się RLL) są dziś szeroko rozpowszechnione w sztucznej inteligencji. Przydatne może być przytoczenie kilku przykładów, które podkreślają lub łamią ten typ reprezentacji, typowy dla przykładów, które zmusiły projekt Cyc do przejścia z reprezentacji triplestore do znacznie bardziej ekspresyjnej w latach 1984-1989: Zdania angielskie zawierające negacje („Fred nie ma psa”), zagnieżdżone kwantyfikatory („Każdy Amerykanin ma matkę” oznacza dla wszystkich x istnieje y… ale „Każdy Amerykanin ma prezydenta” oznacza, że ​​istnieje y tak, że dla- wszystkie x...), zagnieżdżone modyfikacje, takie jak „Stany Zjednoczone wierzą, że Niemcy chcą, aby NATO unikało ścigania...”, a nawet niezręcznie jest reprezentować w Triplestore relacje o wartości wyższej niż 2, takie jak „Los Angeles”. jest między San Diego a San Francisco wzdłuż US101”.
  • Ontologia Cyc rozrosła się do około 100 000 terminów w ciągu pierwszej dekady projektu, do 1994 roku, a od 2017 roku zawierała około 1 500 000 terminów. Ta ontologia obejmowała:
    • 416 000 kolekcji (rodzaje, rodzaje, rodzaje naturalne , które obejmują zarówno rodzaje rzeczy, takie jak Ryby, jak i rodzaje działań, takie jak Wędkarstwo)
    • nieco ponad milion osób reprezentujących
      • 42 500 predykatów (relacje, atrybuty, pola, właściwości, funkcje),
      • około miliona ogólnie znanych podmiotów, takich jak Stany Zjednoczone Ameryki, BarackObama, TheSigningOfTheUSDeclarationOfIndependence itp.
      • Dowolnie duża liczba dodatkowych warunków są również niejawnie obecne w ontologii Cyc, w tym sensie, że istnieją długoterminowe-oznaczające funkcje, takie jak CalendarYearFn (gdy dany argument 2016, to oznacza rok kalendarzowy 2016), GovernmentFn (gdy podano argument Francja oznacza rząd Francji), Meter (w argumentacji 2016 oznacza odległość 2,016 km) oraz zagnieżdżenia i kompozycje takich określeń funkcji.
  • Baza wiedzy Cyc dotycząca ogólnych zdroworozsądkowych reguł i twierdzeń dotyczących tych terminów ontologicznych została w dużej mierze stworzona przez ręczne pisanie aksjomatów; w 1994 r. wzrosła do około 1 miliona, a od 2017 r. wynosi około 24,5 miliona, a jej zbudowanie zajęło znacznie ponad 1000 osobolat.
    • Ważne jest, aby zrozumieć, że inżynierowie Cyc ontologiczny starać się utrzymać te numery jako małe , jak to możliwe, nie nadmuchać je tak długo, jak dedukcyjne zamknięcie bazy wiedzy nie jest zmniejszona. Załóżmy, że Cycowi powiedziano o miliardzie ludzi, zwierząt itd. Wtedy można by powiedzieć 10 18 faktów w postaci „Myszka Miki to nie ta sama osoba, co <Bullwinkle the Moose/Abraham Lincoln/Jennifer Lopez>”. Ale zamiast tego, można by powiedzieć Cyc 10 000 reguł taksonomii Linneusza , po których następowało tylko 10 8 reguł w postaci „Żadna mysz nie jest łosiem”. I jeszcze bardziej zwięźle, Cyc może zamiast tego otrzymać te 10 000 reguł taksonomii Linneusza, po których następuje tylko jedna reguła w postaci „Dla dowolnych dwóch taksonów Linneusza, jeśli żaden z nich nie jest wyraźnie znany jako supertakson drugiego, są one rozłączne”. Te 10 001 twierdzeń ma takie samo zamknięcie dedukcyjne, jak wspomniane wcześniej 10 18 faktów.
  • Projekt silnika wnioskowania Cyc oddziela problem epistemologiczny (jaka zawartość powinna być w Cyc KB) od problemu heurystycznego (jak Cyc może skutecznie wywnioskować argumenty na setki kroków w morzu dziesiątek milionów aksjomatów). Aby zrobić to pierwsze, wystarczyłby język CycL i dobrze rozumiane logiczne wnioskowanie. W przypadku tych ostatnich Cyc wykorzystał architekturę społeczności agentów, w której wyspecjalizowane moduły wnioskowania, każdy z własną strukturą danych i algorytmem, „podniosły rękę”, jeśli mogły skutecznie poczynić postępy w którymkolwiek z aktualnie otwartych podproblemów. Do 1994 roku było 20 takich modułów poziomu heurystycznego (HL); od 2017 r. istnieje ponad 1050 modułów HL.
    • Niektóre z tych modułów HL są bardzo ogólne, jak na przykład moduł, który buforuje Gwiazdę Kleene ( zamknięcie przechodnie ) wszystkich powszechnie używanych relacji przechodnich w ontologii Cyc.
    • Niektóre są specyficzne dla domeny, takie jak równoważenie równań chemicznych. Mogą to być i często są „ucieczką” do (wskazania) jakiegoś zewnętrznie dostępnego programu, usługi internetowej lub bazy danych online, takiej jak moduł do szybkiego „obliczenia” aktualnej populacji miasta, wiedząc, gdzie/jak to sprawdzić.

CycL ma publicznie ogłoszoną specyfikację i dziesiątki modułów HL zostały opisane w podręczniku Lenata i Guhy, ale rzeczywisty kod silnika wnioskowania Cyc i pełna lista ponad 1000 modułów HL jest własnością firmy Cycorp.

Nazwa „Cyc” (od „encyklopedia”, wymawiana [saɪk] , jak „ syke ”) jest zastrzeżonym znakiem towarowym należącym do Cycorp. Dostęp do Cyc odbywa się poprzez płatne licencje, ale działające w dobrej wierze grupy badawcze AI otrzymują bezpłatne licencje tylko na badania (por. ResearchCyc ); od 2017 roku ponad 600 takich grup na całym świecie posiada te licencje.

Typowe fragmenty wiedzy reprezentowane w bazie wiedzy Cyc to „Każde drzewo jest rośliną” i „Rośliny w końcu umierają”. Na pytanie, czy drzewa umierają, silnik wnioskowania może wyciągnąć oczywiste wnioski i poprawnie odpowiedzieć na pytanie.

Większość wiedzy Cyc, poza matematyką, jest prawdziwa tylko domyślnie. Na przykład, Cyc wie, że rodzice domyślnie kochają swoje dzieci, kiedy jesteś szczęśliwy, uśmiechasz się, zrobienie pierwszego kroku jest wielkim osiągnięciem, gdy ktoś, kogo kochasz, ma wielkie osiągnięcie, które cię uszczęśliwia, a tylko dorośli mają dzieci . Zapytany, czy zdjęcie z napisem „Ktoś patrzy, jak jego córka stawia pierwszy krok” zawiera uśmiechniętą dorosłą osobę, Cyc może logicznie wywnioskować, że odpowiedź brzmi „ Tak ” i „pokazać swoje działanie” przedstawiając krok po kroku logiczną argumentację za pomocą tych pięciu kawałków. wiedzy ze swojej bazy wiedzy. Są one sformułowane w języku CycL , który opiera się na rachunku predykatów i ma składnię podobną do języka programowania Lisp .

W 2008 roku zasoby Cyc zostały zmapowane do wielu artykułów Wikipedii . Cyc jest obecnie połączony z Wikidata . Plany na przyszłość mogą połączyć Cyc zarówno z DBpedią jak i Freebase .

Duża część obecnej pracy Cyc to inżynieria wiedzy , przedstawiająca fakty o świecie ręcznie i wdrażająca wydajne mechanizmy wnioskowania na tej wiedzy. Coraz częściej jednak praca w Cycorp polega na zapewnieniu systemowi Cyc możliwości komunikowania się z użytkownikami końcowymi w języku naturalnym oraz pomocy w ciągłym procesie tworzenia wiedzy poprzez uczenie maszynowe i rozumienie języka naturalnego . Innym dużym wysiłkiem w Cycorp jest zbudowanie zestawu narzędzi inżynierii ontologicznej opartej na Cyc, aby obniżyć poprzeczkę do pozycji dla osób, które mogą współtworzyć, edytować, przeglądać i wysyłać zapytania do Cyc.

Podobnie jak wiele firm, Cycorp ma ambicje wykorzystać przetwarzanie języka naturalnego Cyc do analizowania całego Internetu w celu wyodrębnienia uporządkowanych danych; w przeciwieństwie do wszystkich innych, jest w stanie wywołać sam system Cyc, aby działał jako indukcyjne nastawienie i jako sędzia niejednoznaczności , metafory i elipsy . Istnieje niewiele, jeśli w ogóle, systematycznych badań porównawczych wydajności Cyc.

Baza wiedzy

Nazwy pojęć w Cyc to terminy lub stałe CycL . Stałe zaczynają się od opcjonalnego „#$” i uwzględniają wielkość liter. Istnieją stałe dla:

  • Poszczególne elementy znane jako osoby , takie jak #$BillClinton lub #$France.
  • Kolekcje , takie jak #$Tree-ThePlant (zawierające wszystkie drzewa) lub #$EquivalenceRelation (zawierające wszystkie relacje równoważności ). Członek kolekcji jest nazywany instancją tej kolekcji.
  • Funkcje , które tworzą nowe terminy z podanych. Na przykład #$FruitFn, gdy zostanie dostarczony z argumentem opisującym typ (lub kolekcję) roślin, zwróci kolekcję swoich owoców. Zgodnie z konwencją stałe funkcji zaczynają się od dużej litery i kończą ciągiem „Fn”.
  • Funkcje prawdy , które mogą odnosić się do jednego lub kilku innych pojęć i zwracać prawdę lub fałsz. Na przykład #$siblings to relacja rodzeństwa, prawdziwa, jeśli dwa argumenty są rodzeństwem. Zgodnie z konwencją, stałe funkcji prawdy zaczynają się od małej litery. Funkcje prawdy można podzielić na logiczne spójniki (takie jak #$i, #$or, #$not, #$implikuje), kwantyfikatory (#$forAll, #$thereExists itp.) i predykaty .

Dwa ważne predykaty binarne to #$isa i #$genls. Pierwsza opisuje, że jeden element jest instancją jakiejś kolekcji, druga, że ​​jedna kolekcja jest podzbiorem innej. Fakty dotyczące pojęć są potwierdzane za pomocą pewnych zdań CycL . Predykaty są pisane przed ich argumentami, w nawiasach:

(#$isa #$BillClinton #$UnitedStatesPresident)

„Bill Clinton należy do kolekcji prezydentów USA”.

(#$genls #$Tree-ThePlant #$Plant)

„Wszystkie drzewa są roślinami”.

(#$capitalCity #$France #$Paris)

"Paryż jest stolicą Francji."

Zdania mogą również zawierać zmienne, łańcuchy zaczynające się od „?”. Zdania te nazywane są „zasadami”. Jedna ważna reguła potwierdzona w odniesieniu do predykatu #$isa brzmi:

(#$implies
   (#$and
     (#$isa ?OBJ ?SUBSET)
     (#$genls ?SUBSET ?SUPERSET))
   (#$isa ?OBJ ?SUPERSET))

„Jeżeli obj jest wystąpienie gromadzenia PODZBIORU i PODZBIÓR jest subcollection z rozszerzeniem , a obj jest wystąpienie rozszerzeniem zbierania”. Innym typowym przykładem jest

(#$relationAllExists #$biologicalMother #$ChordataPhylum #$FemaleAnimal)

co oznacza, że ​​dla każdej instancji kolekcji #$ChordataPhylum (tj. dla każdego strunowca ) istnieje samica (instancja #$FemaleAnimal), która jest jego matką (opisaną przez predykat #$biologicalMother).

Baza wiedzy podzielona jest na mikroteorie (Mt), zbiory pojęć i faktów typowo odnoszących się do jednej konkretnej dziedziny wiedzy. W przeciwieństwie do bazy wiedzy jako całości, każda mikroteoria musi być wolna od monotonicznych sprzeczności. Każda mikroteoria jest pierwszorzędnym obiektem w ontologii Cyc; ma nazwę, która jest stałą stałą; Zgodnie z konwencją stałe mikroteorii zawierają ciąg „Mt”. Przykładem jest #$MathMt, mikroteoria zawierająca wiedzę matematyczną. Mikroteorie mogą dziedziczyć po sobie i są zorganizowane w hierarchię: jedną ze specjalizacji #$MathMt jest #$GeometryGMt, mikroteoria dotycząca geometrii.

Silnik wnioskowania

Silnik wnioskowania to program komputerowy, który próbuje uzyskać odpowiedzi z bazy wiedzy. Silnik wnioskowania Cyc wykonuje ogólną dedukcję logiczną (w tym modus ponens , modus tollens , uniwersalną kwantyfikację i kwantyfikację egzystencjalną ). Wykonuje również rozumowanie indukcyjne , statystyczne uczenie maszynowe i symboliczne uczenie maszynowe oraz wnioskowanie abdukcyjne (ale oczywiście oszczędnie i wykorzystując istniejącą bazę wiedzy jako filtr i przewodnik).

Wydania

OpenCyc

Pierwsza wersja OpenCyc została wydana wiosną 2002 roku i zawierała tylko 6000 koncepcji i 60 000 faktów. Baza wiedzy została wydana na licencji Apache License . Cycorp ogłosił zamiar wydania OpenCyc na równoległych, nieograniczonych licencjach, aby zaspokoić potrzeby swoich użytkowników. CYKL i subl interpreter (program, który pozwala użytkownikom na przeglądanie i edycję bazy danych, a także wyciągnąć wnioski) została wydana za darmo, ale tylko jako binarnej, bez kodu źródłowego. Został udostępniony dla systemów Linux i Microsoft Windows . Projekt Texai o otwartym kodzie źródłowym udostępnił zawartość zgodną z RDF wyodrębnioną z OpenCyc. Wersja OpenCyc 4.0 została wydana w czerwcu 2012 roku. OpenCyc 4.0 zawierał większość ówczesnej ontologii Cyc, zawierając setki tysięcy terminów, wraz z milionami asercji odnoszących się do terminów; są to jednak głównie twierdzenia taksonomiczne, a nie złożone reguły dostępne w Cyc. Baza wiedzy OpenCyc 4.0 zawierała 239 000 koncepcji i 2 093 000 faktów.

Głównym celem wydania OpenCyc była pomoc naukowcom zajmującym się sztuczną inteligencją w zrozumieniu tego, czego brakuje w tym, co teraz nazywają ontologiami i grafami wiedzy . Przydatne i ważne jest posiadanie odpowiednio taksonomizowanych pojęć, takich jak osoba, noc, sen, leżenie, przebudzenie, radość itp., ale czego brakuje w treści OpenCyc na temat tych terminów, ale są obecne w treści Cyc KB, to różne zasady kciuk, który większość z nas podziela na temat tych terminów: że (domyślnie w ModernWesternHumanCultureMt) każda osoba śpi w nocy, śpi leżąc, można się obudzić, nie jest zadowolona z tego, że się obudzi, i tak dalej. Ten punkt nie wymaga stale aktualizowanych wersji OpenCyc, więc od 2017 roku OpenCyc nie jest już dostępny.

BadaniaCyc

W lipcu 2006 Cycorp udostępnił bezpłatnie plik wykonywalny ResearchCyc 1.0, wersji Cyc skierowanej do społeczności naukowej. (ResearchCyc był w fazie rozwoju beta przez cały rok 2004; wersja beta została wydana w lutym 2005 r.) Oprócz informacji taksonomicznych zawartych w OpenCyc, ResearchCyc zawiera znacznie więcej wiedzy semantycznej (tj. dodatkowe fakty i zasady praktyczne) obejmujące pojęcia w swojej bazie wiedzy; zawiera również obszerny leksykon, narzędzia do analizowania i generowania języka angielskiego oraz oparte na Javie interfejsy do edycji wiedzy i zapytań. Dodatkowo zawiera system integracji danych w oparciu o ontologię . Od 2017 r. regularnie pojawiały się wersje ResearchCyc, a 600 grup badawczych korzystało bezpłatnie z licencji na całym świecie do niekomercyjnych celów badawczych. Od grudnia 2019 r. ResearchCyc nie jest już obsługiwany. Cycorp spodziewa się, że w nadchodzących latach ulepszy i zmodernizuje narzędzia dla zewnętrznych programistów.

Aplikacje

Odnotowano ponad sto udanych zastosowań Cyc; tutaj wymieniono kilka wzajemnie niepodobnych przypadków:-

Menedżer/integrator tezaurusa terminów farmaceutycznych

Przez ponad dekadę, Glaxo wykorzystał Cyc do półautomatycznie zintegrować wszystkie duże (setki tysięcy terminów) słowników pojęć z branży farmaceutycznej, które odzwierciedlają odmienne wykorzystanie całej firm, krajów, lata, i sub-branż. To zadanie integracji ontologii wymaga wiedzy dziedzinowej, płytkiej wiedzy semantycznej, ale także arbitralnie głębokiej, zdroworozsądkowej wiedzy i rozumowania. Słownictwo dotyczące farmacji różni się w zależności od kraju, (pod)branż, firm, działów i dziesięcioleci. Np. co to jest pakiet żelowy ? Jaka jest „nazwa ulicy” dla chlorowodorku ranitydyny ? Każdy z tych n kontrolowanych słowników jest ontologią zawierającą około 300 tys. terminów. Badacze Glaxo muszą zadać zapytanie w swoim obecnym słowniku , przetłumaczyć je na neutralne „prawdziwe znaczenie”, a następnie przekształcić je w przeciwnym kierunku, aby znaleźć potencjalne dopasowania do dokumentów, z których każdy został napisany zgodnie z określonym znanym słownictwem . Do tego ręcznie używali dużego personelu. Cyc jest używany jako uniwersalny interlingua zdolny do reprezentowania połączenia wszystkich „prawdziwych znaczeń” wszystkich terminów i zdolny do reprezentowania 300k przekształceń między każdym z tych kontrolowanych słowników a Cyc, tym samym przekształcając problem w liniowy bez wprowadzania zwykły rodzaj „gry telefonicznej” osłabienia znaczenia. Co więcej, tworzenie każdego z tych 300k mapowań dla każdego tezaurusa odbywa się w sposób w dużej mierze zautomatyzowany przez Cyc.

Baza wiedzy o terroryzmie

Kompleksowa Baza Wiedzy o Terroryzmie była aplikacją Cyc w fazie rozwoju, która starała się ostatecznie zawierać całą istotną wiedzę na temat grup „terrorystycznych”, ich członków, przywódców, ideologii, założycieli, sponsorów, powiązań, obiektów, lokalizacji, finansów, możliwości, intencji, zachowań , taktyki i pełne opisy konkretnych wydarzeń terrorystycznych. Wiedza jest przechowywana jako stwierdzenia w logice matematycznej, odpowiednie do zrozumienia i rozumowania komputerowego.

Fundacja Cleveland Clinic

Cleveland Clinic wykorzystał Cyc opracowanie zapytań języka naturalnego interfejsu danych biomedycznych, obejmujących dziesięciolecia informacji o Cardiothoracic gabinetów. Zapytanie jest analizowane na zestaw fragmentów CycL (logika wyższego rzędu) z otwartymi zmiennymi (np. „to pytanie dotyczy osoby, u której rozwinęło się zapalenie wsierdzia”, „to pytanie dotyczy podzbioru pacjentów z Cleveland Clinic, którzy przebył tam operację w 2009 r.” itp.); następnie stosuje się różne ograniczenia (wiedza z dziedziny medycyny, zdrowy rozsądek, pragmatyka dyskursu, składnia), aby zobaczyć, jak te fragmenty mogłyby ewentualnie dopasować się do jednego semantycznie znaczącego formalnego zapytania; znacząco, w większości przypadków istnieje dokładnie jeden i tylko jeden taki sposób włączania i integrowania tych fragmentów. Integracja fragmentów polega na (i) decydowaniu, które zmienne otwarte, w których fragmenty faktycznie reprezentują tę samą zmienną, oraz (ii) w przypadku wszystkich zmiennych końcowych, decydują o kolejności i zakresie kwantyfikacji, jaką powinna mieć ta zmienna i jakiego typu (uniwersalna lub egzystencjalna) . To zapytanie logiczne (CycL) jest następnie konwertowane na zapytanie SPARQL, które jest przekazywane do bazy danych CCF SemanticDB, która jest jej jeziorem danych .

MathCraft

Jedna aplikacja Cyc ma na celu pomóc uczniom w matematyce na poziomie 6 klasy, pomagając im znacznie głębiej zrozumieć ten przedmiot. Opiera się na doświadczeniu, że często myśleliśmy, że coś rozumiemy, ale naprawdę zrozumieliśmy to dopiero po tym, jak musieliśmy wyjaśnić lub nauczyć kogoś innego. W przeciwieństwie do prawie wszystkich innych programów edukacyjnych, w których komputer pełni rolę nauczyciela, w tej aplikacji Cyc, zwanej MathCraft, Cyc odgrywa rolę kolegi, który zawsze jest nieco bardziej zdezorientowany w temacie niż ty, użytkownik. . Rolą użytkownika jest obserwowanie awatara Cyc i udzielanie mu porad, poprawianie błędów, mentorowanie go, zwracanie uwagi na to, co robi źle, itp. Ponieważ użytkownik udziela dobrych rad, Cyc pozwala awatarowi popełniać mniej błędów tego typu , a zatem z punktu widzenia użytkownika wydaje się, że właśnie z powodzeniem nauczył go czegoś. Jest to odmiana uczenia się przez nauczanie .

Krytyka

Projekt Cyc został opisany jako „jedno z najbardziej kontrowersyjnych przedsięwzięć w historii sztucznej inteligencji”. Catherine Havasi , dyrektor generalny Luminoso, mówi, że Cyc jest poprzednikiem projektu IBM Watson . Pedro Domingos, naukowiec zajmujący się uczeniem maszynowym, określa projekt jako „katastrofalną porażkę” z kilku powodów, w tym niekończącej się ilości danych wymaganych do uzyskania realnych wyników oraz niezdolności Cyc do samodzielnej ewolucji.

Robin Hanson , profesor ekonomii na Uniwersytecie George'a Masona, przedstawia bardziej wyważoną analizę:

Oczywiście projekt CYC jest otwarty na krytykę dotyczącą jego wielu konkretnych wyborów. Ludzie skarżyli się na jego logiczne i językopodobne reprezentacje, na wybór prototypowych przypadków, z których można budować (np. artykuły w encyklopedii), na to, że skupia się na odpowiadaniu nad działaniem, na to, jak często odbudowuje i utrzymuje starsze systemy oraz o byciu prywatnym a publikowaniem wszystkiego. Ale każdy taki duży projekt wywołałby takie spory i nie jest oczywiste, że którykolwiek z jego wyborów był poważnie błędny. Musieli gdzieś zacząć i moim zdaniem zgromadzili teraz bazę wiedzy o naprawdę spektakularnym rozmiarze, zakresie i integracji. Inne architektury mogą działać lepiej, ale jeśli wiedza o wielu jest tak ważna, jak myśli Lenat, spodziewałbym się poważnych prób zaimportowania wiedzy CYC przez sztuczną inteligencję, przekładając ją na nową reprezentację. Żadne inne źródło nie może się równać z rozmiarem, zakresem i integracją CYC.

Podobny sentyment wyraził Marvin Minsky : „Niestety, strategie najpopularniejsze wśród badaczy sztucznej inteligencji w latach 80. znalazły się w ślepym zaułku” – powiedział Minsky. Tak zwane „ systemy eksperckie ”, które naśladowały ludzką wiedzę fachową w ściśle określonych obszarach tematycznych, takich jak prawo i medycyna, mogły dopasowywać zapytania użytkowników do odpowiednich diagnoz, artykułów i streszczeń, ale nie byłyby w stanie nauczyć się pojęć, które większość dzieci zna przed rozpoczęciem pracy. 3 lata. „Dla każdego innego rodzaju problemu”, powiedział Minsky, „budowa systemów eksperckich musiała zaczynać się od nowa, ponieważ nie gromadziły one zdroworozsądkowej wiedzy”. Według Minsky'ego tylko jeden badacz zobowiązał się do kolosalnego zadania zbudowania kompleksowego, zdroworozsądkowego systemu rozumowania. Douglas Lenat, poprzez swój projekt Cyc, kierował wprowadzaniem linijka po linijce ponad miliona reguł do zdroworozsądkowej bazy wiedzy”.

Gary Marcus , profesor psychologii i neuronauki na Uniwersytecie Nowojorskim oraz współzałożyciel firmy zajmującej się sztuczną inteligencją o nazwie Geometric Intelligence, mówi, że „reprezentuje podejście, które bardzo różni się od wszystkich tematów dotyczących głębokiego uczenia się, które pojawiły się w wiadomościach”. Jest to zgodne ze stanowiskiem Douga Lenata, że ​​„Czasami okleina inteligencji nie wystarcza”.

Stephen Wolfram pisze:

W początkach dziedziny sztucznej inteligencji było wiele dyskusji na temat „reprezentacji wiedzy”, z podejściami opartymi na gramatyce języka naturalnego, strukturze logiki predykatów czy formalizmie baz danych. Podjęto bardzo niewiele prób projektów na dużą skalę (Cyc Douga Lenata jest godnym uwagi kontrprzykładem).

Marek pisze:

Dziedzina ta mogłaby odnieść korzyści, gdyby CYC były systematycznie opisywane i oceniane. Jeśli CYC rozwiązał pewną istotną część zdroworozsądkowego rozumowania, to należy o tym wiedzieć, zarówno jako użyteczne narzędzie, jak i punkt wyjścia do dalszych badań. Jeśli CYC napotkał trudności, warto byłoby uczyć się na popełnionych błędach. Jeśli CYC jest całkowicie bezużyteczny, naukowcy mogą przynajmniej przestać się martwić, czy wymyślają koło na nowo.


Co kilka lat, odkąd zaczął publikować (1993), pojawia się nowy artykuł o Cyc w Wired Magazine , zarówno pozytywny, jak i negatywny (w tym jeden numer, który zawierał po jednym z każdego z nich).

Znani pracownicy

Jest to lista niektórych znaczących osób, które pracują lub pracowały nad Cyc, gdy był to projekt w MCC (gdzie Cyc powstał po raz pierwszy) lub Cycorp.

Zobacz też

Bibliografia

Dalsza lektura

Zewnętrzne linki