Introduction to Information Retrievel

2013-09-13

Jag upplevde ett behov av en referensbok som sammanfattade dom vanliga mer grundläggande algoritmerna i segmentet och inhandlade Introduction to Information Retrievel. Just för det syftet var den utmärkt.


För andra syften finns ett par tre grupper av problem värda att peka på.


Precis som när jag diskuterade Microsoft i kontext av Bing! med dess stillstående serp-kvalitet gäller att man både i aktuell bok och där gör saker by the book men helt så vitt man kan konstatera saknar en samlad teori för vad som egentligen händer när folk skriver, när folk söker o.s.v.


Ett ex. är att man i förbegående konstaterar att första raden kanske är något som kan valideras högre relaterat "nyheter" med åtminstone en referens till det. Tradition gör att pressmeddelanden skrivs utan underrubriker och att pressmeddelandets första huvudrubrik när pressmeddelandet säljs vidare är inte självklart bibehållet. Det gör att underrubriker ej indikeras via html-taggar eller dyligt. De studier som konstaterat värden rörande sådant här alltid såvitt jag vet hamnat i dom underförstådda rubrikerna som läggs utan att indikeras rubriker inledande stycken. D.v.s. mest säkert med införstådd ingress inledande första och andra stycket.


Förståelse av sådant rör dock inte huvudfrågan vilket i indikerad förståelse ligger närmare hur vi optimerar processande utan full NLP med överföring till mening utnyttjande indikationer som i exemplet.


Att det går att göra någon av antagligen hundratals varianter av back-of-words med mer eller mindre ad-hoc viktning av rubriker, strong m.m. är givet. Inga av de grundläggande algoritmerna i eller utanför Introduction to Information Retrievel berör sådan validering.


Det var ett av de mer signifikanta värdena jag fick av att själv börja denna del av resan från den kognitivia psykologin i möjlighet att etablera modell för hur vi kan se på och hantera sådant som mest enkelt rubriker (d.v.s. mina koncept med do resp. describe och cues indikerande bredare pre-aktivering än vad konvergens därefter ger).


Större problem två (av totalt två) är mindre i sitt teoretiska omfång men är liksom i Mannings bok Foundations of Statistical Natural Language Processing väldigt över-uttryckt i Introduction to Information Retrievel: LSA.


Vi har en mängd andra möjligheter i eller utanför ICA-familjen där särskilt de utanför ICA är minst sagt viktigare givet det subkulturella överuttryck LSA tenderar att få genom att vara oftare uttryckt och gissar jag inte sällan hör till det mer algebraiskt avancerade datastudenten möter under sin utbildning före eller efter ev. doktorandutbildning. Det gör att viss bredd i lösningar utanför det är viktigt.


Den betydelsen ökar så klart av att så vitt jag vet finns inget sammanhang där LSA inte är sämre än alternativ. För några grupper av sådana situationer - och dom i särklass största - samtidigt som LSA är mycket mer långsamt med övriga inkl. hela ICA-familjen resp. Hotelling-familjen (PSA) är ungefär lika långsamma.


I sammanfattning: En acceptabel referensbok men delade upplever jag dom (väldigt nära) orsaker som ger en acceptabel Bing! lösning (m.m. liknande) men också i hela koncept-områden som boken ej berör varför Bing! år efter år efter år adderar föga eller inget värdebyggande mer än lite anti-spam förbättring. Men som i undervisning är mindre lämplig utan kompletterande översikt över många fler alternativ än den idag föråldrade och sämre LSA.