Nyhetssökning: Parsning ner till enskilda meningar under hög-intensitet

2013-09-30

Vid ett flertal tillfällen under året - oavsett eller ev. därför en ganska cynisk-person - kände jag ointresserat motstånd men kom likväl att ta ut skärmdumpar såväl som på andra sätt dokumenterande tids-dispergenser rörande en mycket marknadsledande nyhetssökfunktion under hög-intensitet rörande nyhetshändelser i förändring.


Jag mindre upplevde det troligt eller vad jag egentligen kunde bedöma trolighet för men noterande möjligheten att det i vissa fall kan existera ett intresse att reducera spridningskraft i förändring för att minska vad vi utan det skulle definiera som naturlig feedback tillbaka påverkande - adderande ex. kraft tillbaka - nyhetshändelsen som sådan. Då vissa kulturella eller samhällsdefinierande struktur-likheter existerade med där man möjligen - även om jag kanske i alla fall kan upplevas tror jag egentligen felaktigt mindre berörande - kan argumentera visst intresse finns för det. Varande i så fall okänt för mig och om så inte helt ointressant fann jag mig dumpande ner och dokumentera det för ett antal stickprov ytterst väsentliga nyhetshändelser (inte minst Egypten-turbulensen ganska tidigt).


Därefter har jag också on-going noterat slöhet i färskhets-rapportering. Den andra "problematiken" hade emellertid fallit bort ur mitt minne i meningen att jag ej associerade det gemensamt.


Emellertid kan jag nu se en annan tämligen trovärdig förklaring till det hela. Rörande processande av nyheter finns ju en mängd grupper av tekniker vi gärna använder. Bland de ännu mindre vanliga hör ju att konkret parsa hela nyheten mening per mening. Jag adderade själv stöd för det under året - mycket smartsamt och otrevlig programmering om än utan särskilda om någon teoretisk-problematik - vilket särskiljer sig tydligt från dom statistiska och viktigare pardigmen genom att vara brutalt långsammare.


I vissa segment - om de är av intresse - för tolkning går det emellertid (vad jag klarat att bedömma och så vitt jag vet utan något publicerat alls indikerande annat) klarar vi ej att komma ifrån det. Vi etablerar som människor inlärning liggande i språket där vi givet det kan acceptera en kreativ flexibilitet utan krav på att behöva yttrycka vad vi snabbare kan fånga och ta upp med dom snabbare statistiska metoderna (för att göra tydligare utelämnande statistiska parsers snarare än ex. bag-of-word vektorer med mera).


Vad jag själv sökte drivande mig att addera detta stöd - och det satt långt inne med stort motstånd eftersom det var välkänt för mig hur direkt otrevligt hela segmentet är i programmering - var "pack-dynamiken" implict för enskilda nyhetshändelser och nyheter eller drivande dessa och viktigare on-going i verklighet inverkande och påverkande.


Där är det kraft. Men är på nedsidan långsamt. Själv har jag inte prövat det på skarpare nyhetsparsning där det snarare nu är planerat att gå in först smalare mot ett fåtal tidningar just p.g.a. prestanda-kostnaden denna form av parsning kommer med.


Aktuellt företag levererande nyhetssökning som roar mig att använda - även om jag får erkänna att jag stadigt under kanske sista sex månaderna ev. också av andra orsaker upplevt reducerat värde där i alla fall europeisk dagtid man vanligen numera behöver komplettera med Reuters - noterade jag idag köpte upp tidigare år teknik krävande just denna form av parsning. Jag tror den är något reducerad i att ta vad jag ej minns stardard-termen på nu men logiska subsegment av meningen vilka för engelskan vanligen är ex. på entitet gör detta eller detta is detta o.s.v. För pack-dynamik är det ensamt mindre intressant därför att kontextuellt oftare ges i påföljande samma där de var för sig tappar dynamiken (ex. sekundärt indikeerande att entiet är OF något folk eller grupp eller ge värde-association) men för att extrahera t.ex. common sense relationer i automatiskt inlärning är det välkänt och ganska beprövat nu sedan ett flertal år fungerande ganska oberoende av andra liknande relationer (men också ganska bortkastad tid än då givet att så väldigt mycket filtrerat sådant data nu finns).


Jag håller det inte för otroligt att detta förklarar dispergensen. Mer övergripande för samma entitet har jag redan innan noterat att personligt skattat resulterande från verksamhet indikerar att de tappat hungrig eller väl-motiverad i prestige, personligt o.s.v. Kanske mer eller numera uteslutande av vad som kommer in till en given verklighet varande big and rich world utan den kulturbärande historiken från tidiga kämpande år. Prestanda och detaljer i det enkla är vad man kanske märker tappas balanserat mot förvisso möjligen mer komplexa och funktionella lösningar i idé eller algoritm mer eleganta. Det är vad vi ska känna igen också som normalt när företag tar steget till att bli givna och tagande värde-flow som given när det också samtidigt eller efterföljande kommer till att bli sin egen person så att säga (ex. aktie-ägardrivet snarare än de med minnen från start och framåt fortfarande är i core-business).


Det tycks för mig reflekterande över sekundära fördröjningar i det lilla i meningen relativt världens pågående nyhetstid skattat publicerat per sekund jag ej pågående såg eller reflekterat kopplat de mycket mer märkbara fördröjningar stora händelser (jfr Egypten) där man var konkret efter mot det mesta större i dominerande tidningar i engelska-språkområdet, TV m.m. som åtminstone lika troligt som andra mer i risk management möjliga förklaringar, och antagligen trolig förklaring snarare än svårbedömd men antagligen otrolig förklaring.