Antwort
 
Themen-Optionen Thema durchsuchen
Alt 31.10.2007, 19:52 Nach oben    #1
Benjamin Steininger
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.208
Standard Funktion "ähnliche Einträge" für Blog

Ich bin aktuell am basteln und überlege wie ich es am besten löse und welche Faktoren man bei dem Thema beachten sollte, wie man sie einbringt, etc um auf eine möglichst passende Anzeige zu kommen.

Für meinen Blog will ich die anzeige "ähnlicher" Einträge verbessern, aktuell ist es ein Query, das eigentlich nur alle Einträge die in einer der Kategorien in der der Blogeintrag auch steht abholt, sortiert nach dem Datum, das ganze würde ich gerne etwas verbessern.

meine bisher gesammelten Notizen:

Zur Verfügung stehen mir diese Faktoren die ich unter Umständen für Relevant für eine solche Anzeige halte (in Klammern meine Einschätzung welche Einfluss das ganze hat / haben sollte

- Tags (Ein Blogeintrag kann mehrer Tags zugewiesen bekommen) (Faktor ob er in der Liste erscheint)
- Kategorien (Ein Blogeintrag kann in mehreren Kategorien sein) (Faktor ob er in der Liste erscheint)
- Alter des Eintrags (kleiner Faktor der im Endeffekt nur eventuellen Sortierung dienen soll)

weitere mögliche Faktoren wären:
- Inhalt des Blogeintrags [Vorschau und Vollansicht]
(bei diesem Faktoren denke ich, dass eine Einbeziehung allerdings den Rechenaufwand stark erhöht und die Relevanz sich aus den vielen Worten nur sehr schwer berechnen lässt, wäre wohl sicher nur möglich wenn man eine sehr lange Blacklist mit irrelevanten Wörtern hat die man rausfiltert [der,die,das, etc] )
- Überschrift (auch hier müsste wohl eine Blacklist herhalten)
- "Klicks" (Einbeziehung der "Gefragtheit" des Eintrags, wie das Alter wohl wenn überhaupt ein Faktor zur Sortierung)

Aus den oben beschriebenen Faktoren geht eigentlich für mich hervor, dass Tags + Kategorien die relevantesten und am besten abgleichbaren Faktoren sind. Da die Tags für mich die genauere Beschreibung liefern sollten diese eine höhere Relevanz erhalten, da die Kategorien nur eine grobe Umschreibung des Eintrags darstellen. Da man die Faktoren irgendwie bewerten sollte am Ende ein Wert entstehen nach dem das ganze quasi sortiert ist und ich mir die obersten 5-10 Artikel nehme.

Dazu habe ich mir bisher folgenden Notiz gemacht [bis jetzt nur eine Art Pseudocode noch keinerlei Umsetzung, etc]

Für jeden anderen Blogeintrag wird folgender Wert im Vergleich zum ausgewählten Blogeintrag berechnet:
Code:
TagRelevanz = X
KategorieRelevanz = Y
AltersRelevanz = Z

Wertung =   ( TagRelevanz * AnzahlDerÜbereinstimmendenTags )
          + ( KategorieRelevanz  * AnzahlDerÜbereinstimmendenKategorien )
		  - ( AltersRelevanz * Alterswert)

// Die Klammern sind mathematisch nicht notwending sollen doch der besseren Zuordnung dienen

// Alterswert ist aktuell noch nicht näher bestimmt, da ich mir nicht sicher bin wie es am sinnvollsten einfließen lasse um dadurch nur noch eine Art Sortierung zu erreichen bei GLEICHEN Wertungen ?
// Die Relevanz-Werte sollen Variable Werte darstellen mit denen man spielen kann um zu schauen was für einen persönlich die beste "Liste" entstehen lässt.
Ein Ausscheidefaktor für einen Blogeintrag ist natürlich, dass der Eintrag selbst NICHT in der Liste auftauchen sollte. Auch relevant, da ich es schon auf Blogs, Newsseiten und anderen Systemen gesehen habe, ist das doppelte oder mehrfache Vorkommen von Einträgen in der Liste.

Angezeigt wird das ganze dann nur in der Vollansicht der Blogeinträge, also wenn es ein paar Querys braucht, ist das kein Problem (es wird nicht auf der Frontseite oder ähnliches genutzt, dass es 10mal oder mehr ausgeführt wird und je nach Komplexität wird das ganze gecacht oder auch immer nur neu erstellt, wenn ein neuer Beitrag dazukommt.).

Einerseits suche ich jetzt Artikel/Texte/Algorithmen (gerne auch in Englisch) zum Thema die sich vielleicht mit der Analyse solcher Probleme befassen, andererseits Vorschläge, wie ihr das bei eigenen Systemen gemacht habt und unter welchen Aspekten ihr das dann schlussendlich selbst implementiert habt.

mfg
robo47
robo47 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 31.10.2007, 22:15 Nach oben    #2
Lutz
 
Benutzerbild von MrNiceGuy
 
Registriert seit: 14.08.2005
Ort: Nienburg / Weser
Beiträge: 690
Standard

Ich selber habe diese Problematik zwar noch nicht lösen müssen, aber im Bezug auf "Black-Lists" wäre es vielleicht eine mögliche Alternative, eine sich selbst generierende Liste zu erstellen, indem bei neuen Artikeln alle Wörter in einer Liste eingepflegt und mitgezählt werden. Man hat dann recht schnell eine recht große Tabelle, kann aber anhand der Counts im Verhältnis zu der Anzahl der Artikel bestimmte Wörter wie "der", "die" oder "das" ausschließen, ohne selber eine Black-List anlegen und pflegen zu müssen.

Ansonsten würde ich die Tags und die Kategorien in ein Verhältnis setzen, dass ihrer Häfigkeit etwa entspricht (z.B. sind durchschnittlich 5 Tags pro Artikel üblich und durchschnittlich 2 Kategorien pro Artikel gewählt, würde ich das Verhältnis mindestens 5:2 wählen (da Tags jedoch gewichtiger wären, würde ich den Wert 5 eventuell noch höher setzen)), das Datum jedoch ungeachtet lassen (allerhöchstens zur Sortierung, damit neuere Beiträge vorn stehen). Warum? Ganz einfach: Wenn aufgrund der Tags und der Kategorie ein Artikel passt, der zwar schon ein Jahr alt ist, passt er dennoch, warum sollte er aufgrund des Alters in der Relevanz einem Artikel in der Liste weichen, der von den Tags und den Kategorien her nicht zusammenpasst, nur weil er neuer ist!?
__________________
Paradox ist, wenn jemand für seinen Alkoholkonsum geradestehen soll
MrNiceGuy ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 31.10.2007, 22:49 Nach oben    #3
Erfahrener Benutzer
 
Registriert seit: 18.03.2005
Beiträge: 597
Standard

Ich habe das bis jetzt nur über Tags gelöst, weil ich nur Beiträge anzeigen möchte, die auch wirklich ähnlich dem aktuellen Beitrag sind, also auch wirklich dazu passen. Deswegen definiere ich ja Tags.

Kategorien sind zu Unterschiedlich (deswegen gibt es ja Kategorien) als dort auch noch etwas einzubauen.
Wenn ich ein Beitrag zu Google lese, ist es Quatsch wenn ein ähnlicher Beitrag z.B. mit GDlib angezeigt wird

Gleiche Beiträge in mehreren Kategorien finde ich nicht so toll -> Double Content Verdacht
CIX88 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 01.11.2007, 18:05 Nach oben    #4
Benjamin Steininger
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.208
Standard

Zitat:
Zitat von MrNiceGuy Beitrag anzeigen
Ich selber habe diese Problematik zwar noch nicht lösen müssen, aber im Bezug auf "Black-Lists" wäre es vielleicht eine mögliche Alternative, eine sich selbst generierende Liste zu erstellen, indem bei neuen Artikeln alle Wörter in einer Liste eingepflegt und mitgezählt werden. Man hat dann recht schnell eine recht große Tabelle, kann aber anhand der Counts im Verhältnis zu der Anzahl der Artikel bestimmte Wörter wie "der", "die" oder "das" ausschließen, ohne selber eine Black-List anlegen und pflegen zu müssen.
Ich denke dafür wird mir der Aufwand zu groß sein für den Blog und es wäre ein System das ich eigentlich dann schon wenn neue Einträge dazukommen ab und an auch überprüfen muss, wie es arbeitet. Unschön auch wenn man mit der Blogsoftware einen anderen neuen Blog aufsetzt, der noch nicht so viel gelernt hat, dann müsste man da theorhetisch auch nach möglichkeit ne Art abgleich nutzen um den am Anfang nicht totalen Mist machen zu lassen. Ich denke Inhalt fällt erstmal weg

Zitat:
Zitat von MrNiceGuy Beitrag anzeigen
Ansonsten würde ich die Tags und die Kategorien in ein Verhältnis setzen, dass ihrer Häfigkeit etwa entspricht (z.B. sind durchschnittlich 5 Tags pro Artikel üblich und durchschnittlich 2 Kategorien pro Artikel gewählt, würde ich das Verhältnis mindestens 5:2 wählen (da Tags jedoch gewichtiger wären, würde ich den Wert 5 eventuell noch höher setzen)), das Datum jedoch ungeachtet lassen (allerhöchstens zur Sortierung, damit neuere Beiträge vorn stehen). Warum? Ganz einfach: Wenn aufgrund der Tags und der Kategorie ein Artikel passt, der zwar schon ein Jahr alt ist, passt er dennoch, warum sollte er aufgrund des Alters in der Relevanz einem Artikel in der Liste weichen, der von den Tags und den Kategorien her nicht zusammenpasst, nur weil er neuer ist!?

Das mit dem Alter war darauf bezogen, wenn der Umstand Eintritt, dass 2 oder mehr Artikel in der gleichen kategorie stehen + gleiche Tags haben, ich ja die Sortierung aber nicht unbedingt dem Zufall überlassen will.


Zitat:
Zitat von CIX88 Beitrag anzeigen
Ich habe das bis jetzt nur über Tags gelöst, weil ich nur Beiträge anzeigen möchte, die auch wirklich ähnlich dem aktuellen Beitrag sind, also auch wirklich dazu passen. Deswegen definiere ich ja Tags.

Kategorien sind zu Unterschiedlich (deswegen gibt es ja Kategorien) als dort auch noch etwas einzubauen.
Wenn ich ein Beitrag zu Google lese, ist es Quatsch wenn ein ähnlicher Beitrag z.B. mit GDlib angezeigt wird

Gleiche Beiträge in mehreren Kategorien finde ich nicht so toll -> Double Content Verdacht
Umso öfters ich das lese umso sinniger wird es mir, dass ich eigentlich auf die Kategorien verzichten könnte.

Das mit den Einträgen in mehrer Kategorien rührt bei mir wohl größtenteils daher, dass ich die ganze Zeit nur Kategorien hatte und keine Tags und auch die Tags aktuell nur in meiner Offlineversion existieren und erst dann verfügbar sind wenn ich das ganze migriere.


Danke auf jeden Fall mal für die Ideen und Vorschläge vielleicht komm ich am WE schon dazu das weiter zu verfolgen.

mfg
robo47
robo47 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 01.11.2007, 19:43 Nach oben    #5
Erfahrener Benutzer
 
Registriert seit: 18.03.2005
Beiträge: 597
Standard

Zitat:
Umso öfters ich das lese umso sinniger wird es mir
Najaaaa, bei einen Shop-System habe ich das mal so gemacht.
Dort wurden Produkte in mehrere Kategorien eingeteilt.

Ich will es um gottes willen nicht ausreden, nur meine Meinung ist allerdings, dass ich das in einen Blog nicht machen würde. Hier sind die Tags der Dreh- und Angelpunkt für weitere Funktionen, z.B. Tag-Suchfunktion und eben auch die Anzeige nach ähnlichen Beiträgen.

Hau rein robo47 ...
CIX88 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 01.11.2007, 20:04 Nach oben    #6
Lutz
 
Benutzerbild von MrNiceGuy
 
Registriert seit: 14.08.2005
Ort: Nienburg / Weser
Beiträge: 690
Standard

Dennoch ist es denke ich eine Alternative, eine Black-List anlegen zu können. Man kann die Datensätze dann ja in einen weiteren Blog übernehmen, da sich häufige Wörter wie "der", "die" oder "das" ja so oft doch nicht ändern werden

Andererseits war es von vornherein klar, dass eine Black-List immer einer Pflege bedarf, auch wenn ich da bei meinem letzten Post nicht ganz so drüber nachgedacht habe. Ohne Pflege geht sowas sicher immer in die Hose.
__________________
Paradox ist, wenn jemand für seinen Alkoholkonsum geradestehen soll
MrNiceGuy ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 02.11.2007, 08:06 Nach oben    #7
Erfahrener Benutzer
 
Registriert seit: 18.03.2005
Beiträge: 597
Standard

Eine Black-Liste benutze ich eigentlich weniger, jedenfalls nicht bei Tags, da ich diese per Hand definiere.
Eine ähnliche Art von einer Black-Liste wird nur für die META-Keywords benutzt, da diese automatisch erzeugt werden.
CIX88 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 02.11.2007, 16:04 Nach oben    #8
Benjamin Steininger
 
Benutzerbild von robo47
 
Registriert seit: 02.06.2005
Ort: weiher im tiefsten Odenwald
Beiträge: 1.208
Standard

Zitat:
Zitat von CIX88 Beitrag anzeigen
Eine Black-Liste benutze ich eigentlich weniger, jedenfalls nicht bei Tags, da ich diese per Hand definiere.
Eine ähnliche Art von einer Black-Liste wird nur für die META-Keywords benutzt, da diese automatisch erzeugt werden.
Will nicht extra nen Thread für aufmachen, was mich aber da mal interessiert, wie baust du beispielsweise die meta-keywords der "startseite" des blogs auf ? Alle meta-keywords der einträge die auf der Seite stehen (mit ausfiltern der dadurch dann eventuell vorhandenen dubletten) ?
robo47 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 02.11.2007, 17:45 Nach oben    #9
Lutz
 
Benutzerbild von MrNiceGuy
 
Registriert seit: 14.08.2005
Ort: Nienburg / Weser
Beiträge: 690
Standard

@CIX: Die Black-List soll ja auch nur dazu dienen, von den verwendeten Wörtern sehr seltene und somit gut suchbare Wörter von Standardwörtern der entsprechenden Sprache zu trennen, um anhand der "gültigen Wörter" einen Vergleich anstellen zu können. In den meisten Fällen bezieht sich das dann auch nur ganz wenige Worte in dem Dokument und ähnelt sehr stark den Tags, die ohnehin auch noch verwendet werden...
__________________
Paradox ist, wenn jemand für seinen Alkoholkonsum geradestehen soll
MrNiceGuy ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Alt 02.11.2007, 19:06 Nach oben    #10
Erfahrener Benutzer
 
Registriert seit: 18.03.2005
Beiträge: 597
Standard

Zitat:
wie baust du beispielsweise die meta-keywords der "startseite" des blogs auf ?
Hier benutze ich Suchbegriffe (Auswertungen von Logs), die sich im laufe der Zeit so ergeben haben. Bin ja selber am basteln, und da wird es von Zeit zu Zeit ergänzt bzw. verbessert. Alles andere erfolgt automatisch. Aber auch hier könnte ich dies autmatisch machen, da alle Suchanfragen protokolliert werden, und daraus könnte ich auch diese Keywords generieren. Aber da sind teilweise recht komische Anfragen, weshalb ich das lieber per Hand mache.
CIX88 ist offline  
Diesen Beitrag zu to del.icio.us hinzufügen!Diesen Beitrag zu Technorati hinzufügen!Diesen Beitrag zu Mister Wong hinzufügen!
Mit Zitat antworten
Antwort

Lesezeichen


Aktive Benutzer in diesem Thema: 1 (Registrierte Benutzer: 0, Gäste: 1)
 
Themen-Optionen Thema durchsuchen
Thema durchsuchen:

Erweiterte Suche

Forumregeln
Es ist dir nicht erlaubt, neue Themen zu verfassen.
Es ist dir nicht erlaubt, auf Beiträge zu antworten.
Es ist dir nicht erlaubt, Anhänge hochzuladen.
Es ist dir nicht erlaubt, deine Beiträge zu bearbeiten.

BB-Code ist an.
Smileys sind an.
[IMG] Code ist an.
HTML-Code ist aus.
Trackbacks sind an
PingBacks sind an
RefBacks sind aus

Ähnliche Themen
Thema Autor Forum Antworten Letzter Beitrag
[PHP] thumbnails erstellen - kleine Funktion Jann Hendrik Tutorials 2 16.01.2008 10:38
[PHP] Zeitformate, Datum und Co Jann Hendrik Tutorials 0 05.12.2006 18:48
[PHP] FTP-Funktionen in PHP nutzen MrNiceGuy Tutorials 0 24.05.2006 14:18
unobtrusive JS: 1 funktion auf mehrere elemente pichfl JavaScript und AJAX 2 26.02.2006 17:45
funktion mit variablenname aufrufen? Niedi PHP-Programmierung 4 20.09.2005 23:05


Alle Zeitangaben in WEZ +1. Es ist jetzt 10:14 Uhr.


Powered by vBulletin® Version 3.7.4 (Deutsch)
Copyright ©2000 - 2008, Jelsoft Enterprises Ltd.
Search Engine Optimization by vBSEO 3.2.0

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45