Informationsextraktion aus Weblogs


Neuerscheinung: Informationsextraktion aus Weblogs. Grundlagen und Einsatzmöglichkeiten der gezielten Informationssuche
Oktober 22, 2008, 5:04 pm
Filed under: Home

Informationen sind das A und O in unserer Gesellschaft. In vielen Belangen ist es unmöglich alles zu wissen. Wichtiger ist vielmehr, wie man zu Informationen kommt. Dieses Problem stellt sich v.a. für Unternehmer, welche sich mit Informationen und deren Wahrheitsgehalt auseinandersetzen müssen. Hier kann Information existenzentscheidend sein. Immerhin aber kann sich ein Informierter besser positionieren. Investiere ich in die richtige Firma, stimmen Aussagen, gibt es Insiderinformationen? Diese Fragen können mit zielgerichtetem Suchen gestillt werden. In dieser Arbeit werden Problemfelder der Informationsextraktion aus Weblogs beschrieben. Eine Herausforderung bei der Bewertung von Information ist, dass die Vertrauenswürdigkeit nicht in jedem Fall gegeben ist. Es stellt sich das Problem, dass der Wert der Information nicht immer erkannt wird und teilweise erst nachdem die Information gesammelt wurde, bewertet werden kann. Mit dieser Arbeit präsentiert der Autor Grundlagen und Einsatzmöglichkeiten der gezielten Informationssuche in Weblogs. Die Arbeit richtet sich an Personen aus der Informatik über Wirtschaftsinformatik bis zum Management.

Produktinformation

 

Produkt: Informationsextraktion aus Weblogs: Grundlagen und Einsatzmöglichkeiten der gezielten Informationssuche

Autor: Portmann Edy

Verlag: VDM Verlag Dr. Müller

Broschiert: 92 Seiten

Sprache: Deutsch

ISBN: 978-3639085266

Bezug: Amazon

Preis: EUR 49,00

 



Die bedeutendsten Weblog Suchmaschinen
Juni 10, 2008, 8:00 am
Filed under: Home

An dieser Stelle werden abschliessend die bedeutendsten Weblog Suchmaschinen aus dem deutsch- und US-englisch-sprachigen Raum aufgegliedert.

2RSS 2RSS bietet ein grosses kategorisier- und durchsuchbares Verzeichnis an, mit der Möglichkeit nach RSS- oder Atom-Formaten zu suchen. Ausserdem zeigt 2RSS die letzt hinzugefügten News-Feeds an und gibt eine Empfehlung lesenswerter News-Feeds ab.

Blog Catalog Blog Catalog bietet ein übersichtliches Blogverzeichnis mit der Möglichkeit einer Suche. Weiter besteht bei Blog Catalog die Möglichkeit, einen eigenen Weblog listen zu lassen. Ebenso werden ausgezeichnete Blogs und ein Blog Katalog gezeigt. Auf Blog Catalog gibt es ein Blog Spotlight, wie auch Listen mit den neusten und den populärsten Weblogs, eine Liste populärer Gruppen und Top Diskussionen.

Blog Search Engine Blog Search Engine ist eine auf Google basierende Weblog Suchmaschine, mit dem Fokus auf hoch stehenden Webloginhalt und zeigt neben einer Suche mehrere ausgezeichnete Weblogs und Topaufsteiger an. Weiter bietet die Blog Search Engine eine Liste mit den Top ausgezeichneten Blogs, den vertretenen Kategorien und einen eigenen Blogroll an.

Blogdigger Bloggdigger ist eine einfache und übersichtliche Metasuchmaschine mit Volltextsuchmöglichkeit nach RSS Informationen. Die Volltextsuchmöglichkeit von Blogdigger beinhaltet eine Link-, Datums-, Themen- und Titelsuchfunktion. Blogdigger beschränkt sich auf die wesentlichen Elemente einer Suchmaschine und bietet deswegen kein durchsuchbares Verzeichnis auf der Startseite.

Bloglines Bloglines ermöglicht das Durchsuchen, Abonnieren, Kreieren und Teilen von News-Feeds, Weblogs und Webinhalten. Bloglines versteht sich als webbasierten News-Aggregator von RSS- und Atom-Feeds. Seit 2007 gibt es ferner eine iPhone Version von Bloglines, um mobil von unterwegs nach Weblogs zu suchen.

BlogPulse BlogPulse ist ein vom Marktforschungsunternehmen Nielsen zur Verfügung gestelltes Trendbeobachtungssystem für Blogs, welches mit künstlicher Intelligenz und natürlicher Sprachverarbeitungstechniken arbeitet. Das Tool „Conversation Tracker“ zeigt dazu die Vergangenheit eines Weblogartikels, seiner Kommentare und Verweise auf. Oft genannte Sätze werden ebenfalls in Echtzeit aufgeführt. Das Marktforschungsunternehmen Nielsen betreibt über die kostenlose Grundnutzung von BlogPulse hinaus weitere kostenpflichtige Leistungen.

BlogScope BlogScope ist ein Analyse- und Visualisierungstool für die Blogosphäre, welches als Teil eines Forschungsprojektes der Universität von Toronto entwickelt wurde. BlogScope hilft Benutzern interessante Nachrichten, mit Hilfe von Popularitätskurven, der Identifikation von Informationshäufungen hinsichtlich verwandter Begriffe und daneben einer geographisch beschränkten Suchmöglichkeit zu entdecken.

BlogStreet BlogStreet bietet eine Weblog Suchmaschine und ein RSS-Verzeichnis. Bei der Suche nach Weblogs gibt BlogStreet ausführliche Informationen über jeden gefundenen Weblog ab und zeigt Beziehungen zwischen verwandten Blogs auf.

Cyberalert Cyberalert ist eine Weblog Suchmaschine für komplexe Suchanforderungen, welcher regelmässige Reports über Erwähnungen von Produkten, Marken oder Themen in Weblogs erstellt.

FeedBeagle Nach einer Registrierung erlaubt FeedBeagle anpassbare News und Feeds. FeedBeagle nimmt dazu, wie eine traditionelle Zeitung, Kategorisierungen vor. Die einzelnen Themen der Kategorie können mit Hilfe eines Wizards vom Benutzer selbst ausgewählt werden, diese werden danach von FeedBeagle automatisch abgelegt.

FeedsFarm FeedsFarm bietet Artikelzusammenfassungen und Suchergebnisse in verschiedenen Syndikationsformaten an. Auf der Startseite können News, Feeds, Bilder, Tags, usw. durchsucht werden. Zudem bietet FeedsFarm ein geordnetes Verzeichnis mit aktuellen Blogs pro Themenbereich.

Google Blogsearch Google Blogsearch ist die Blog Suchmaschine von Google und bietet eine Suchmöglichkeit nach allen Weblogs, welche ein News-Feed (RSS, Atom) generieren. Mit der Auswahl der „erweiterten Blog-Suche“ können, gleich wie bei der herkömmlichen Web Suchmaschine von Google, genauere Einschränkungen bezüglich der Weblog Suche vorgenommen werden.

IceRocket Blog Search IceRocket Blog Search ist eine Metasuchmaschine für Weblogs. Bei IceRocket Blog Search kann auf der Startseite neben der Suche noch eine Liste mit den Top-Suchen gefunden werden. Zudem besteht die Möglichkeit den eigenen Blog anzumelden.

Nielsen BuzzMetrics BuzzMetrics ist ein Dienst, der Onlinequellen und Interviews mit Hilfe von Analysten auswertet und „Word of Mouth-Strategien“ vorschlägt. BuzzMetrics beobachtet die Weblog-Szene und identifiziert einflussreiche Blogger. BuzzMetrics ist die kostenpflichtige Version der Firma Nielsen (vgl. BlogPulse in Kap. 7.3.1).

Plazoo Plazoo ist eine RSS Suchmaschine für News und Weblogs, welche eine persönliche und zusammengesetzte Feed-Suche ermöglicht. Weiter kann mit Hilfe von Plazoo eine Suche nach Rechercheresultaten anderer Sucher und persönliche Interessenprofile verfolgt werden.

Popdex Popdex bestimmt kontinuierlich die im Moment populärste Internetseite. Die Suche von Popdex erlaubt das Finden von Worten in News, referenzierter Links, Weblogs oder auch in Beschreibungen. Zudem können mit Popdex alle auf einen bestehenden Link verweisenden Weblogs gefunden werden.

Postami Postami bietet eine Suchmöglichkeit nach Schlüsselworten in Weblogs. Zudem bietet Postami neben der Suche auch ein kategorisiertes Verzeichnis an, anhand welchem Weblogs durch browsen gefunden werden können.

Read A Blog Read A Blog ermöglicht auf der Startseite eine einfache Suche. Weiter wird auf Read A Blog eine Anzeige von neu hinzugefügten, populären, häufig gesuchten und vor kurzem angeschauter Weblogs abgegeben.

Sphere Sphere ordnet Weblogs nach Themen und bietet eine Suchmöglichkeit von Einträgen in News. Die Suchmaschine von Sphere kombiniert für das Auffinden und Erstellen von Suchresultaten Semantik mit Autoritätsfaktoren. Zudem erlaubt Sphere nach Weblogs zu suchen, welche, basierend auf dem Inhalt des betrachteten Weblogs, in Verbindung mit News Artikeln stehen.

Techdirt Techdirt ist ein speziell auf den Informationsbedarf von Geschäftskunden zugeschnittenes, Suchsystem. Techdirt verfolgt dazu Diskussionen in verschiedenen Feldern, wie beispielshalber Automotive.

Technorati Technorati, die wohl bekannteste Weblog Suchmaschine, ist eine Open-Source Weblog Suchmaschine für das Durchsuchen von Weblogs nach Schlagworten. Weiter sind tagesaktuelle Ergebnisse als RSS-Feed abonnierbar und es gibt eine Themenlisten oft verlinkter Artikel. Für die Suche und Kategorisierung der Suchresultate nutzt Technorati Tags welche Weblogautoren auf ihren Seiten platzierten.

Weblogs Weblogs zeigt alle in den letzten Minuten upgedateten Weblogs an. Um diesen Dienst zu nutzen, müssen Besitzer von Blogseiten Weblogs durch ein automatisches Skript informieren.



Anforderungen an moderne Suchmaschinen
Juni 9, 2008, 8:00 am
Filed under: Home

Eine grosse Anforderung an moderne Suchmaschinen ist demzufolge, bestehende Suchmöglichkeiten um einfach zu benutzende Elemente, wie beispielsweise des Browsings, zu erweiterten, so dass Benutzer nach dem Abschicken einer Suchanfrage nicht mehr mit einer Trefferliste alleine gelassen werden.
Das Ziel der Suche mittels Suchmaschinen sollte sein, dem Nutzer die für die Befriedigung seines Informationsbedürfnisses besten Ergebnisse zu liefern. Als zentral für eine erfolgreiche Recherche erweist sich die Möglichkeit der gezielten Beschränkung der Recherche durch den Nutzer: Die wichtigsten Faktoren sind hierbei, die Einschränkung nach Aktualität, Qualität und die verbesserte Dokumentauswahl aufgrund einer erweiterten Dokumentrepräsentation.



Funktionsweise von Web Suchmaschinen
Juni 6, 2008, 8:00 am
Filed under: Home

Heute wird die Suche im Internet vielfach mit Suchmaschinen in Verbindung gebracht. Die Hauptaufgaben der Suchmaschinen im Internet, so genannte Web Suchmaschinen, sind erstens die Erstellung eines Indexes, zweitens die Verarbeitung von Suchanfragen und drittens die Aufbereitung der Ergebnisse in einer sinnvollen Art und Weise.

Indexierung Mittels Web-Crawler erfolgt die Datenbeschaffung im WWW vollautomatisch. Ein Web-Crawler ist ein Programm oder ein automatisiertes Skript, welches mit dem Ziel der Datenerschliessung das World Wide Web in methodischer Weise durchquert. Web-Crawlers werden genutzt, um eine Abbildung besuchter Seiten zu erstellen, anhand welcher ein Index für die Suchmaschine erzeugt wird. Dadurch garantieren Suchmaschinen eine schnelle Suche. Ein Web-Crawler startet mit einer Liste von URLs. Während dem Aufsuchen dieser URLs besucht der Web-Crawler alle auf den einzelnen URLs eingetragenen Hyperlinks, folgt diesen und erstellt dadurch einen Index.

Auffinden und gliedern von Resultaten Die Web Suchmaschinen erstellen als Basis für ihre Suche einen Schlüsselwort-Index um auf Suchanfragen schnell, mittels einer nach Relevanz geordneten Trefferliste, zu antworten. Nach dem Absenden einer Suche liefert eine Web Suchmaschine eine Liste mit Verweisen auf „relevante“ Dokumente.
Derartige Kriterien der Relevanz werden von Suchmaschinen genutzt, um Dokumente bei der Ausgabe zu sortieren. Dazu gibt es unterschiedliche Verteilungstypen der Relevanz von Dokumenten zu einem Thema.

Aufarbeitung der Ergebnisse Die Verweise werden meistens mit einem Titel und einem kurzen Auszug des jeweiligen Dokuments oder entsprechender Schlüsselworte dargestellt. Für das Auffinden entsprechender Dokumente können unterschiedliche Suchverfahren eingesetzt werden, wobei für die Aufarbeitung und Darstellung der Suchergebnisse verschieden Möglichkeiten bestehen nach der Relevanz der einzelnen Dokumente zu sortieren.
Suchmaschinenanbieter ziehen für die Relevanz-Bestimmung ihre eigenen, meistens geheim gehaltenen Kriterien heran. Es gibt Suchmaschinen, welche nicht ausschliesslich nach Relevanz sortieren, sondern gegen Bezahlung Ausgaben weiter vorne platzieren. Bei den grossen Web Suchmaschinen hat sich in den letzten Jahren jedoch eine Trennung zwischen bezahlten und normal aufgefundenen Dokumenten durchgesetzt.



Beliebtheit von Web Suchmaschinen
Juni 5, 2008, 8:00 am
Filed under: Home

In der heutigen Zeit ist Google die prominenteste Web Suchmaschine, denn nach einem Namen eines Suchmaschinenanbieters gefragt, bekommt man gemäss Siederkeviciute neben Google keine weiteren aufgezählt.

Laut Bausch und McGiboney sind die grössten Web Suchmaschinen Google mit 55.5 Prozent Marktanteile, Yahoo mit 18.8 und MSN mit 13.8 Prozent vertreten. Im deutschsprachigen Raum verteilen sich gemäss Rosada-Braum die Marktanteile wie folgt: Google 89.9 Prozent, Yahoo drei Prozent und MSN (1.8 %), hinter T-Online mit 1.9 Prozent.

Anhaltend gemachte Innovationen (nicht nur von Google) zeigen die Websuche als dynamisches Feld. Vor allem wird durch die Innovationen der letzten Jahre, teilweise erst der letzten Monate, klar, dass die Suche im Web erst am Anfang steht.



Drei Kategorien von Suchanfragen
Juni 4, 2008, 8:00 am
Filed under: Home

Laut Broder lassen sich Suchanfragen von Benutzern in drei Kategorien ordnen.
Erstens in die navigationsorientierte Suche, wobei der Benutzer methodisch nach Seiten sucht, welche er schon kennt oder von denen er annimmt, dass es diese gibt.
Zweitens sucht der Benutzer bei der informationsorientierten Suche Daten zu einem bestimmten Inhalt, welche mit dem Auffinden der Information beendet ist.
Die dritte Art ist die transaktionale Suche nach Seiten aus dem Internet, wie beispielsweise Webseiten, Chats, usw.
Dabei finden nach Lewandowski vor allem ungeübte Nutzer die für sie relevanten Daten nicht oder nur unzureichend. Zudem geben ungeübte Nutzer vielfach zu schnell auf und vertiefen ihre Suche nicht. Entsprechende Nutzerforschungen zeigen einheitlich, dass das Wissen der Nutzer über die von ihnen verwendeten Suchmaschinen, sowohl in der Kenntnis der Funktionsweise, als auch in der Kenntnis der Suchfunktionen der Suchmaschinen, ausgesprochen gering ist.



Suchmaschinen – Eine Einführung
Juni 3, 2008, 8:00 am
Filed under: Home

Suchmaschinen konnten dank der wachsenden Datenmengen im Internet ein starkes Ansehen erlangen. Ein Suchprozess beginnt, wenn ein Benutzer eine Anfrage in ein System eingibt. Anfragen sind formale Angaben des Informationsbedürfnisses, beispielsweise Suchstrings in einer Websuchmaschine.

Typischerweise identifiziert eine Suchanfrage nicht ein einziges Objekt in einer Kollektion, sondern es werden viele Objekte auf die Suchanfrage gefunden. Unter einem Objekt wird ein Datensatz oder gespeicherte Information in einer Datenbank verstanden. Benutzeranfragen werden auf Übereinstimmung mit den gespeicherten Objekten überprüft.

Unterschieden werden diese Objekte mit unterschiedlichem Grad an Relevanz. Abhängig von der Applikation können die Datenobjekte zum Beispiel Textdokumente, Bilder oder Videos sein. Viele Suchmaschinen berechnen eine numerische Auswertung, wie gut jedes einzelne Objekt in einer Datenbank mit der Suchanfrage übereinstimmt und ordnen die gefundenen Objekte anhand dieses Wertes. Die Topantworten der Objekte werden dann dem Benutzer gezeigt.

Dieser Prozess kann wiederholt werden, falls der Benutzer die Suchanfrage verfeinern möchte. Daneben können Suchmaschinen von komplexer bis einfacher Bedienung variieren, immer mit entsprechenden Vor- und Nachteilen. Welche Suchmaschine wie genutzt wird, hängt davon ab, wie geübt der Benutzer im Umgang mit diesen ist.



Festinstallierte Server-Applikationen
Juni 2, 2008, 8:00 am
Filed under: Home

Unter den festinstallierten Server-Applikationen werden all diejenigen Angebote verstanden, welche der Benutzer selber installieren und unterhalten muss. Der Benutzer kann dazu ein Grundgerüst des jeweiligen Anbieters beziehen und dieses auf eigenem Platz im WWW veröffentlichen. Bei festinstallierten Applikationen ist der Nutzer sein eigener Herr, mit allen Vor- und Nachteilen. Ein wesentlicher Vorteil besteht darin, dass man totalen Zugriff auf alle Daten und Designs hat, ein Nachteil darin, dass man auch für den Unterhalt des Systems selber verantwortlich ist.

Movable Type Das Weblog-Skript Movable Type wurde im Herbst 2001 zum ersten Mal dem Publikum vorgestellt, wobei jedoch am Anfang Movable Type kein kommerzielles Projekt war. Heute bezahlt man für das Herunterladen einen Beitrag.

WordPress Seit 2001 wird das Skript von WordPress durch eine Entwicklergemeinschaft ehrenamtlich gepflegt und weiterentwickelt.

LifeType Das Ziel der Open-Source-Plattform LifeType, welche im Jahr 2003 erstellt wurde, ist Weblog-Communities zu fördern. Um dieses Ziel zu erreichen, erlaubt LifeType mehrere Benutzer mit einem oder mehreren Weblogs. LifeType ähnelt WordPress hinsichtlich der Standardkonformität und Benutzerfreundlichkeit.



Webbasierte Blog-Services
Mai 30, 2008, 8:00 am
Filed under: Home

Alle unter webbasierten Blog-Services genannten Blogs sind von den anbietenden Organisationen selbst gehostete Services. An dieser Stelle werden die populärsten Services erwähnt, was nicht heissen soll, dass dies die einzig qualitativ guten Angebote sind. So gibt es weiterer Angebote, welche an dieser Stelle nicht beschrieben werden.

Blogger Der Weblog-Service Blogger wurde 1999 von PyraLab, einem Softwareunternehmen aus San Francisco eingeführt und versteht sich als ein Pionier der Blogging-Bewegung, wobei Blogger die Verbreitung und die Mitprägung des Begriffs Blog zugeschrieben wird.

Typepad 2003 wurde der Weblog-Service Typepad von den Herstellern des Weblog-Skriptes Movable Type, in den USA gegründet. Typepad ist jedoch nicht gratis nutzbar, sondern je nach gewünschtem Funktionsumfang werden verschieden teure Abonnemente lösbar.

WordPress Gleich wie Blogger ist WordPress ein Gratis-Blogging-Service, welcher durch leicht zu bedienende Features auf die Bedürfnisse von Gelegenheits-Bloggern zugeschnitten wurde.

Blogigo Blogigo ist ein im Winter 2003 in Deutschland gegründeter Gratis-Weblog-Service, welcher vor allem deutschsprachige Weblogs hostet. Finanziert wird dieser Service über eingeblendete Werbung, welche allerdings bei der kostenpflichtigen Version abgeschaltet werden können.

 



Blog-Services von Communities
Mai 29, 2008, 8:00 am
Filed under: Home

Als die Blogosphäre zu wachsen begann, entschieden viele populäre Internetanbieter, wie beispielsweise MySpace, Facebook und Friendster ebenfalls Weblog-Services anzubieten. Allerdings sind diese Angebote oft relativ rudimentär und werden üblicherweise vor allem von Teenager benutzt.
Alle diese Services von MySpace, Friendster, Facebook, MSN und Yahoo zielen auf die Blogger, welcher den Blog benutzt, um mit Freunden und Familie in Kontakt zu bleiben.