Αναζήτηση πληροφοριών στον παγκόσμιο ιστό

 

ΠΕΡΙΕΧΟΜΕΝΑ

Εισαγωγή

ΜΕΡΟΣ Α΄

Τι είναι το διαδίκτυο

Ι. Ιστορική αναδρομή

ΙΙ. Ορολογία

ΙΙΙ. Σύγχρονες χρήσεις

IV. Υπηρεσίες

V. Επικοινωνία

VI. Μεταφορά δεδομένων

VII. Η γλώσσα του διαδικτύου

VIII. Κοινωνικός αντίκτυπος

ΜΕΡΟΣ Β΄

Ευρετηριοποίηση δεδομένων

Τι είναι το collaborating filtering

Τρόπος λειτουργίας

ΜΕΡΟΣ Γ΄

Περιγραφή τρόπου λειτουργίας μηχανής αναζήτησης Google

Λειτουργικότητα

Επιλογές αναζήτησης

Επίλογος

Βιβλιογραφία

Στην παρούσα εργασία θα επιχειρηθεί μια μικρή αναφορά σε μια από τις σημαντικότερες τεχνολογικές εξελίξεις της τελευταίας δεκαπενταετίας, η οποία έχει αλλάξει εκ βάθρων τον τρόπο με τον οποίο η γνώση και η πληροφορία αποθηκεύεται και διαχέεται στην παγκόσμια κοινότητα. Η εξέλιξη αυτή δεν είναι άλλη από το διαδίκτυο και τον παγκόσμιο ιστό, καθώς και τις διάφορες υπηρεσίες που αναπτύχθηκαν με στόχο τον ευκολότερο εντοπισμό της απαραίτητης πληροφορίας στον ενδιαφερόμενο χρήστη.

Η εργασία χωρίζεται ουσιαστικά σε τρία μέρη: Στο πρώτο μέρος διασαφηνίζονται οι όροι διαδίκτυο και παγκόσμιος ιστός και γίνεται μια μικρή ιστορική αναδρομή στην εξέλιξή τους. Στη συνέχεια αναφέρονται οι σύγχρονες χρήσεις τους και οι υπηρεσίες που παρέχονται στο χρήστη. Επίσης σημειώνονται οι κυριότερες επιπτώσεις τους τόσο στην ανθρώπινη επικοινωνία (email και τηλεφωνία) καθώς και στην μεταφορά δεδομένων όπως είναι η διακίνηση εικόνας και βίντεο αλλά και επιστημονικής γνώσης.

Στο δεύτερο μέρος γίνεται αναφορά στον όρο "ευρετηριοποίηση" και περιγράφεται η "συνεργατική διήθηση", δηλαδή ο βασικότερος τρόπος με τον οποίο το απέραντο πλήθος των δεδομένων που υπάρχει στο διαδύκτιο, ταξινομείται και αποθηκεύεται έτσι ώστε να μπορεί να ανταποκρίνεται στις εξατομικευμένες απαιτήσεις του κάθε χρήστη. Η συνεργατική διήθηση είναι το θεωρητικό υπόβαθρο για την ανάπτυξη του αλγορίθμου "PageRank", τον οποίο χρησιμοποιεί κατά κόρον η εταιρεία Google, για να εντοπίσει τις καταλληλότερες σελίδες οι οποίες κατά πάσα πιθανότητα ενδέχεται να ενδιαφέρουν τον χρήση που θα υποβάλλει ένα ερώτημα.

Τέλος, στο τρίτο μέρος γίνεται μια λεπτομερής αναφορά στον τρόπο λειτουργίας της πιο διαδεδομένης σήμερα μηχανής αναζήτησης στον κόσμο, τη Google Search Engine, και αναλύονται οι διάφοροι τελεστές που μπορούν να χρησιμοποιηθούν ώστε το τελικό αποτέλεσμα να είναι όσο το δυνατόν πιο εξατομικευμένο και πλησιέστερα στις ανάγκες του χρήστη.

 

Τι είναι το διαδίκτυο

Το Διαδίκτυο ή αλλιώς «ίντερνετ» είναι ένα παγκόσμιο σύστημα διασυνδεδεμένων δικτύων υπολογιστών που χρησιμοποιούν έναν ειδικό τρόπο για να επικοινωνεί το ένα με το άλλο. Είναι ένα «πλέγμα» που αποτελείται από εκατομμύρια ιδιωτικών, δημόσιων, ακαδημαϊκών, επιχειρηματικών και κυβερνητικών δικτύων, με εμβέλεια που κυμαίνεται από τοπικό σε παγκόσμιο επίπεδο και συνδέονται μεταξύ άλλους με ένα ευρύ φάσμα ηλεκτρονικών και οπτικών τεχνολογιών δικτύωσης.

Το Διαδίκτυο φέρνει έναν απέραντο πλούτο πληροφοριακών πόρων και υπηρεσιών, κυρίως με την αλληλεπίδραση εγγράφων υπερκειμένου του «Παγκόσμιου Ιστού» (Wοrld Wide Web ή www) αλλά και την υποδομή για την υποστήριξη ηλεκτρονικού ταχυδρομείου.

Τα περισσότερα παραδοσιακά μέσα επικοινωνίας, όπως το τηλέφωνο και η τηλεόραση, αναδιαμορφώνονται ή επαναπροσδιορίζονται με τη χρήση διαδικτυακών τεχνολογιών, και οδηγούνται σε υπηρεσίες όπως η «Τηλεφωνία μέσω Διαδικτύου» (Voice over Internet Protcol (VIP). Οι έντυπες εκδόσεις εφημερίδων έχουν μεταμορφωθεί σε ιστοσελίδες, ιστολόγια και διαδικτυακά ενημερωτικά δελτία. Το Διαδίκτυο ενεργοποίησε ή επιτάχυνε νέες μορφές ανθρώπινης αλληλεπίδρασης, μέσω άμεσων μηνυμάτων, φόρουμ στο Διαδίκτυο, καθώς και δικτυακών τόπων κοινωνικής δικτύωσης.

Ι. Ιστορική αναδρομή

Οι αρχές του Διαδικτύου εντοπίζονται στη δεκαετία του 1960 όταν οι Ηνωμένες Πολιτείες χρηματοδότησαν ερευνητικά στρατιωτικά προγράμματα με στόχο την κατασκευή ισχυρών, αλάνθαστων και διεσπαρμένων (για λόγους ασφάλειας) υπολογιστικών δικτύων.

Η εκτόξευση του σοβιετικού Σπούτνικ ώθησε τις Ηνωμένες Πολιτείες στη δημιουργία της Advanced Research Prjoects Agency (ARPA), τον Φεβρουάριο του 1958 με στόχο την ανάκτηση του τεχνολογικού προβαδίσματος. Η ARPA δημιούργησε το Γραφείο Επεξεργασίας Πληροφορίας και Τεχνολογίας (IPT) με στόχο την επέκταση της έρευνας που είχε ήδη διεξάγει για πρώτη φορά η Semi Auotmatic Ground Environment (SAGE) πάνω σε ένα πρόγραμμα, ταυτόχρονης δικτύωσης των συστημάτων ραντάρ σε επίπεδο χώρας. Ο σκοπός του IPT ήταν να βρει τρόπους να αντιμετωπισθεί η ανησυχία του στρατού των ΗΠΑ σχετικά με την ικανότητα επιβίωσης των δικτύων επικοινωνιών του, και ως πρώτο βήμα διασυνέδεσαν τους υπολογιστές τους στο Πεντάγωνο, το Όρος Τσεγιέν, και το επιτελείο τους Αεροπορικής Διοίκησης.

Αυτή η έρευνα και μια περίοδος πολιτικής χρηματοδότησης από το Εθνικό Ίδρυμα Επιστημών, γέννησε την ανάπτυξη νέων τεχνολογιών δικτύωσης σε παγκόσμιο επίπεδο και οδήγησε στην εμπορευματοποίηση του διεθνούς δικτύου στα μέσα τους δεκαετίας του 1990. Αυτό είχε ως αποτέλεσμα την συνακόλουθη εκλαΐκευση αμέτρητων εφαρμογών σε σχεδόν κάθε πτυχή τους σύγχρονης ανθρώπινης ζωής.

Στο Διαδίκτυο δεν υπάρχει καμία κεντρική διοίκηση είτε σε ό,τι αφορά τους τεχνολογικές εφαρμογές είτε στην πολιτική πρόσβασης και χρήσης του. Κάθε στοιχείο (υποδίκτυο) του διαδικτύου θέτει τα δικά του πρότυπα. Ο μόνος «αδειοδοτικός» οργανισμός που υπάρχει στο διαδίκτυο είναι Ένωση Διαδικτύου για την Απόδοση Αριθμών και Ονομάτων, που ασχολείται με την εξασφάλιση της μοναδικότητας των κωδικών που απαιτούνται για να αποδοθεί μια διεύθυνση στην οποία ο κάθε χρήστης θα μπορεί να δημοσιεύσει το υλικό του.

Κατά τη διάρκεια τους δεκαετίας του 1990, εκτιμάται ότι το Διαδίκτυο αυξανόταν κατά 100% ανά έτος, με μια σύντομη περίοδο εκρηκτικής ανάπτυξης το 1996 και το 1997. Η αύξηση αυτή συχνά αποδίδεται στην έλλειψη κεντρικής διοίκησης, η οποία επιτρέπει την οργανική ανάπτυξή του, καθώς και τον μη ιδιόκτητο ανοικτό χαρακτήρα των πρωτοκόλλων του Internet, ο οποίος ενθαρρύνει τη διαλειτουργικότητα των πωλητών και αποτρέπει τις εταιρείες να ασκήσουν υπερβολικό έλεγχο. Ο εκτιμώμενος πληθυσμός των χρηστών του Διαδικτύου την 30η Ιουνίου 2009 άγγιζε τα 1,67 δισεκατομμύρια. (Wikipedia)

ΙΙ. Ορολογία

Οι όροι «Διαδίκτυο» και «Παγκόσμιος Ιστός» (www) χρησιμοποιούνται συχνά στην καθημερινή ομιλία χωρίς μεγάλη διάκριση. Ωστόσο, το Internet και το World Wide Web δεν είναι ένα και το αυτό. Το Διαδίκτυο είναι ένα παγκόσμιο σύστημα για τη μεταφορά δεδομένων. Είναι η υποδομή υλικού και λογισμικού που κάνει εφικτή τη σύνδεση μεταξύ των υπολογιστών. Σε αντίθεση, «ο Παγκόσμιος Ιστός» είναι μια από τις υπηρεσίες που διαβιβάζονται μέσω του Διαδικτύου. Πρόκειται για μια συλλογή διασυνδεδεμένων εγγράφων και άλλων πόρων, που συνδέονται με υπερ-συνδέσεις και ηλεκτρονικές διευθύνσεις.

ΙΙΙ. Σύγχρονες χρήσεις

Το Διαδίκτυο επιτρέπει μεγαλύτερη ευελιξία στο χρόνο και τον χώρο εργασίας, ιδίως με την εξάπλωση των απεριόριστων συνδέσεων υψηλής ταχύτητας και των διαδικτυακών εφαρμογών.

Σήμερα μπορεί πλέον κάποιος να έχει πρόσβαση στο Διαδίκτυο με πολυάριθμα μέσα, ειδικά μέσω συσκευών κινητής τηλεφωνίας. Με τον τρόπο αυτό, οι υπηρεσίες του Διαδικτύου, όπως είναι το ηλεκτρονικό ταχυδρομείο και ο Παγκόσμιος Ιστός, μπορούν να είναι διαθέσιμες, εντός των ορίων που επιβάλλονται από τους μικρές οθόνες και κάποιους τους περιορισμούς που έχουν αυτές οι μικρές συσκευές,.

Το χαμηλό κόστος και η σχεδόν άμεση ανταλλαγή ιδεών, γνώσεων και δεξιοτήτων έχουν κάνει τη συλλογική εργασία δραματικά ευκολότερη, με τη βοήθεια του αποκαλούμενου «συνεργατικού λογισμικού». Ένα παράδειγμα είναι το κίνημα ελεύθερου λογισμικού, το οποίο είχε ως αποτέλεσμα την παραγωγή, μεταξύ άλλων προγραμμάτων, και του Linux, του Mozzilla Firefox, και του Openoffice.org

Η διαδικτυακή συζήτηση (chat), επιτρέπει σε συναδέλφους να μένουν σε επαφή με έναν πολύ βολικό τρόπο, όταν ασχολούνται με τους υπολογιστές τους κατά τη διάρκεια της ημέρας. Τα μηνύματα μπορούν να ανταλλάσσονται ακόμη πιο γρήγορα και εύκολα από ό, τι μέσω e-mail. Και η εξέλιξη αυτών των συστημάτων μπορεί να επιτρέψει την άμεση ανταλλαγή αρχείων, την κοινή χρήση προγραμμάτων ή την επαφή της ομάδας με βίντεο και ήχο.

Το Internet επιτρέπει στους χρήστες του να αποκτήσουν απομακρυσμένη πρόσβαση σε άλλους υπολογιστές και αποθηκεύει πληροφορίες εύκολα, όπου κι αν βρίσκονται, σε όλο τον κόσμο. Αυτό μπορεί να γίνει με ή χωρίς χρήση τεχνολογιών ασφάλειας και κρυπτογράφησης. Έτσι προωθούνται νέοι τρόποι εργασίας από το σπίτι, η συνεργασία και ανταλλαγή πληροφοριών σε πολλές βιομηχανίες. Ένας λογιστής μπορεί σήμερα από το σπίτι του να ελέγξει τα βιβλία μιας εταιρίας που εδρεύει σε άλλη χώρα, σε ένα διακομιστή που βρίσκεται σε τρίτη χώρα ο οποίος συντηρείται εξ αποστάσεως από ειδικούς που εδρεύουν σε μια τέταρτη. Ορισμένες από αυτές τις δυνατότητες υπήρχαν και πριν την εκτεταμένη χρήση του Διαδικτύου, όμως το κόστος των ιδιωτικών μισθωμένων γραμμών ήταν πρακτικά απαγορευτικό.

IV. Υπηρεσίες

Είδαμε ήδη, ότι οι όροι Διαδίκτυο και Παγκόσμιος Ιστός, χρησιμοποιούνται αδιακρίτως, εντούτοις δεν είναι συνώνυμοι. Ο Παγκόσμιος Ιστός, είναι ένα παγκόσμιο σύνολο εγγράφων, εικόνων και άλλων πόρων, λογικά αλληλένδετων με υπερ-συνδέσεις και ταξινομημένου στο οποίο έχουμε πρόσβαση με τον Ενιαίο Ταυτοποιητή Πόρων (ΕΤΠ, URI).

Οι ΕΤΠ επιτρέπουν στους παρόχους να ταυτοποιούν με σύμβολα, υπηρεσίες και χρήστες, να εντοπίζουν διευθύνσεις, διακομιστές και άλλες βάσεις δεδομένων όπου βρίσκονται αποθηκευμένα έγγραφα και δίνουν πρόσβαση σ’ αυτά χρησιμοποιώντας το πρωτόκολλο Hypertext Transfer Protcol (HTTP), το κύριο πρωτόκολλο - φορέα του διαδικτύου. Εντούτοις το HTTP είναι μόνο ένα από τις εκατοντάδες πρωτοκόλλων επικοινωνίας που χρησιμοποιούνται στο Internet.

Το λογισμικό περιήγησης στο διαδίκτυο, οι λεγόμενοι φυλλομετρητές, όπως ο Internet Explorer, Firefox, Opera, Apple Safari, και το Google Chrome, επιτρέπουν στους χρήστες να μετακινούνται από τη μία ιστοσελίδα στην άλλη, μέσω υπερσυνδέσμων ενσωματωμένων στα έγγραφα. Τα έγγραφα αυτά μπορεί επίσης να περιέχουν οποιοδήποτε συνδυασμό ηλεκτρονικών δεδομένων, όπως είναι τα γραφικά, οι ήχοι κείμενο, βίντεο, πολυμέσα αλλά και διαδραστικό περιεχόμενο όπως παιχνίδια, εφαρμογές γραφείου και επιστημονικές επιδείξεις. Μέσω λέξεων-κλειδιών και μηχανών αναζήτησης όπως το Yahοο! και το Gοοgle, οι χρήστες σε όλο τον κόσμο έχουν εύκολη, άμεση πρόσβαση σε ένα ευρύτατο και πολύμορφο εύρος πληροφοριών σε απευθείας σύνδεση. Σε σύγκριση με τις έντυπες εγκυκλοπαίδειες και τις παραδοσιακές βιβλιοθήκες, το Διαδίκτυο επέτρεψε την αποκέντρωση της πληροφορίας.

Το Δίκτυο δίνει, επίσης, τη δυνατότητα, σε άτομα και οργανώσεις να δημοσιεύουν ιδέες και πληροφορίες σε ένα δυνητικά μεγάλο ακροατήριο σε απευθείας σύνδεση και με σημαντικά μειωμένες δαπάνες και χρονική καθυστέρηση. Η δημοσίευση μιας ιστοσελίδας, ενός blog, ή η δημιουργία ενός δικτυακού τόπου συνεπάγεται μικρό αρχικό κόστος και πολλές δωρεάν υπηρεσίες. Εντούτοις η κατασκευή και διατήρηση μεγάλων, επαγγελματικών ιστοσελίδων με ελκυστικές, ποικίλες και ενημερωμένες πληροφορίες σήμερα εξακολουθεί να είναι δύσκολο και δαπανηρό εγχείρημα.

Ορισμένες εμπορικές οργανώσεις ενθαρρύνουν το προσωπικό τους να παρέχει συμβουλές στους τομείς εξειδίκευσής του, με την ελπίδα ότι οι επισκέπτες θα εντυπωσιαστούν από τις ειδικές γνώσεις και τις δωρεάν πληροφορίες, με αποτέλεσμα να επωφεληθεί η εταιρεία. Ένα παράδειγμα αυτής της πρακτικής είναι της Microsfot, οι προγραμματιστές της οποίας δημοσιεύουν τα προσωπικά ιστολόγια τους, προκειμένου να κεντρίσουν το ενδιαφέρον του κοινού στο έργο τους.

Η διαφήμιση σε δημοφιλείς ιστοσελίδες μπορεί να είναι επικερδής, και το ηλεκτρονικό εμπόριο ή η πώληση των προϊόντων και υπηρεσιών μέσω του διαδικτύου συνεχίζει να αυξάνεται.

V. Επικοινωνία

Τα E-mail είναι μια σημαντική υπηρεσία επικοινωνίας. Η έννοια της αποστολής ηλεκτρονικών μηνυμάτων κατά τρόπο ανάλογο με επιστολές αλληλογραφίας ή υπομνήματα προϋπήρχε της δημιουργίας του Διαδικτύου. Αυτά τα μηνύματα σήμερα μπορούν να ταξιδεύουν και να αποθηκεύονται χωρίς κρυπτογράφηση σε πολλά άλλα δίκτυα και μηχανήματα εκτός ελέγχου τόσο του αποστολέα όσο και του παραλήπτη. Έτσι είναι αρκετά πιθανό το περιεχόμενο να μπορεί να διαβαστεί και ακόμη να αλλοιωθεί από τρίτους, αν κάποιος θεωρεί ότι είναι αρκετά σημαντικό.

Η τηλεφωνία μέσω Διαδικτύου είναι μία ακόμη υπηρεσία επικοινωνίας που κατέστη δυνατή με τη δημιουργία του Διαδικτύου. Το VoIP σημαίνει Voice-over-Internet Protcol, (Φωνή μέσω διαδικτυακού πρωτοκόλλου) και είναι μια ιδέα που ξεκίνησε στις αρχές της δεκαετίας του 1990 με τη μορφή «ενδοεπικοινωνίας» μέσω υπολογιστών. Τα τελευταία χρόνια πολλά συστήματα VoIP έχουν γίνει τόσο εύκολα στη χρήση και τόσο βολικά όσο ένα κανονικό τηλέφωνο. Το όφελος είναι ότι, καθώς το Internet, μεταφέρει την φωνή, το VοIP μπορεί να είναι δωρεάν ή με πολύ λιγότερο κόστος σε σχέση με μια παραδοσιακή τηλεφωνική κλήση, ιδιαίτερα σε μεγάλες αποστάσεις και ειδικά για εκείνους που είναι συνεχώς συνδεδεμένοι όπως είναι οι κάτοχοι ADSL. Διατίθενται πλέον απλοί και ανέξοδοι προσαρμογείς δικτύου που εξαλείφουν την ανάγκη για έναν προσωπικό υπολογιστή.

VI. Μεταφορά δεδομένων

Η κοινή χρήση αρχείων είναι ένα παράδειγμα μεταφοράς μεγάλων ποσοτήτων δεδομένων μέσω του Internet. Ο φόρτος μαζικής λήψης ενός αρχείου μπορεί να περιοριστεί με τη χρήση «κατοπτρικών εξυπηρετητών» και με δίκτυα ενός – προς – ένα. Σε όλες αυτές τις περιπτώσεις, η πρόσβαση στο αρχείο μπορεί να ελεγχθεί με έλεγχο ταυτότητας χρήστη, η μεταφορά του μπορεί να κρυπτογραφηθεί ενώ μπορεί να απαιτηθεί και πληρωμή για την πρόσβαση. Αυτή μπορεί να καταβληθεί με απομακρυσμένη χρέωση, για παράδειγμα, μέσω πιστωτικής κάρτας, τα στοιχεία της οποίας –συνήθως πλήρως κωδικοποιημένα – διακινούνται επίσης μέσω του Internet. Αυτές οι απλές λειτουργίες του Διαδικτύου, σε παγκόσμια βάση, αλλάζουν την παραγωγή, την πώληση και τη διανομή οποιουδήποτε προϊόντος μπορεί να αντιπροσωπευτεί με ένα αρχείο υπολογιστή. Σ’ αυτά περιλαμβάνονται κάθε είδους έντυπες δημοσιεύσεις, προϊόντα λογισμικού, ειδήσεις, μουσική, φιλμ, βίντεο, φωτογραφίες, γραφικά και άλλα καλλιτεχνήματα. Αυτό με τη σειρά του προκάλεσε σεισμικές μετατοπίσεις σε κάθε μία από τις υφιστάμενες βιομηχανίες που προηγουμένως έλεγχαν την παραγωγή και τη διανομή των προϊόντων αυτών.

Ο όρος streaming media (μέσα συνεχούς ροής) αναφέρεται στην μέθοδο με την οποία πολλοί υφιστάμενοι ραδιοφωνικοί και τηλεοπτικοί σταθμοί προωθούν διαδικτυακές «τροφοδοσίες» των ζωντανών τους εκπομπών (για παράδειγμα, το BBC). Μπορούν επίσης να επιτρέπουν «χρονικές» λειτουργίες, όπως είναι η «Προθέαση», τα «κλασσικά κομμάτια», ή η «επανάληψη». Μαζί με αυτούς τους παρόχους εμφανίστηκε και μια σειρά καθαρά διαδικτυακών "ραδιοτηλεοπτικών οργανισμών" που δεν είχαν πάρει ποτέ άδεια για να εκπέμψουν στα ερτζιανά. Η έκταση των διαθέσιμων τύπων περιεχομένου είναι πολύ ευρεία, και κυμαίνεται από εξειδικευμένες τεχνικές «εκπομπές» μέχρι κατά παραγγελία δημοφιλείς υπηρεσίες πολυμέσων. Το podcasting είναι μία παραλλαγή στο θέμα αυτό, όπου γίνεται λήψη- συνήθως ακουστικού – υλικού για να αναπαραχθεί σε κάποιον υπολογιστή ή κάποια φορητή συσκευή αναπαραγωγής. Οι τεχνικές αυτές χρησιμοποιώντας απλό εξοπλισμό επιτρέπουν στον καθένα, με ελάχιστη λογοκρισία ή έλεγχο άδειας, να μεταδίδει οπτικοακουστικό υλικό σε όλο τον κόσμο.

Οι μικρές βιντεοκάμερες μπορούν επίσης να θεωρηθούν ως μια ακόμη χαμηλού κόστους επέκταση αυτού του φαινομένου. Ενώ ορισμένες κάμερες από αυτές μπορούν να δώσουν εικόνα υψηλής ευκρίνειας, συνήθως είναι αργές και ενημερώνονται αραιά. Παρ’ όλα αυτά, οι χρήστες του Διαδικτύου μπορούν να παρακολουθήσουν τα ζώα γύρω από μια αφρικανική λίμνη, τα πλοία στη διώρυγα του Παναμά, την κυκλοφορία στην τοπική πλατεία ή να παρακολουθήσουν από μακριά το εξοχικό τους σπίτι σε πραγματικό χρόνο. Το YοuTube ιδρύθηκε στις 15 Φεβρουαρίου 2005 και είναι σήμερα ο κυριότερος διαδικτυακός τόπος για δωρεάν βίντεο συνεχούς ροής, με ένα μεγάλο αριθμό χρηστών. Οι εγγεγραμμένοι χρήστες μπορούν να ανεβάσουν απεριόριστο ποσό βίντεο και να οικοδομήσουν το δικό τους προσωπικό προφίλ. Το Yοu Tube ισχυρίζεται ότι οι χρήστες του παρακολουθούν εκατοντάδες εκατομμύρια, και ανεβάζουν εκατοντάδες χιλιάδες βίντεο καθημερινά.

VII. Η γλώσσα του διαδικτύου

Η πιο διαδεδομένη γλώσσα στο Διαδίκτυο είναι η Αγγλική. Αυτό μπορεί να είναι αποτέλεσμα της προέλευσης του Διαδικτύου, καθώς και του ρόλου που παίζουν σήμερα τα Αγγλικά ως lingua franca. Μπορεί επίσης να σχετίζεται με την αδυναμία των πρώτων υπολογιστών, που προέρχονταν κυρίως από τις Ηνωμένες Πολιτείες, να χειρίζονται άλλους χαρακτήρες, εκτός από εκείνους του λατινικού αλφαβήτου. Μετά τα Αγγλικά (29% των επισκεπτών στο Web), η πιο διαδεδομένη γλώσσα είναι τα κινέζικα (22%), τα Ισπανικά (8%), τα Γιαπωνέζικα (6%), τα Γαλλικά (5%), τα Πορτογαλικά και τα Γερμανικά (4%), τα Αραβικά (3%) και τα Ρωσικά και τα Κορεάτικα (2% το καθένα). Κατά ήπειρο, το 42% των χρηστών του Internet στον κόσμο κατοικούν στην Ασία, 24% στην Ευρώπη, 15% στη Βόρεια Αμερική, 11% στη Λατινική Αμερική και την Καραϊβική μαζί, 4% στην Αφρική, 3% στη Μέση Ανατολή και το 1% στην Αυστραλία / Ωκεανία. Οι τεχνολογίες του Διαδικτύου έχουν αναπτυχθεί αρκετά τα τελευταία χρόνια, ιδιαίτερα όσον αφορά τη χρήση του Unicode, ώστε να υπάρχουν χρήσιμες διευκολύνσεις για την ανάπτυξη προγραμμάτων και την επικοινωνία στις πιο διαδεδομένες γλώσσες. Ωστόσο, ορισμένες δυσλειτουργίες, όπως το mjibake (η εσφαλμένη απεικόνιση των χαρακτήρων ξένων γλωσσών), εξακολουθούν να παραμένουν. (Korpela, 1999)

VIII. Κοινωνικός αντίκτυπος

Το Διαδίκτυο έδωσε τη δυνατότητα ανάπτυξης εντελώς νέων μορφών κοινωνικής αλληλεπίδρασης, δραστηριοτήτων, καθώς και οργάνωσης, χάρη στα βασικά χαρακτηριστικά του, όπως η χρηστικότητα και ευρεία πρόσβαση. Οι ιστοσελίδες κοινωνικής δικτύωσης όπως το Facebook και το MySpace έχουν δημιουργήσει μια νέα μορφή κοινωνικοποίησης και αλληλεπίδρασης. Οι χρήστες αυτών των χώρων είναι σε θέση να προσθέτουν ένα ευρύ φάσμα πληροφοριών στις προσωπικές σελίδες τους, να επιδιώκουν κοινούς στόχους, να επικοινωνούν με άλλους. Είναι επίσης δυνατό να εντοπιστεί ένας μεγάλος κύκλος ήδη υφιστάμενων γνωριμιών, ιδιαίτερα αν ένα site επιτρέπει στους χρήστες να παρουσιάζονται με τα ονόματά τους, και εάν επιτρέπεται η επικοινωνία μεταξύ των υφιστάμενων ομάδων ανθρώπων. Στην πρώτη δεκαετία του 21ου αιώνα, η πρώτη γενιά ανατράφηκε με μεγάλη διαθεσιμότητα της σύνδεσης στο Internet. Αυτό είχε ως αποτέλεσμα την έγερση διαφόρων ανησυχιών, σε τομείς όπως είναι η ιδιωτική ζωή και η ταυτότητα, αλλά και η διανομή υλικού που υπάγεται σε πνευματικά δικαιώματα. Αυτοί οι «Ψηφιακοί Ιθαγενείς» αντιμετωπίζουν διάφορες προκλήσεις που δεν υπήρχαν στις προηγούμενες γενιές.

Το Διαδίκτυο έχει καταστεί ένα νέο πολιτικό εργαλείο, με αποτέλεσμα ορισμένα κράτη οδηγούνται στη λογοκρισία του. Η προεδρική εκστρατεία του Howard Dean το 2004 στις Ηνωμένες Πολιτείες έγινε γνωστή λόγω της μεγάλης προσέλκυσης δωρεών μέσω Διαδικτύου. Πολλές πολιτικές ομάδες το χρησιμοποιούν για την επίτευξη μιας νέας μεθόδου οργάνωσης, προκειμένου να εκπληρώσουν την αποστολή τους έχοντας μετατραπεί στους λεγόμενους «ακτιβιστές του Διαδικτύου». Ορισμένες κυβερνήσεις, όπως αυτές του Ιράν, της Βόρειας Κορέας, της Μιανμάρ, της Λαϊκής Δημοκρατίας της Κίνας, και της Σαουδική Αραβίας, περιορίζουν την πρόσβαση στις χώρες τους σε πληροφορίες κυρίως πολιτικού και θρησκευτικού περιεχομένου. Αυτό επιτυγχάνεται με λογισμικό που φιλτράρει ιστοσελίδες και περιεχόμενο, ούτως ώστε να να μην είναι εύκολα προσβάσιμες ή να μην λαμβάνονται χωρίς εξειδικευμένες γνώσεις.

Στη Νορβηγία, τη Δανία, τη Φινλανδία και τη Σουηδία, μεγάλοι πάροχοι υπηρεσιών Διαδικτύου οικειοθελώς, και πιθανώς για να αποτρέψουν μια τέτοια συμφωνία να μετατραπεί σε νόμο, συμφώνησαν να περιορίσουν την πρόσβαση σε κάποιες ιστοσελίδες που αναφέρονται από τις αρχές. Ενώ αυτή η λίστα των απαγορευμένων διευθύνσεων υποτίθεται ότι περιέχει τις διευθύνσεις των γνωστών ιστοχώρων παιδικής πορνογραφίας, το περιεχόμενο της παραμένει μυστικό. Σήμερα υπάρχουν πολλά ελεύθερα και εμπορικά διαθέσιμα προγράμματα λογισμικού, που ονομάζεται «λογισμικό ελέγχου περιεχομένου», με τα οποία ο χρήστης μπορεί να επιλέξει να εμποδίσει προσβλητικές ιστοσελίδες σε μεμονωμένους υπολογιστές ή δίκτυα, με σκοπό να περιορίσει την πρόσβαση των παιδιών σε πορνογραφικό υλικό ή απεικόνιση βίας. Ένας κύριος τομέας των δραστηριοτήτων αναψυχής στο Διαδίκτυο είναι τα παιχνίδια που παίζονται από πολλούς παίκτες. Αυτή η μορφή της αναψυχής δημιουργεί κοινότητες, στις οποίες άνθρωποι κάθε ηλικίας και προέλευσης, απολαμβάνουν τον γρήγορα εξελισσόμενο κόσμο τους. Πολλοί άνθρωποι χρησιμοποιούν το Internet για να αποκτήσουν πρόσβαση και να κατεβάσουν μουσική, ταινίες και άλλα έργα για την απόλαυση και την ξεκούραση τους. Πολλοί άνθρωποι χρησιμοποιούν το World Wide Web για να έχουν πρόσβαση σε ειδήσεις, σε δελτία καιρού, για να σχεδιάσουν τις διακοπές τους και να μάθουν περισσότερα για τα ενδιαφέροντά τους.

 

 

Ευρετηριοποίηση δεδομένων

Με την ολοένα και περισσότερο αυξανόμενη διείσδυση των Τεχνολογιών της Πληροφορίας και Επικοινωνίας (ΤΠΕ) στην καθημερινή ζωή εμφανίζονται συσχετισμοί ανάμεσα σε γνωστικά πεδία τα οποία μέχρι τώρα φαινόταν εντελώς άσχετα μεταξύ τους. Καθώς το πλήθος της πληροφορίας που αφορά σε οποιονδήποτε τομέα αυξάνεται με ραγδαίους ρυθμούς, καθίσταται όλο και πιο δύσκολο να εντοπισθεί ποιο τμήμα της είναι πραγματικά αξιόλογο και δημιουργεί νέα γνώση προς όφελος των χρηστών. Στην κατεύθυνση αυτή έρχεται να βοηθήσει η Συνεργατική Διήθηση Δεδομένων η οποία προτείνει μεθόδους "φιλτραρίσματος" της κατάλληλης πληροφορίας και την διαμόρφωση μιας τελικής "πρότασης" αξιόλογων τμημάτων πληροφορίας τα οποία ενδιαφέρουν τον χρήστη που εκτελεί μια διαδικτυακή αναζήτηση.

Τι είναι το collaborating filtering

Με τον όρο collaborative filtering, ο οποίος στα Ελληνικά αποδίδεται ως "συνεργατική διήθηση δεδομένων" (ΣΔ), περιγράφεται η διαδικασία της απόρριψης ή αποδοχής κάποιων δεδομένων σε σχέση με κάποια άλλα. Η διαδικασία αυτή πραγματοποιείται μέσω υπολογιστή και με χρήση τεχνικών που απαιτούν την συνεργασία πολλών παραγόντων όπως είναι τα αποθηκευτικά μέσα, οι απόψεις των χρηστών, οι πηγές πληροφόρησης κλπ.

Στην πραγματικότητα, η ΣΔ σήμερα αναφέρεται κυρίως στα δεδομένα χρηστών του διαδικτύου, καθώς σ' αυτό υπάρχουν πλέον εξαιρετικά μεγάλες συγκεντρώσεις πηγών πληροφορίας αν και δεν είναι σπάνιο κάποιες από τις μεθόδους της να εφαρμόζονται και σε άλλες περιπτώσεις.

Για να γίνει περισσότερο κατανοητή η σημασία της ΣΔ, πρέπει να σημειωθεί ότι στην καθημερινή ζωή, οι άνθρωποι προκειμένου να κάνουν μια επιλογή, βασίζονται σε συστάσεις ή προτροπές άλλων ανθρώπων μέσω του προφορικού λόγου, συστατικών επιστολών, ειδησεογραφικών αναφορών από τα μέσα ενημέρωσης, γενικών ερευνών, τουριστικών οδηγών και ούτω καθεξής. Έτσι, έχουν αναπτυχθεί παρόμοια ηλεκτρονικά συστήματα συστάσεων, τα οποία προτείνουν την καταλληλότερη για το χρήστη πληροφορία. Τα ηλεκτρονικά συστήματα συστάσεων, ενισχύουν και αυξάνουν αυτή τη φυσική κοινωνική διαδικασία βοηθώντας τους ανθρώπους να διακρίνουν ανάμεσα στα διαθέσιμα βιβλία, άρθρα, ιστοσελίδες, ταινίες, μουσική, εστιατόρια ή λίστα ανεκδότων ώστε να επιλέξουν τις πιο ενδιαφέρουσες και αξιόλογες για τους ίδιους πληροφορίες.

Ουσιαστικά, λοιπόν, πρόκειται για την μέθοδο παραγωγής μιας αυτόματης πρόβλεψης (φιλτράρισμα, διήθηση) προς όφελος του χρήστη με συλλογή πληροφοριών για τις προτιμήσεις άλλων χρηστών (συνεργασία).

Να σημειωθεί ότι παρ' όλο που αυτές οι προβλέψεις απευθύνονται στον συγκεκριμένο χρήστη χρησιμοποιούν πληροφορίες προερχόμενες από πολλούς άλλους. Αυτό διαφέρει από την πιο απλή προσέγγιση της παροχής μιας μέσης βαθμολογίας για το αντικείμενο ενδιαφέροντος, όπως για παράδειγμα με βάση τον αριθμό των θετικών ψήφων που παρέχονται σε ένα ερωτηματολόγιο.

Ο όρος "collaborating filtering" επινοήθηκε από τους προγραμματιστές ενός από πρώτα συστήματα συστάσεων, του Tapestry και έκτοτε έχει υιοθετηθεί ευρέως, ανεξαρτήτως του ότι οι "συστήνοντες" δεν "συνεργάζονται" στην πραγματικότητα ούτε μεταξύ τους ούτε με τους αποδέκτες. Από την άλλη, ενώ τα αποτελέσματα μπορεί να υποδεικνύουν εξαιρετικά ενδιαφέρουσες επιλογές για το χρήστη, μπορεί όμως να περιέχουν και προτάσεις που θα έπρεπε τελικά να φιλτράρονται και να μην εμφανίζονται.

Τρόπος λειτουργίας

Τα συστήματα Συνεργατικής Διήθησης Δεδομένων έχουν πολλές μορφές, αλλά πολλά από αυτά χαρακτηρίζονται από τις εξής βασικές ενέργειες:

Πρώτα ελέγχουν ποιοι χρήστες μοιράζονται τα ίδια πρότυπα αξιολόγησης με το χρήστη για τον οποίο προορίζεται η πρόβλεψη. Στη συνέχεια χρησιμοποιούνται αυτές οι αξιολογήσεις για τη δημιουργία μιας πρόβλεψης που απευθύνεται στο συγκεκριμένο άτομο.

Αυτή η διαδικασία εμπίπτει στην κατηγορία της συνεργατικής διήθησης με βάση τους χρήστες. Μια συγκεκριμένη εφαρμογή της είναι ο αλγόριθμος της "πλησιέστερης γειτνίασης" ο οποίος αναλύεται εκτενέστερα στη συνέχεια.

Εκτός από αυτή τη μέθοδο υπάρχει και η Συνεργατική Διήθηση με βάση το αντικείμενο η οποία διαδόθηκε από την εταιρεία Amazon (οι χρήστες που αγόρασαν το χ βιβλίο αγόρασαν επίσης και το ψ) όπου τα διάφορα αντικείμενα βαθμολογούνται από τους χρήστες και στη συνέχεια με βάση τον μέσο όρο των αξιολογήσεων δημιουργούνται οι προβλέψεις. (Vucetic, 2000)

Ο τρόπος λειτουργίας είναι ο εξής: Πρώτα δημιουργείται ένας πίνακας που καθορίζει τις σχέσεις μεταξύ ζευγών αντικειμένων. Στη συνέχεια χρησιμοποιώντας αυτή τη "μήτρα" συνάγονται συμπεράσματα για τις προτιμήσεις του συγκεκριμένου χρήστη.

Η διαδικασία αυτή γίνεται είναι η απλούστερη μορφή συνεργατικής διήθησης δεδομένων που βασίζεται σε πραγματικές αξιολογήσεις από πραγματικούς χρήστες. Η απλότητά της καθιστά ιδιαίτερα εύκολη την αποτελεσματική εφαρμογή της, ενώ η ακρίβειά της είναι συχνά στο ίδιο επίπεδο με τους πιο περίπλοκους και ακριβούς υπολογιστικούς αλγορίθμους. Έτσι όταν υπάρχουν διαθέσιμες αξιολογήσεις ενός αντικειμένου, όπως για παράδειγμα όταν δίνεται στους ανθρώπους η ευκαιρία να βαθμολογήσουν ένα προϊόν (π.χ από 1 ως 5), η συνεργατική διήθηση στοχεύει στο να προβλέψει την αξιολόγηση ενός ατόμου, με βάση κάποιες παλιότερες αξιολογήσεις του ή μια (μεγάλη) βάση δεδομένων με αξιολογήσεις άλλων χρηστών. (Lemire & Maclachlan, 2007).

Εντούτοις είναι πολύ πιθανό να μην υπάρχουν πάντα δεδομένα αξιολογήσεων αλλά αντίθετα να υπάρχουν διάφορα δυαδικά στοιχεία. (π.χ αν ένα αντικείμενο αγοράστηκε ή όχι.). Στην περίπτωση αυτή οι αλγόριθμοι με βάση την βαθμολόγηση δεν ισχύουν. Τότε η "μήτρα" κατασκευάζεται ως εξής:

 

Πελάτης

Αντικ. 1

Αντικ 2

Αντικ 3

Γιάννης

Το αγόρασε

Δεν το αγόρασε

Το αγόρασε

Μάρκος

Δεν το αγόρασε

Το αγόρασε

Το αγόρασε

Λουκία

Δεν το αγόρασε

Το αγόρασε

Δεν το αγόρασε

 

Ως εκ τούτου, στον χρήστη που επιλέγει το αντικείμενο 1 θα προταθεί το αντικείμενο 3, (αφού ο Γιάννης που αγόρασε το 1 αγόρασε επίσης και το 3), στον χρήστη που επιλέγει το αντικείμενο 2 θα προταθεί επίσης το 3 (αφού ο Μάρκος αγόρασε επίσης τα ίδια βιβλία) και, τέλος, ένας χρήστης που επιλέγει το αντικείμενο 3, θα λάβει το αντικείμενο 1 (και, στη συνέχεια, το αντικείμενο 2) ως πρόταση, αφού από τους δύο που αγόρασαν το αντικείμενο 3 ο πρώτος αγόρασε το 1 και ο δεύτερος το 2. (Manouselis &, Costopoulou, 2008).

Μια άλλη μορφή συνεργατικής διήθησης μπορεί να βασίζεται σε σιωπηρές παρατηρήσεις της συνηθισμένης συμπεριφοράς των χρηστών (σε αντίθεση με την τεχνητή συμπεριφορά που επιβάλλει μια διαδικασία αξιολόγησης). Σε αυτά τα συστήματα καταγράφεται ο τρόπος δραστηριοποίησης ενός χρήστη σε συνδυασμό με τον τρόπο δραστηριοποίησης των υπόλοιπων (τι μουσική ακούνε, ποια αντικείμενα αγοράζουν) και χρησιμοποιούν τα δεδομένα αυτά για να προβλέψουν τη συμπεριφορά του χρήστη στο μέλλον. Αυτές οι προβλέψεις πρέπει στη συνέχεια να φιλτράρονται επιπρόσθετα και μέσα από κάποια επιχειρηματική λογική καθώς τα υπολογιστικά συστήματα από μόνα τους δεν είναι σε θέση να καθορίσουν πώς θα λειτουργήσει το σύστημα της επιχείρησης. Για παράδειγμα δεν έχει νόημα να προταθεί για αγορά ένας τουριστικός οδηγός της Αθήνας, σε έναν πελάτη ο οποίος έχει ήδη αγοράσει έναν οδηγό γι' αυτή την πόλη.

Στην εποχή της έκρηξης των πληροφοριών αυτές οι τεχνικές μπορεί να αποδειχθούν πολύ χρήσιμες, καθώς ο αριθμός των αντικειμένων σε μία μόνο κατηγορία (μουσική, ταινίες, βιβλία, ειδήσεις, ιστοσελίδες) έχει γίνει τόσο μεγάλος, ώστε ένα άτομο δεν δυνατό να τον προσπελάσει, προκειμένου να επιλέξει αυτά που τον ενδιαφέρουν. Αν η τεχνική στηριζόταν μόνο σε ένα σύστημα βαθμολόγησης το οποίο εντοπίζει το μέσο όρο για όλους τους χρήστες τότε θα αγνοούσε τις απαιτήσεις του συγκεκριμένου χρήστη, και θα ήταν ιδιαίτερα φτωχή σε περιπτώσεις όπου υπάρχει μεγάλη διακύμανση ενδιαφέροντος, όπως για παράδειγμα η πρόταση για συγκεκριμένο είδος μουσικής. Ωστόσο, υπάρχουν και άλλες μέθοδοι για την καταπολέμηση της έκρηξης πληροφοριών, όπως είναι η διαδικτυακή αναζήτηση, η ομαδοποίηση δεδομένων, κλπ.

 

Περιγραφή τρόπου λειτουργίας μηχανής αναζήτησης Google

 Μια από τις δημοφιλέστερες εφαρμογές που χρησιμοποιεί κατά κόρον τις μεθόδους αναζήτησης που προαναφέρθηκαν είναι η αποκαλούμενη μηχανή αναζήτησης του Google.

Το Google Search είναι μια μηχανή αναζήτησης ιστοσελίδων που ανήκει στην εταιρεία Google και αποτελεί την πιο διαδεδομένη μηχανή αναζήτησης στο διαδίκτυο. Λαμβάνει πολλές εκατοντάδες εκατομμύρια αιτήματα κάθε ημέρα από διάφορες υπηρεσίες. Ο κύριος σκοπός της αναζήτησης Google είναι ο εντοπισμός κειμένου σε ιστοσελίδες, εν αντιθέσει με άλλα δεδομένα, όπως για παράδειγμα οι μηχανές αναζήτησης εικόνων. Η Αναζήτηση Google αναπτύχθηκε αρχικά από τους Larry Page και Sergey Brin, το 1997.

Παρέχονται τουλάχιστον 22 ειδικά χαρακτηριστικά πέρα από την αρχική δυνατότητα αναζήτησης λέξεων. Μεταξύ αυτών περιλαμβάνονται τα συνώνυμα, η πρόγνωση του καιρού, οι ζώνες ώρας, τιμές μετοχών, χάρτες, σεισμικά δεδομένα, προβολές ταινιών, αεροδρόμια και αποτελέσματα αγώνων. Υπάρχουν ειδικές πρόνοιες για τους αριθμούς, μεταξύ των οποίων είναι ο καθορισμός εύρους τιμών (πχ. 70.. 73), οι θερμοκρασίες, η μετατροπή νομισματικών ή άλλων μονάδων μέτρησης (π.χ "10,5 εκατοστά σε ίντσες), υπολογισμοί (3 * 4 + sqrt (6)-π / 2 ), παρακολούθηση ταχυδρομικών δεμάτων, διπλωμάτων ευρεσιτεχνίας, κωδικοί περιοχών καθώς και μετάφραση των σελίδων που εμφανίζονται.

Η σειρά των αποτελεσμάτων αναζήτησης βασίζεται εν μέρει σε μια μέθοδο ταξινόμησης και επιλογής, που ονομάζεται "PageRank ". Πρόκειται για τον κατοχυρωμένο με δίπλωμα ευρεσιτεχνίας αλγόριθμο ο οποίος βοηθά στην κατάταξη ιστοσελίδων που ταιριάζουν με μια συγκεκριμένη συμβολοσειρά αναζήτησης και σ' αυτόν οφείλεται σε μεγάλο βαθμό η επιτυχημένη παρουσία της Google στον παγκόσμιο ιστό. Οι προηγούμενες μέθοδοι βασίζονταν σε λέξεις – κλειδιά και την συχνότητα με την οποία αυτές εμφανίζονταν στις διάφορες ιστοσελίδες ή στον τρόπο με τον οποίο οι λέξεις τονίζονταν στην σελίδα. Ο αλγόριθμος PageRank αντίθετα, αναλύει τις υπερσυνδέσεις που έχουν δημιουργηθεί από ανθρώπους και οδηγούν σε άλλες ιστοσελίδες, υποθέτοντας ότι σελίδες με σημαντικό περιεχόμενο θα οδηγούν επίσης σε σελίδες με σημαντικό περιεχόμενο. Ο αλγόριθμος υπολογίζει ένα αναδρομικό αποτέλεσμα για τις σελίδες, με βάση το σταθμισμένο άθροισμα των "βαθμολογιών" των εισερχόμενων υπερσυνδέσεων. Εκτός από το PageRank, η Google με τα χρόνια έχει προσθέσει και πολλά ακόμη μυστικά κριτήρια για τον καθορισμό της κατάταξης των σελίδων σε καταλόγους αποτελεσμάτων, τα οποία φέρεται να ξεπερνούν τους 200 διαφορετικούς δείκτες. Οι λεπτομέρειες είναι απόρρητες εξ αιτίας ανεπιθύμητων χρήσεων και προκειμένου να διατηρεί ένα πλεονέκτημα έναντι των ανταγωνιστών της.

Το ακριβές ποσοστό του συνόλου των ιστοσελίδων που ευρετηριάζει η Google δεν είναι γνωστό, καθώς είναι πολύ δύσκολο να υπολογιστεί στην πραγματικότητα. Η Google δεν ευρετηριάζει και αποθηκεύει προσωρινά μόνο ιστοσελίδες, αλλά λαμβάνει επίσης «στιγμιότυπα» από άλλους τύπους αρχείων, όπως PDF, έγγραφα Word, υπολογιστικά φύλλα του Excel, Flash SWF, αρχεία απλού κειμένου, και ούτω καθεξής. Εκτός από την περίπτωση του απλού κειμένου και των αρχείων SWF η αποθηκευμένη έκδοση αποτελεί μετατροπή σε μορφή HTML, επιτρέποντας ακόμα και σ' εκείνους που δεν διαθέτουν τον κατάλληλο φυλλομετρητή, να διαβάζουν το αρχείο.

Οι χρήστες μπορούν να προσαρμόσουν τη μηχανή αναζήτησης, ορίζοντας μια προεπιλεγμένη γλώσσα, χρησιμοποιώντας την τεχνολογία φιλτραρίσματος "SafeSearch» και καθορίζοντας τον αριθμό των αποτελεσμάτων εμφανίζονται σε κάθε σελίδα. Η Google έχει επικριθεί για τη διάθεση μακροπρόθεσμων cookies, δηλαδή μικρών αρχείων που αποθηκεύονται στον υπολογιστή και καταγράφουν τις προτιμήσεις του χρήστη και στα οποία η εταιρεία έχει πρόσβαση. Η τακτική αυτή της δίνει τη δυνατότητα να παρακολουθεί τη διαδρομή στο διαδίκτυο, τους όρους αναζήτησης κτλ κι έτσι να δημιουργεί ένα προφίλ για τον χρήστη, καθώς τα δεδομένα διατηρούνται για περισσότερο από ένα χρόνο.

Για οποιαδήποτε αναζήτηση εμφανίζονται μέχρι τα πρώτα 1000 αποτελέσματα με ένα μέγιστο 100 ανά σελίδα. Η δυνατότητα καθορισμού του αριθμού των εμφανιζόμενων αποτελεσμάτων ανά σελίδα είναι διαθέσιμη μόνο εάν δεν έχει ενεργοποιηθεί η επιλογή "Άμεση αναζήτηση". Στην περίπτωση αυτή εμφανίζονται μόνο τα πρώτα 10 αποτελέσματα.

Παρά το ότι το ευρετήριο της Google είναι τεράστιο, υπάρχει επίσης ένας σημαντικός όγκος πληροφοριών που διατίθενται σε απευθείας σύνδεση με βάσεις δεδομένων και οι οποίες είναι προσβάσιμες μόνο μέσω ειδικής ηλεκτρονικής μεθόδου, αλλά όχι με υπερσυνδέσεις. Αυτό το λεγόμενο και αόρατο ή βαθύ Διαδίκτυο, καλύπτεται ελάχιστα από το Google και τις άλλες μηχανές αναζήτησης. Το βαθύ Web περιέχει καταλόγους βιβλιοθηκών, επίσημα νομοθετικά έγγραφα, τηλεφωνικούς καταλόγους, καθώς και άλλο περιεχόμενο το οποίο έχει προετοιμαστεί να δέχεται πρόσβαση μέσω ειδικού τρόπου θέσης ερώτησης. (query)

Δεδομένου ότι η Google είναι η πιο δημοφιλής μηχανή αναζήτησης, πολλοί διαχειριστές ιστοχώρων, επιθυμούν να βελτιώσουν την κατάταξή τους στη σελίδα αποτελεσμάτων. Κατά συνέπεια έχει ανθίσει μια "βιομηχανία" συμβούλων, οι οποίοι βοηθούν την αύξηση της σειράς εμφάνισης στο Google και σε άλλες μηχανές αναζήτησης. Αυτό το πεδίο, που ονομάζεται βελτιστοποίηση μηχανών αναζήτησης, προσπαθεί να διακρίνει τα πρότυπα στους καταλόγους των μηχανών αναζήτησης, και στη συνέχεια να αναπτυχθεί μια μεθοδολογία για τη βελτίωση της κατάταξης για να προσελκύσει περισσότερους ερευνητές να είναι πελάτης των τόπων τους.

Η βελτιστοποίηση μηχανών αναζήτησης περιλαμβάνει τόσο παράγοντες "εντός της σελίδας" (όπως δήλωση του εκδότη, στοιχεία τίτλου, στοιχεία κλάσεως Η1, χαρακτηριστικά alt για τις εικόνες) όσο και παράγοντες βελτιστοποίησης όπως "εκτός σελίδας", (όπως αγκυρωμένα κείμενα και το PageRank της). Η γενική ιδέα είναι ο αλγόριθμος της Google να επηρεάζεται από την ενσωμάτωση των λέξεων - κλειδιών, ά που στοχεύουν σε διάφορα σημεία "στη σελίδα", ιδίως στο στοιχείο τίτλου η περίληψή της (σημείωση: όσο ψηλότερα στη σελίδα τόσο καλύτερη η προβολή της λέξης και ως εκ τούτου της κατάταξης). Πάρα πολλές εμφανίσεις των λέξεων-κλειδιών, ωστόσο, να δημιουργήσει αίσθηση υποψίας στον έλεγχο του αλγόριθμου ότι πρόκειται για σπαμ.

Η Google έχει δώσει κατευθυντήριες γραμμές στους ιδιοκτήτες ιστοχώρων που θα ήθελαν να αυξήσουν την κατάταξή τους, χρησιμοποιώντας νόμιμους συμβούλους βελτιστοποίησης της θέσης κατάταξης.

Λειτουργικότητα

Η Αναζήτηση Google αποτελείται από μια σειρά τοπικών ιστοσελίδων. Η μεγαλύτερη από αυτές, το google.com, δέχεται τους περισσότερους επισκέπτες στον κόσμο. Ορισμένα από τα χαρακτηριστικά της είναι σύνδεσμοι για περισσότερες αναζητήσεις, λήμματα λεξικών, ο αριθμός των αποτελεσμάτων που εντοπίσθηκαν, και συνδέσεις με διαφορετικούς τρόπους υποβολής της ερώτησης. (π.χ. για λέξεις που η Google πιστεύει ότι είναι ανορθόγραφες, παρέχεται μια σύνδεση με τα αποτελέσματα αναζήτησης χρησιμοποιώντας την ορθογραφία της προτεινόμενης), και πολλά άλλα.

Η "προχωρημένη αναζήτηση Google" παρέχει διάφορα επιπλέον πεδία που μπορούν να χρησιμοποιηθούν για να πετύχουν αναζητήσεις με βάση κριτήρια, όπως για παράδειγμα η ημερομηνία της πρώτης δημοσίευσης ή ο τύπος του αρχείου.

Εκτός των κύριων χαρακτηριστικών της βασικής μηχανής αναζήτησης, υπάρχουν και πάνω από 22 "ειδικά χαρακτηριστικά" τα οποία ενεργοποιούνται με την εισαγωγή μιας ειδικής λέξης ενεργοποίησης κατά την αναζήτηση:

Καιρός. Προτάσσοντας αυτή τη λέξη πριν το όνομα μιας πόλης μας δίνονται οι καιρικές συνθήκες, η θερμοκρασία, ο άνεμος, η υγρασία και η πρόβλεψη. Σε μερικές περιπτώσεις χρειάζεται να δοθεί και το όνομα της χώρας, αν η πόλη είναι μικρή π.χ "καιρός Βρέμη, Γερμανία".

Ώρα. Η τρέχουσα ώρα σε πολλές πόλεις (παγκοσμίως), μπορεί να εμφανιστεί πληκτρολογώντας "ώρα" και το όνομα της πόλης.

Αποτελέσματα αγώνων - Οι βαθμολογίες και τα προγράμματα των αθλητικών ομάδων εμφανίζονται πληκτρολογώντας το το όνομα της ομάδας ή το όνομα του πρωταθλήματος στο πλαίσιο αναζήτησης.

Μετατροπέας μονάδων - Οι διάφορες μετρήσεις μπορούν να μετατραπούν σε διαφορετικού τύπου. Εισάγοντας για παράδειγμα τη φράση "10,5 εκατοστά σε ίντσες" ή "90 χιλιόμετρα σε μίλια" παίρνουμε την ισοδύναμη μετατροπή

Μετατροπέας νομίσματος – Επιτυγχάνεται εισάγοντας την τιμή και τα νομίσματα που μας ενδιαφέρουν, χρησιμοποιώντας την κωδικοποίηση ISO 4217. Πχ. : "6789 EUR σε USD"

Aριθμομηχανή – O υπολογισμός των αποτελεσμάτων γίνεται εισάγοντας τον τύπο σε κανονική μορφή. Για παράδειγμα: "6 * 77 + π + sqrt (ε ^ 3) / 888 συν 0,45. Ο χρήστης έχει τη δυνατότητα να ψάξει για τον ίδιο τον τύπο, μετά τον υπολογισμό. Ο υπολογιστής χρησιμοποιεί επίσης τη μονάδα και τις λειτουργίες μετατροπής συναλλάγματος, προκειμένου να κάνει υπολογισμούς με μέτρα. Για παράδειγμα, η έκφραση : "(3 ευρώ / λίτρο) / (40 μίλια ανά γαλόνι) σε USD ανά μίλι" θα υπολογίσει το κόστος σε δολάρια ανά μίλι για ένα αυτοκίνητο που καίει 40 mpg με καύσιμο που κοστίζει €3 ανά λίτρο.

Το σύμβολο "^" θέτει έναν αριθμό ως εκθέτη δύναμης ενώ επιτρέπονται και τα ποσοστά («το 40% των 300»). Υπάρχει επίσης κάποια συζήτηση ως προς το υπολογισμό της έκφρασης 0^0. Πολλοί μαθηματικοί θεωρούν ότι το 0^0 είναι απροσδιόριστο, αλλά η αριθμομηχανή της Google δείχνει το αποτέλεσμα ως 1.

Αναζήτηση σε λεξικό - Ένας ορισμός για μια λέξη ή φράση μπορεί να βρεθεί, με την είσοδο της λέξης "ορισμός", ακολουθούμενης από άνω και κάτω τελεία και τη λέξη που ψάχνουμε πχ, "ορισμός: φιλοσοφία".

Χάρτες – Μπορούν να εμφανιστούν και ορισμένοι χάρτες, με την πληκτρολόγηση του ονόματος ή του ταχυδρομικού κώδικα των πχ: "χάρτης Νέα Υόρκη".

Δημόσια δεδομένα - Τάσεις του πληθυσμού (ή ποσοστά ανεργίας), μπορούν να βρεθούν για τις ΗΠΑ και διάφορες χώρες με την πληκτρολόγηση της λέξης "πληθυσμός" ή "ποσοστό της ανεργίας", ακολουθούμενης από ένα κράτος ή το όνομα της περιοχής.

Δεδομένα ταξιδιού / αεροδρόμια – Οι αφίξεις και αναχωρήσεις πτήσεων των ΗΠΑ μπορούν να εμφανιστούν, πληκτρολογώντας το όνομα της αεροπορικής εταιρείας και τον αριθμό της πτήσης στο πλαίσιο αναζήτησης. Επίσης μπορούν να προβληθούν οι καθυστερήσεις σε ένα συγκεκριμένο αερολιμένα πληκτρολογώντας τον τριγράμματο κωδικό του αεροδρομίου ή την πόλη συν τη λέξη "αεροδρόμιο".

Αυτές είναι λίγες μόνο από τις δεκάδες επιλογές που έχει στη διάθεσή του ο χρήστης. Υπάρχουν πολλές περισσότερες, διαθέσιμες κυρίως στην αγγλική γλώσσα που αφορούν τις τιμές των μετοχών, τις προβολές ταινιών, την παρακολούθηση ταχυδρομικών δεμάτων, αριθμών ευρεσιτεχνιών κλπ.

Επιλογές αναζήτησης

Οι ιστοσελίδες που παρέχονται από το κέντρο βοήθειας της Google περιγράφουν περισσότερες από 15 διάφορες επιλογές αναζήτησης. Οι τελεστές που χρησιμοποιούνται είναι οι εξής:

"or" - Αναζήτηση και για τους δύο όρους. Για παράδειγμα αν πληκτρολογηθεί "βουνό" or "θάλασσα", τα αποτελέσματα που θα προκύψουν θα περιέχουν είτε τον ένα είτε τον άλλο όρο.

"-" - Αναζήτηση με αποκλεισμό μιας λέξης. Για παράδειγμα η πληκτρολόγηση "βουνό –όλυμπος," θα επιστρέψει αποτελέσματα ιστοσελίδων που θα περιέχουν τη λέξη βουνό, αλλά θα αποκλείσει εκείνες που θα περιέχουν τη λέξη "όλυμπος".

"+" – Αναζήτηση με απαραίτητη συμπερίληψη λέξης. Η πληκτρολόγηση "+Το Όνομα +του ρόδου" να απαιτήσει να εμφανίζονται οι λέξεις "το" & "του" στις ιστοσελίδες, παρ' όλο που σε γενικές γραμμές τα άρθρα αγνοούνται.

"*" – Χαρακτήρας μπαλαντέρ που αντιστοιχεί σε όλες τις λέξεις που βρίσκονται μεταξύ κάποιων άλλων συγκεκριμένων λέξεων.

Μερικές από τις επιλογές του ερωτήματος είναι οι εξής:

define: - Το πρόθεμα "define:" θα παράσχει έναν ορισμό (στα Αγγλικά), για τις λέξεις που αναφέρονται μετά από αυτό.

stocks: - Μετά το "stocks:" οι όροι αντιμετωπίζονται ως σύμβολα "ταινίας μετοχών" για την αναζήτηση.

site: - Περιορισμός των αποτελεσμάτων στις ιστοσελίδες του δεδομένου τομέα. Πχ. η πληκτρολόγηση (site:www.paradigma.com). Η επιλογή "site:com" θα αναζητήσει όλες τις διευθύνσεις που έχουν παράθεμα το com (Προσοχή, δεν υπάρχει κενό διάστημα μετά το site:)

allintitle: - Γίνεται αναζήτηση μόνο στους τίτλους των σελίδων.

intitle: - Πρόθεμα για την αναζήτηση στον τίτλο μιας σελίδας. Για παράδειγμα το "intitle:google αναζήτηση" θα εμφανίσει τις σελίδες με τη λέξη "Google" στον τίτλο, και τη λέξη "αναζήτηση" στην υπόλοιπη σελίδα (δεν υπάρχει κενό διάστημα μετά το "intitle:").

allinurl: - Αναζητούνται οι όροι μόνο στις γραμμές διεύθυνσης URL και όχι στο κείμενο κάθε ιστοσελίδας.

inurl: - Πρόθεμα για κάθε λέξη που μπορεί να εντοπιστεί στη διεύθυνση URL. Οι υπόλοιπες λέξεις εντοπίζονται σε όλη τη σελίδα.

cache: - Τονίζει αναζητούμενες λέξεις στο αποθηκευμένο έγγραφο. Π.χ το "cache: xxx www.google.com" δείχνει αποθηκευμένο περιεχόμενο με τις λέξεις "xxx" επισημασμένες.

link: - Το πρόθεμα "link:" θα εμφανίσει μια σειρά ιστοσελίδων που έχουν δεσμούς με την καθορισμένη ιστοσελίδα. Πχ το "link:www.google.com" θα εμφανίσει ιστοσελίδες που συνδέονται με την αρχική σελίδα του Google.

related: - Το πρόθεμα "related:" θα εμφανίσει μια σειρά ιστοσελίδων που είναι "παρόμοιες" με μια προσδιορισμένη ιστοσελίδα.

info: - Το πρόθεμα "info:" θα εμφανίσει κάποιες βασικές πληροφορίες σχετικά με την καθορισμένη ιστοσελίδα. Συνήθως, οι πληροφορίες είναι το πρώτο κείμενο (160 bytes, περίπου 23 λέξεις) που περιέχεται στη σελίδα, εμφανίζεται σε στυλ κειμένου εισόδου αποτελεσμάτων (μόνο για την πρώτη σελίδα που θα ταιριάξει με την αναζήτηση).

filetype: - τα αποτελέσματα θα εμφανίσουν μόνο αρχεία του επιθυμητού τύπου (πχ το filetype: pdf θα επιστρέψει μόνο αρχεία pdf)

Να σημειωθεί ότι η Google κάνει την αναζήτησή της στον κώδικα HTML της κάθε σελίδας και όχι σε αυτό που εμφανίζεται στην οθόνη.

Εκτός από την αναζήτηση ιστοσελίδων, η Google παρέχει επίσης υπηρεσίες για αναζήτηση εικόνων, ειδησεογραφικών ιστοσελίδων, βίντεο, χαρτών και αντικειμένων για πώληση online. Το 2006, είχε ευρετηριάσει πάνω από 25 δισεκατομμύρια ιστοσελίδες, πραγματοποιούσε 400 εκατομμύρια αναζητήσεις την ημέρα, διέθετε 1,3 δισεκατομμύρια εικόνες, και πάνω από ένα δισεκατομμύριο μηνύματα Usenet. Παράλληλα, αποθηκεύει προσωρινά μεγάλο μέρος του περιεχομένου που καταγράφει. Επίσης εφαρμόζει και άλλα εργαλεία και υπηρεσίες, συμπεριλαμβανομένων των Ειδήσεων Google, το Google Suggest, την Αναζήτηση προϊόντων Google, τους χάρτες Google, το Google Earth, το Google Docs, το Picasa, το Panoramio, το YouTube, τον αυτόματο μεταφραστή Google, το Google Blog Search και το Google Desktop Search.

 

Στην εργασία αυτή είδαμε ότι εξαιτίας της ραγδαίας αύξησης του όγκου της πληροφορίας στο διαδίκτυο κατέστη απαραίτητο να επινοηθούν νέοι τρόποι ταξινόμησης και ευρετηρίασης των ιστοσελίδων και των εγγράφων που υπάρχουν στον παγκόσμιο ιστό. Η βασικότερη μέθοδος αξιολόγησης της αναζητούμενης πληροφορίας είναι η λεγόμενη "συνεργατική διήθηση", την οποία ουσιαστικά υλοποιεί ο αλγόριθμος "PageRank". Πρόκειται για ένα σύστημα το οποίο βασίζεται στο περιεχόμενο των διάφορων υπερσυνδέσμων που υπάρχουν στις ιστοσελίδες, οι οποίοι οδηγούν με τη σειρά τους σε άλλες ιστοσελίδες. Αξιολογώντας κυρίως την επισκεψιμότητα και τις λέξεις που υπάρχουν σε αυτούς τους υπερσυνδέσμους δημιουργείται ένα "πλέγμα" το οποίο δείχνει την βαρύτητα που έχει η κάθε σελίδα ανάλογα και με το αίτημα του χρήστη.

Η μηχανή αναζήτησης Google είναι αυτή που αξιοποιεί κατά κόρον τον αλγόριθμο "pagerank", και παρέχει ένα πλήθος τελεστών που διευκολύνουν την εισαγωγή του επιθυμητού αιτήματος, έτσι ώστε να παράγει τα πιο συναφή αποτελέσματα.

 

Anderson T., 2006, Distance learning: Social software’s killer ap, ανακτήθηκε την 5-1-11 από https://citeseerx.ist.psu.edu/viewdoc/download?doi=10.1.1.95. 630&rep=rep1&type= pdf

Bielaczyc K., & Collins A., 1999, Learning Communities in Classrooms: A reconceptualization of educational practice. Στο C.M. Reigeluth, Instructional-design theories and models; A new paradigm of instructional theory. σελ 269-272), Mahwah NJQ Lawrence Erlbaum.

Cohen, W., W., 2008, Collaborative Filtering: A Tutorial, ανακτήθηκε από https://www.google.gr/url?sa=t&source=web&cd=1&ved=0CBUQFjAA&url=http%3A%2F%2Fwww.cs.cmu.edu%2F~wcohen%2Fcollab-filtering-tutorial.ppt&ei=BdDbTP6lFYOr4AaJnL3GCA&usg=AFQjCNEDjV3iHfC2qigOKPNWZkv6R6Qs4A

Google Site, Google search basics: More search help ανακτήθηκε την 5-1-11 από https://www.google.com/support/websearch/bin/answer.py?hl=en&answer=136861&rd=1

Google Site, Τεχνολογική Επισκόπηση της Εταιρικής Λειτουργίας, ανακτήθηκε την 5-1-11 από το https://www.google.com/corporate/tech.html

Harvey, F. A. & Charnitski, C.W., (2003). Vygotsky revisited: The relevance of Vygotsky’s theories for 21st century technology-rich education. Fourteenth International Conference of the Society for Information Technology and Teacher Education (SITE), Albuquerque, NM March 25-29, 2003.

Juha Takkinen, 1994, Delegation of Tasks and Dissemination of Information in Organizations: Restructuring Internet E-Mail for Doing Things ανακτήθηκε 7-1-11 από https://www.google.gr/url?sa=t&source=web&cd=1&ved=0CBc QFjAA&url=http%3A%2F%2Faisel.aisnet.org%2Fcgi%2Fviewcontent.cgi%3Farticle%3D1593%26context%3Damcis1998&ei=LunbTP7INpL24ga3sLiiCQ&usg=AFQjCNGQDq-iox0NRG3el1snfijBOQhH6A

Keenoy, Κ., 2004 Collaborative trails and group profiling within an e-Learning environment. ανακτήθηκε την 5-1-11 από https://www.noe-kaleidoscope.org/intra/docs/full_deliverables/D22-04-02-F.pdf

Koren, Y., 2009, Factor in the Neighbors: Scalable and Accurate Collaborative Filtering https://research.yahoo.com/files/paper.pdf

Lemire D., Maclachlan A., 2007, Slope One Predictors for Online Rating-Based Collaborative Filtering ανακτήθηκε την 2-11-10 από https://arxiv.org/pdf/cs/0702144v2

Manouselis, N., Costopoulou C., 2008, Overview of design opions for neighborhood based collaborative filtering systems στο A. Dahanayake & N. Chen (Eds) Personalised Information Retrieval and Access: Concept, Methods and Practices, Hershey, PA: Idea Group Publishing ανακτήθηκε την 28-10-10 από https://www.google.gr/url?sa=t&source=web&cd=1&ved=0C BcQFjAA&url= http%3A%2F%2F163.17.12.2%2Fdrupal%2Fsites%2Fdefault%2Ffiles%2FAnalysis%2520and%2520Classification%2520of%2520Multi-Criteria%2520Recommender%2520 Systems.pdf&ei=n-vbTPGHFMWI4gaf45WKCQ&usg=AFQ jCNE1SPCefIcS_YPTHPa0mnHoj rIZ8w

Richardson, Β.2005, How does Google work - PageRank explained ανακτήθηκε την 5-1-11 από https://www.switchit.com/news/improve-pagerank.asp

Taghi, S., X. 2009, Advances in Artificial Intelligence, Hindawi Publishing Corporation, Volume 2009, ανακτήθηκε την 3-11-10 από https://portal.acm.org/ft_gateway.cfm? id=1644718&type=pdf

Takkinen, J., 1994, A Model with Three Different States of Mind for a User to Manage Information in Electronic Mail ανακτήθηκε την 5-11-10 από https://etjanst.hb.se/bhs/ith//v98/takkinen.doc

Vucetic Sl, Obradovic Z., (2004), Collaborative Filtering Using a Regression-Based Approach, ανακτήθηκε την 2-11-10 από https://citeseerx.ist.psu.edu/viewdoc/ download?doi=10.1.1.63.9224&rep=rep1&type=pdf

Wagner, Ch., 2004, Wiki: a technology for conversational knowledge management and group collaboration, Communications of the Association for Information Systems (Volume 13, 2004) 265-289

Παρασκευάς Μ., 2008, Συμμετοχικές υπηρεσίες και διαδικτυακές εκπαιδευτικές κοινότητες στο Πανελλήνιο Σχολικό Δίκτυο, Ερευνητικό Ακαδημαϊκό Ινστιτούτο Τεχνολογίας Υπολογιστών Athens Digital Week, Αθήνα, 16 Οκτωβρίου 2008

Σάκκης Γ. 2007 Αυτόματη Κατάταξη Μηνυμάτων Ηλεκτρονικού Ταχυδρομείου σε Κατηγορίες, Πτυχιακή Εργασία στο Πανεπιστήμιο Αθηνών, Τμήμα Πληροφορικής

 

 

ΣΥΝΟΠΤΙΚΟΣ ΧΑΡΤΗΣ ΤΟΥ ΣΑΪΤ

Αυτό το σάιτ χρησιμοποιεί Κώδικα Καταγραφής (ΚωΚ ή cookies) κυρίως για την προβολή διαφημίσεων από την Google - Μάθετε περισσότερα...