PROJET AUTOBLOG


Shaarli - Les discussions de Shaarli

Archivé

Site original : Shaarli - Les discussions de Shaarli

⇐ retour index

Réponse à espritboudha

jeudi 25 juin 2015 à 11:08
Shaarlo 25/06/2015

Salut :-)

"en voulant partager une lien, j'ai enlevé maladroitement l'url dans le formulaire avant de partager et j'ai parlé le lien et ensuite j'ai modifié le shaarlink mais la modification est seulement effectif dans mon shaarli et pas dans shaarli.fr ( je sais pas si c'est clair https://img.bi/#/BkYlqwH!iqG4egAyar1A1RxFtgYSf4Ew6pvYjwzvh4qwKmKw ) :/"
-> Bien vu, je viens de corriger le bug en question qui a lieu lors de la mise à jour. (j'ai rechargé ton flux en passant du coup)

"autre petite suggestion si c'est faisable, de pouvoir regrouper les liens qui ont la même url au sens d'une même conversation, une capture ici https://img.bi/#/u9JZGMO!6stqOAaERO0QzaCkMw0wMynwJUfDHA-5x_xAt5Ik ."
->oui là c'est déjà moins évident, je vois parfaitement ce que tu veux dire et j'avais pensé à faire un comportement comme ça, le truc étant que ça devient probabiliste, en gros si ça marche comme ça, ça va aussi créer des discussions qui ne sont pas liés entre elles et du coup il faudrait gérer cas par cas.
Je m'explique :
admettons que quelqu'un partage un lien youtube :
https://www.youtube.com/watch?v=XXXXXXXXXX
si quelqu'un d'autre regarde et repartage ce lien si :
https://youtu.be/XXXXXXXXXX
ça pointe vers la même vidéo donc il faudrait lier les deux liens, sauf que l'url est complétement différente
et je ne parle pas d'autres urls qui pourrait aussi pointer au même endroit :
http://youtu.be/XXXXXXXXXX
https://www.youtube.com/watch?v=XXXXXXXXXX&feature=youtu.be
https://youtu.be/XXXXXXXXXX?t=19s

Donc rien que pour youtube on voit vite que ça pourrait être la merde...
La seule solution de s'en sortir serait de comparer le contenu de chaque page, en gros est ce qu'une page url1 == page url2, mais même si là y'aura quasiment pas de faux positifs, y'aura peu de bons positifs aussi.

En bref, c'est pas trivial :-(
On peut imaginer un truc comme ça complètement différent :
-comparaison des md5 des captures des sites, puis regroupement des liens qui ont la même empreinte, ça devient un script complétement différent mais ça pourrait le faire.
Oui mais non en fait ! car certains sites redirigent le script de screenshot sur une page de type captcha qui a du coup la même empreinte pour tous les liens vers le site -> toutes les vidéos youtube seraient dans la même conversation du coup.

Voilà voilà...j'en sais rien ! Je pense partir sur quelque chose de plus simple style "si deux liens dans les 48h dernières heures ont "l'air" de se ressembler, alors on les fusionne.
Y'aura surement des faux positifs mais extrêmement peu.

En tout cas, merci pour ton message car tu as permis de résoudre un bug =D
(Permalink)


Muges > Shaarlo 25/06/2015

Pour détecter les urls qui pointent vers la même page, les moteurs de recherche utilisent les liens canoniques (https://en.wikipedia.org/wiki/Canonical_link_element). Ça devrait résoudre ton problème :)
(Permalink)



:-D j'ai surtout signaler :-D et merci à toi de l'avoir réellement résolu :-)
oui, en effet ça peut devenir un peu chiant, au delà des solutions techniques existantes permettant de savoir si deux liens différentes pointent vers la même ressource, ça pourrait faire aussi remonter des vieux liens ( c'est peut-être pas un mal en soit) mais parfois il y a eu des débats assez trollesques; on va dire que ça demande réflexion encore et puis c'est pas si gênant que ça, c'est juste voir deux shaarlinks à la suite parlant du même sujet avec les mêmes url, c'est peut-être possible de regrouper ça.
(Permalink)


Shaarlo 25/06/2015

Merci Muges, je ne connaissais même pas leur existence tiens !
Les liens qui font chier sont surtout ceux de ce type :
-http://le_super_site_qui_tue.xxx -> lien 1
-http://le_super_site_qui_tue.xxx/page_au_hasard_de_ce_site_qui_tue -> lien 2

ça arrive assez souvent que deux personnes parlent du même site mais partagent un lien différent. Peut être que je peux envisager un regroupement par nom de domaine ? (mais là je vais me suicider je crois xd)

l'url canonique est vraiment chouette, ça demande de parcourir le DOM de l'url donc ça sera vraiment consommateur mais je vais réfléchir à une solution !
(Permalink)


Shaarlo > espritboudha 25/06/2015

Oui une fusion par titre de lien + approximation de l'url, ça peut être jouable :)
(Permalink)



^_^ Pour attraper un élément dans le DOM en PHP, j'aime bien utiliser "SImple HTML DOM Parser"-> http://simplehtmldom.sourceforge.net/
C'est une petite librairie qui ne consomme pas beaucoup, et qui est bien documentée. J'ai pas l'impression que ce projet soit suivi, mais ça fonctionne bien pour moi en php5.6.
Beaucoup d'exemples dans l'archive*
Je m'en suis servi sur mon piti web-editeur http://myedit.io/ :)
Pour choper le <link rel="canonical" et les différents <meta > d'une page, le créer si il n'existe pas, et remplacer leurs valeurs, dans mon cas c'est pour falsifier la pré-visualisation sur divers réseaux-asociaux.